Puertas traseras; un gran inconveniente para el machine learning

Un agujero de seguridad en modelos pre-entrenados

Entre los cuentos más conocidos de Las mil y una noches se encuentra el de Alí Babá y los cuarenta ladrones. El protagonista de este relato, Alí Babá, descubre accidentalmente la guarida donde los ladrones esconden el botín. Lo más notable del escondrijo es que tiene una entrada secreta que permanece oculta a los ojos indiscretos y que sólo es accesible al jefe de los ladrones. Estas puertas mágicas propias de los cuentos de  Sherezade tienen su correspondiente real en el mundo del machine learning (ML) y al igual que las legendarias, también abren puertas a tesoros poco legítimos.

Una de las técnicas más usadas en ML son los llamados métodos supervisados,  estos métodos requieren un buen número de ejemplos previamente etiquetados si hablamos de un clasificador. Por ejemplo, un clasificador binario sería una función que tras un entrenamiento consistente ofrece un conjunto de datos ya clasificados que “modelan” su comportamiento, etiqueta correctamente otros valores no clasificados previamente, desde un punto de vista más formal representamos el modelo como una función:

De esta forma si tomamos un valor x perteneciente al conjunto este sería capaz de clasificarlo correctamente. En este contexto una puerta trasera en un modelo consistiría en realizar un entrenamiento tal que dado un valor x’ muy cercano a otro valor x se tendría que:

De tal forma que x estaría bien clasificado mientras que x’ no.

¿Qué implicaciones tiene todo esto?

Alguien podría entrenar maliciosamente un algoritmo capaz de clasificar correctamente, salvo para un valor o conjunto de valores cuya clasificación sería incorrecta. Los errores de clasificación son inherentes a estos métodos, siempre encontraremos falsos positivos y falsos negativos que en ausencia de sesgos en los datos de entrenamiento son asumibles.

Sin embargo las puertas traseras no son errores propiamente dichos, el modelo es capaz de predecir correctamente ya que se le ha inducido a dar esa salida ante esa entrada. E problema es que la salida ofrecida sólo es útil para propósitos maliciosos y perjudicial para el usuario del modelo, ya que le estaría ofreciendo una salida incorrecta según su marco de referencia.

Recientemente Shafi Goldwasser [1] y su equipo de investigación del instituto Weizmann de Ciencias de Israel ha demostrado que los algoritmos de tiempo polinómico con puertas traseras son indistinguibles de los no maliciosos, incluso aunque se tenga acceso al código o a los pesos de las redes neuronales.

¿Cómo afecta al Machine Learning?

De una forma mucho más dramática de lo que pudiera parecer.  Los recursos necesarios para entrenar correctamente un modelo supervisado suelen ser cuantiosos, por un lado se necesitan conocimientos suficientes de algoritmia, por otro lado se necesita disponer de una fuente de datos etiquetados considerable,  finalmente se requiere potencia de cómputo para entrenar el modelo.

Cuando hablamos de deep learning este proceso es aún más costoso, por lo que es muy común que se recurra a modelos ya entrenados o pre-entrenados disponibles en internet. En muchos casos estos modelos han sido realizados en universidades o centros de investigación de renombre. Aunque incluso en este caso, nadie nos garantiza que estén exentos de una puerta trasera preparada para abrirse al introducir un valor específico con un ligera perturbación a modo de “ábrete sésamo”.

Imaginemos, por ejemplo, un modelo preparado para clasificar solicitudes de créditos y que ha demostrado una solvencia sobrada dando préstamos, pero que contiene una puerta trasera capaz de dar la mejor clasificación a cualquier perfil, siempre y cuando sus datos contengan la perturbación adecuada. Este y otros desarrollos teóricos nos advierten sobre la posibilidad de introducir sesgos con propósitos maliciosos en modelos mostrando también lo fácil que resultaría repartir este modelo entre diferentes actores que estarían incorporando fallos especialmente diseñados en sus métodos de ML.

Los usos maliciosos pueden tener motivaciones económicas

O intenciones más destructivas, en cualquier caso la posibilidad teórica existe. Este no es el único peligro al que están expuestos los sistemas de clasificación. Por ejemplo, las redes convolucionales son muy precisas a la hora de clasificar imágenes, sin embargo son muy poco robustas ante pequeñas perturbaciones en las entradas [2], y en general ha quedado demostrado que pueden dar resultados no intuitivos [3] .

Existen métodos para certificar la robustez de algunos modelos, la propia Shafi Goldwasser advierte del riesgo de usar modelos ajenos pero también propone un método para eliminar o reducir este riesgo usando un suavizado aleatorio (Randomized Smoothing) [4].  Entre las conclusiones evidentes está la importancia de fomentar el conocimiento en ML y no limitarse a copiar desarrollos de terceros sin saber lo que realmente se está haciendo.  El equipo de I+D de Aerin sistemas dispone del conocimiento teórico suficiente para abordar estos detalles técnicos, siempre usamos código desarrollado por nosotros e implementamos nuestros propios algoritmos procurando estar siempre a la vanguardia en el campo de la inteligencia artificial.

Referencias bibliográficas

[1] GOLDWASSER, Shafi, et al. Planting Undetectable Backdoors in Machine Learning Models. arXiv preprint arXiv:2204.06974, 2022.

[2] COHEN, Jeremy; ROSENFELD, Elan; KOLTER, Zico. Certified adversarial robustness via randomized smoothing. En International Conference on Machine Learning. PMLR, 2019. p. 1310-1320.

[3] SZEGEDY, Christian, et al. Intriguing properties of neural networks. arXiv preprint arXiv:1312.6199, 2013.