Reconocimiento facial

La identificación de personas a través de técnicas de visión artificial supone un reto técnico considerable al tiempo que presenta importantes dilemas éticos. Como la mayor parte de los avances humanos la inteligencia artificial puede emplearse para el bien común o para beneficio de unos pocos en perjuicio de muchos. Las técnicas de visión artificial no son muy diferentes en este sentido teniendo un lado capaz de facilitarnos la vida, ayudando,  por ejemplo, a un dermatólogo a diferenciar entre un lunar normal y un posible candidato a lesión maligna, o inclinarse hacia un uso más oscuro como de de controlar a la población sin su consentimiento. En los países democráticos son las leyes las que garantizan el buen uso de estas técnicas, pero por desgracia el poder legislativo no suele anticiparse a las necesidades o sus incentivos no siempre caen dentro del ámbito del bien común. Por ese motivo es fundamental que la población disponga de la cultura científico técnica suficiente para saber ejercer la presión adecuada sobre sus  dirigentes impidiendo el uso inadecuado de las tecnologías.  

 

¿Qué es la identificación mediante reconocimiento facial?.

 

Básicamente consiste en dotar a una máquina de la  capacidad de identificar a una persona unívocamente entre una base de datos de conocidos usando para ello  rasgos y características faciales. 

 

Esta identificación se realiza en dos pasos:

 

  • El reconocimiento de la cara humana.
  • Identificación de la persona entre la base de datos de conocidos.

 

La primera parte de esta identificación consiste en localizar caras entre los diferentes elementos de la imagen. Esta tarea puede realizarse usando diferentes técnicas, aunque la más robusta pasa por emplear redes neuronales artificiales. Las redes neuronales artificiales son, como su propio nombre indica,  construcciones artificiales inspiradas en las neuronas naturales. Una neurona es una célula capaz de recibir y transmitir estímulos mediante la excitación  eléctrica.

 

Los estímulos son recibidos a través de las dendritas  y en función de estas entradas la neurona puede activarse y mandar estímulos a través de los axones terminales a otras neuronas o no activarse si el estímulo no es suficiente. Las redes neuronales forman capas que se conectan entre ellas a través de los axones y las dendritas. En las redes neuronales artificiales las salidas de las neuronas en conexión con las siguientes se multiplican por un valor o “peso”. Las redes neuronales, tanto las naturales como las artificiales, requieren ser entrenadas adecuadamente. Para ello se les dan unos estímulos de entrada y conociendo de antemano las salidas correctas. Luego mediante un proceso iterativo se ajustan los pesos para minimizar el error de las salidas. Una vez entrenadas con un conjunto suficientemente representativos de datos se puede considerar que la red ha “aprendido” siendo capaz de dar las salidas correctas ante los nuevos estímulos.  En el ámbito de la visión artificial son empleadas un tipo especial de red neuronal, las redes neuronales convolucionales (CNN)  que se inspiran en las neuronas que forman la corteza visual primaria. Para un caso tan complejo como el de la localización de rostros, es necesario proporcionar al sistema un número muy grande de datos etiquetados. 

 

Una vez reconocidas las caras el sistema recorta la misma e inicia la segunda parte del proceso, la identificación de la cara. En esta fase la identificación puede ser completa, buscando el rostro más parecido entre una lista de imágenes o simplemente clasificando los rostros como conocidos o desconocidos. Para este propósito se usan diversas técnicas, una de las más efectivas pasa por extraer elementos característicos de la cara (eigenfaces), por ejemplo basándose en análisis estadístico de muchas caras. A continuación se comparan los elementos de la cara que se quiere comparar con las caras guardadas en la base de datos, un método sencillo pero efectivo es medir la distancia euclídea entre los eigenfaces. Cuando esta distancia es menor que un umbral establecido se considera que ambos rostros coinciden. 

 

Como puede verse para que funcione la identificación las dos técnicas tienen que trabajar correctamente. Cuando el reconocimiento no es lo suficientemente bueno, no siendo capaz de localizar caras parcialmente ocultas, ladeadas etc, de nada nos servirá tener un método excelente de identificación si no es capaz de darse cuenta de que en la imagen aparecen rostros humanos. 

 

¿Son efectivos estos métodos?

 

Eso dependerá de la implementación concreta ya que en función de la técnica usada los resultados pueden variar considerablemente. La siguiente gráfica muestra algunos de los algoritmos empleados por diferentes compañías. 

Cómo puede observarse no existe ningún método que ofrezca un ratio de falsos positivos igual a 0, los mejores, tales como Face++ alcanzan una exactitud del 99.50% o incluso el 99.78%. Sin embargo, hay que tener en cuenta que por lo general cúando se publican los resultados en las revistas científicas los ensayos se suelen hacer sobre grandes test de imágenes estáticas y no tanto sobre vídeo. Por lo tanto los resultados en entornos reales pueden ser menores, incluso sensiblemente menores, cuando se aplican a vídeos en condiciones reales. Además existen dos formas de emplear estos métodos:

 

  1. Situaciones controladas, como las empleadas en los móviles:
    Estos entornos son muy controlados, el entrenamiento y la captura se realiza desde la misma cámara, sin movimiento y el dataset para comparar suele ser pequeño (el usuario principal y alguno secundario). En estos casos el resultado tiene mucha más precisión por razones obvias.
  2. Cámaras de videovigilancia donde las escenas contabilizan varias personas en movimiento:
    En estos casos las dificultades son mucho mayores por la falta de control en el entorno. El movimiento, la mala iluminación, la captura de rostros parciales o la presencia de personas con gorros, gafas, bufandas, mascarillas pueden hacer muy difícil el reconocimiento.

 

Los sistemas de reconocimiento facial son mucho más robustos frente a la paraedolia (fenómeno de reconocer caras donde no existen) pero no están tampoco libres de él. Este fenómeno en entornos artificiales es muy similar al natural ya que se produce de forma muy rápida en la fase de localización de rostros pero en el caso de los sistemas artificiales tiene además un handicap añadido ya que los sistemas suelen pasarlos por caras reales incluso en aquellos casos en los que un humano podría descartarlos  rápidamente.  

Existen además métodos capaces de despistar a la mayoría de los sistemas de reconocimiento; por ejemplo, ciertos movimientos muy bruscos o maquillajes específicos pueden hacer muy difícil la tarea. 

Una dificultad añadida se encuentra en el empleo de elementos que oculten parte de la cara, como por ejemplo las mascarillas. La boca es un elemento fundamental, sobre todo en la primera fase del proceso, por lo que retirar la nariz y la boca impide la identificación casi por completo. AITea, en ciertas condiciones de uso puede alcanzar ratios similares a los humanos a la hora de reconocer caras con mascarilla y sigue siendo muy efectivo incluso con gorros o bufandas. 

Problemas éticos en torno al reconocimiento facial 

 

Los usos de estas técnicas pueden ser sumamente útiles y beneficiosas. Por un lado nos facilitan la vida, desbloqueando el móvil o permitiéndonos el acceso a nuestras casas o a las oficinas. También pueden emplearse para detectar individuos peligrosos, en busca y captura, localizar a personas desaparecidas analizando cientos de horas de vídeo en muy poco tiempo. Sin embargo, una compañía o un estado sin escrúpulos también podría controlar de forma indebida a sus empleados o ciudadanos.  Para saber detectar estos malos usos hay que conocer las limitaciones y posibles sesgos de estas técnicas:

 

    1. Sesgo en ciertas condiciones: Una mala iluminación puede hacer que el sistema confunda a dos personas sin estas tienen algún parecido. En estas circunstancias podría detenerse a una persona si es confundida con un delincuente. Casos de este tipo han ocurrido en varias ocasiones lo que ha llevado a abandonar este tipo de técnicas en ciertas ciudades. 
    2. Sesgos raciales: Las redes neuronales deben ser entrenadas con miles de caras y muchas veces no se dispone del número suficiente de personas de un determinado grupo étnico. En estas circunstancias el sistema puede confundir más fácilmente a personas con rasgos poco comunes en el dataset de entrenamiento. Este sesgo puede dar lugar a situaciones muy injustas, en muchos casos involuntarias pero que aumenta la discriminación racial.  
    3. Adquisición de imágenes sin nuestro conocimiento o permiso: Muchas veces puede leerse que tal o cual sistema “captura únicamente una matriz de nuestros rasgos” y no nuestra imagen real. Esto es una falsedad que intenta ocultar lo que realmente sucede, que la matriz de datos representa nuestra imagen (una imagen no es más que una matriz de datos). Cuando aceptamos las condiciones de algunas aplicaciones podríamos estar cediendo a terceros estas matrices etiquetadas con nuestros datos sin saber exactamente qué van a hacer con ellas. 
  • Uso abusivo por parte de los países: Cuando las libertades no están garantizadas en un país el uso de estas técnicas puede asemejarse al panorama que nos pintaba Orwel en “1984”. Si a esto le añadimos los sesgos y las imperfecciones del sistema es fácil imaginar no solo un estado ultra controlador sino además poco o nada preocupado por los “falsos positivos”.  No hay que olvidar que el país más puntero en este sentido es actualmente China que no es precisamente también el más puntero en garantizar todos los derechos y libertades  de sus ciudadanos.  

 

Usos legítimos del reconocimiento facial 

 

Una vez descritos los peligros de esta tecnología es preciso también enumerar una gran cantidad de usos útiles y legítimos desde el punto de vista ético. Por ejemplo, podemos facilitar mucho el acceso a oficinas u otros lugares usando nuestro rostro como identificador, si la cesión de nuestra imagen se limita a este uso, sin establecer más control sobre el usuario, su utilidad está fuera de toda duda. Si la identificación se acompaña de otras técnicas, como el análisis de sentimientos, tenemos una combinación que habrá de ser muy importante en los futuros robots que deban interacturar con el ser humano. Existen por supuesto otras muchas aplicaciones como la de localizar personas perdidas (un niño en una gran superficie), mediante el análisis de todas las cámaras, o la de ayudar a las fuerzas de seguridad a localizar desaparecidos.  Otras muchas aplicaciones podrán implementarse en el futuro, éticas unas y de dudosa legitimidad otras, lo cierto es que con el conocimiento adecuado por parte del ciudadano de a pie resultará mucho más fácil evitar las segundas y fomentar el desarrollo de las primeras. 

Aerín Sistemas