El CDTI invierte en Aitenea, el framework para soluciones machine learning.

Easy Machine Learning

Desde el Centro para el Desarrollo Tecnológico Industrial han invertido en Aitenea, un completo ecosistema perfecto para experimentar con algoritmos avanzados. Facilitando la automatización de entrenamientos en paralelo y la realización de modelos y su despliegue. Todo esto con el objetivo de acelerar la aplicación y producción de soluciones en Machine Learning.

De esta forma favorece que personal experto en algoritmia y tratamiento de datos despliegue o cree algoritmos y los pruebe automáticamente. 

También permite la evaluación de los resultados de forma autónoma e incluso desplegar, modificar y evaluar distintos algoritmos.

¿De dónde surge esta idea?

Desde nuestro equipo de I+D+I son conscientes de que en cualquier proceso científico o productivo donde se tiene que aplicar Inteligencia Artificial existen dos tipos de participantes: los que tienen conocimientos técnicos relativos al tratamiento de datos y uso o creación de algoritmos de predicción, y los que conocen los procesos y pueden valorar si las soluciones propuestas son óptimas.

Por otro lado, Europa se está quedando atrás en el diseño de software y hardware para Big Data e Inteligencia Artificial. Desde Estados Unidos y China lideran la mayoría de proyectos, lo que les da una clara ventaja competitiva frente a Europa. Además el veto al fabricante Chino Huawei, puede llegar a hacer que parte de la comunidad China deje de aportar código o que las empresas de Estados Unidos cambien la forma de controlar sus propios proyectos. Si esto sucediera, Europa quedaría como un mero espectador mientras se amplía su actual brecha tecnológica.

Aitenea nace para dar solución a estas dos circunstancias.

Aitenea, desarrollado dentro de un proyecto de código abierto.

Nuestro objetivo es desarrollar un ecosistema más próximo a la programación científica pero que, al mismo tiempo, sea útil para el desarrollo y despliegue de modelos para producción.

Como estructura de datos se emplean los dataframes de Pandas (Dask en su versión distribuida). Además los algoritmos se pueden implementar sin necesidad de emplear librerías de terceros, aunque el diseño no impide librerías como TensorFlow, Ke- ras o Scikit Learn.

Está provisto de una serie de herramientas para la preparación de los datos, transformación, visualización, etc.

Incluirá las técnicas habituales en el desarrollo de modelos con técnicas de ML. Todo ello mediante programación visual para un desarrollo y despliegue rápido de los modelos para producción.

Un diseño flexible e intuitivo

Su arquitectura deberá permitir experimentar y desarrollar nuevos algoritmos y que, tras su desarrollo, estos estén inmediatamente disponibles para la programación más productiva desde la capa visual.

La herramienta permitirá la automatización de todos los procesos y contará con una capa de visualización que permita la implementación de un flujo de programación de forma automática como un algoritmo genético o evolutivo. Así quedará garantizada la ejecución de forma distribuida usando clúster de GPUs o cómputo en la nube.

Su modelo cuenta con cuatro capas:

Una capa de bajo nivel: Con un diseño que permite desarrollar de forma flexible cualquier algoritmo estadístico, de tratamiento de datos o de machine learning.

Una capa intermedia: Cuyo fin es el de enlazar la capa de negocio de algoritmos con la capa de visualización.

Una capa de visualización o interfaz de usuario: que posibilita la manipulación de los algoritmos y la visualización de los resultados de una forma muy intuitiva.

Una capa de datos: Gestionada desde la interfaz anterior y capaz de adquirir datos de diferentes fuentes. Su funcionalidad es fácilmente escalable.

Aitenea y el Colisionador de Partículas del CERN

Para la evaluación de Aitenea se aplicarán datos públicos obtenidos del CMS(Compact Muon Soleoid) del LHC del CERN. Este genera 40 TB de datos cada segundo, lo que supone un gran problema, dado que la mayoría de estos datos son solo ruido.

Gracias a Aitenea se han desarrollado modelos de machine learning, con el objetivo de analizar automáticamente los eventos producidos tras el choque. Descartando aquellos que no resultan representativos.

Con todo ello será más sencillo entender de forma más precisa las propiedades de los constituyentes básicos de la materia. Esta información es fundamental para encontrar discrepancias en el llamado modelo estándar y en su caso, vislumbrar qué nueva teoría podría complementar al modelo estándar.

Pero la cantidad ingente de datos hace que el análisis sea muy complejo y que además requiera una cantidad de soportes físicos descomunal. Poder clasificar los eventos de forma automática, guardando aquellos que son de verdadero interés, es una tarea vital, baste mencionar que actualmente el LHC cuenta con 10.000 servidores y 80.000 discos duros y la cifra no hace más que aumentar.

https://www.aerin.es/aitenea.html

https://www.cdti.es/