Clasificación de eventos para los datos del LHC del CERN

AerinSistemas LHC del CERN
Generar 40 TB de datos cada segundo es un problema mayúsculo, más si se tiene en cuenta que una parte considerable es solo ruido.
Actualmente estamos desarrollando modelos de machine learning con la finalidad de distinguir automáticamente aquellos eventos realmente interesante ayudando así al CERN a reducir los datos que han de analizar.
Los experimentos realizados en Large Hadron Collider (LHC) relacionados con el estudio de los constituyentes fundamentales de la materia, requieren colisiones de alta energía entre partículas. Estas colisiones producen 40 TB de datos cada segundo, pero muchas de las  colisiones son solo ruido. 
El objetivo del experimento es entender de forma más precisa las propiedades de los constituyentes baśicos de la materia y encontrar nuevos constituyentes. Esta información es fundamental para encontrar discrepancias en el llamado modelo estándar y en su caso, vislumbrar qué nueva teoría podría complementar al modelo estándar.
Pero la cantidad ingente de datos hace que el análisis sea muy complejo y que además requiera una cantidad de soportes físicos descomunal. Poder clasificar los eventos de forma automática, guardando aquellos que son de verdadero interés, es una tarea vital, baste mencionar que actualmente el LHC cuenta con 10.000 servidores y 80.000 discos duros y la cifra no hace más que aumentar.
Desde el departamento de Inteligencia Artificial investigamos la forma de clasificar estos eventos mediante técnicas de machine learning.