Un nuevo estudio del Instituto de Tecnología de Massachusetts (MIT) ha descubierto que los modelos computacionales modernos derivados del 'machine learning', que imitan la estructura y función del sistema auditivo humano, se están acercando a poder ayudar a los investigadores a diseñar mejores audífonos, implantes cocleares e interfaces cerebro-máquina.
En el hasta ahora más grande estudio sobre redes neuronales profundas entrenadas para tareas auditivas, el equipo del MIT demostró que la mayoría de estos modelos generan representaciones internas que comparten propiedades de las representaciones observadas en el cerebro humano, cuando las personas escuchan los mismos sonidos.
“Lo que distingue a este estudio es que es la comparación más completa de este tipo de modelos con el sistema auditivo hasta el momento. El estudio sugiere que los modelos derivados del 'machine learning' son un paso en la dirección correcta y nos da algunas pistas sobre lo que tiende a convertirlos en mejores modelos del cerebro”, afirma Josh McDermott, profesor asociado de cerebro y cognitivo del MIT, y autor principal del estudio.
"Estos modelos que se construyen con machine learning son capaces de mediar comportamientos en una escala que realmente no era posible con tipos de modelos anteriores"
Los investigadores explican que las redes neuronales profundas son modelos computacionales que constan de muchas capas de unidades de procesamiento de información, que pueden entrenarse con grandes volúmenes de datos. Este tipo de modelo se ha utilizado ampliamente en muchas aplicaciones y los neurocientíficos han comenzado a explorar la posibilidad de que estos sistemas también puedan usarse para describir cómo el cerebro humano realiza ciertas tareas.
"Estos modelos que se construyen con 'machine learning' son capaces de mediar comportamientos en una escala que realmente no era posible con tipos de modelos anteriores, y eso ha generado interés en si las representaciones en los modelos podrían capturar cosas que están sucediendo en el cerebro”, señaló la estudiante graduada del MIT Greta Tuckute.
Cuando una de estas redes neuronales realiza una tarea, sus unidades de procesamiento generan patrones de activación en respuesta a cada entrada de audio, como pueden ser una palabra u otro tipo de sonido. Ya en el 2018, McDermott y el entonces estudiante graduado Alexander Kell, informaron de ciertas similitudes con las exploraciones por resonancia magnética funcional.
Desde entonces este tipo de modelos se han utilizado ampliamente, por lo que el equipo de investigación de McDermott, se propuso para evaluar un conjunto más amplio de modelos, para ver si la capacidad de aproximarse a las representaciones neuronales vistas en el cerebro humano es un rasgo general de estos modelos.
El nuevo estudio, también respalda la idea de que la corteza auditiva humana tiene cierto grado de organización jerárquica, en la que el procesamiento se divide en etapas que respaldan distintas funciones computacionales
Para realizar este estudio, los investigadores analizaron nueve modelos de redes neuronales profundas disponibles públicamente que habían sido entrenados para realizar tareas auditivas, y también crearon 14 modelos propios, basados en dos arquitecturas diferentes. La mayoría de estos fueron entrenados para una sola tarea, comprender palabras, identificar al hablante, reconocer sonidos ambientales y distinguir géneros musicales, mientras que dos de ellos recibieron un entrenamiento para realizar múltiples tareas. La conclusión se centró en que los modelos cuyas representaciones eran más similares a las vistas en el cerebro eran modelos que habían sido entrenados en más de una tarea y con información auditiva que incluía ruido de fondo.
El nuevo estudio también respalda la idea de que la corteza auditiva humana tiene cierto grado de organización jerárquica, en la que el procesamiento se divide en etapas que respaldan distintas funciones computacionales. Del mismo modo que el estudio de 2018, los investigadores encontraron que las representaciones generadas en etapas anteriores del modelo se parecen más a las observadas en la corteza aditiva primaria, mientras que las representaciones generadas en etapas posteriores del modelo se parecen más a las generadas en regiones del cerebro más allá.
"Aunque el modelo ha visto exactamente los mismos datos de entrenamiento y la arquitectura es la misma, cuando optimizas para una tarea en particular, puedes ver que explica selectivamente propiedades de sintonización específicas en el cerebro", recalca Tuckute.