El Sistema De Aprendizaje Automático Replica El Comportamiento Auditivo Humano Y Predice Las Respuestas Cerebrales

Los procesos del sistema de aprendizaje automático suenan como humanos

Imagen: Chelsea Turner / MIT

Mediante un sistema de aprendizaje automático conocido como red neuronal profunda, MIT Los investigadores han creado el primer modelo que puede replicar el desempeño humano en tareas auditivas como identificar un género musical.

Este modelo, que consta de muchas capas de unidades de procesamiento de información que se pueden entrenar en grandes volúmenes de datos para realizar tareas específicas, fue utilizado por los investigadores para arrojar luz sobre cómo el cerebro humano puede estar realizando las mismas tareas.

“Lo que nos brindan estos modelos, por primera vez, son sistemas de máquinas que pueden realizar tareas sensoriales que son importantes para los humanos y que lo hacen a nivel humano”, dice Josh McDermott, profesor asistente de neurociencia Frederick A. y Carole J. Middleton en el Departamento de Ciencias Cerebrales y Cognitivas del MIT y autor principal del estudio. “Históricamente, este tipo de procesamiento sensorial ha sido difícil de entender, en parte porque realmente no hemos tenido una base teórica muy clara y una buena manera de desarrollar modelos de lo que podría estar sucediendo”.

El estudio, que aparece en la edición del 19 de abril de Neuron, también ofrece evidencia de que la corteza auditiva humana está organizada en una organización jerárquica, muy parecida a la corteza visual. En este tipo de disposición, la información sensorial pasa por etapas sucesivas de procesamiento, con información básica procesada antes y características más avanzadas como el significado de las palabras extraídas en etapas posteriores.

El estudiante graduado del MIT, Alexander Kell, y el profesor asistente de la Universidad de Stanford, Daniel Yamins, son los autores principales del artículo. Otros autores son la ex estudiante visitante del MIT Erica Shook y el ex postdoctorado del MIT Sam Norman-Haignere.

Modelando el cerebro

Cuando las redes neuronales profundas se desarrollaron por primera vez en la década de 1980, los neurocientíficos esperaban que tales sistemas pudieran usarse para modelar el cerebro humano. Sin embargo, las computadoras de esa época no eran lo suficientemente poderosas para construir modelos lo suficientemente grandes para realizar tareas del mundo real como el reconocimiento de objetos o el reconocimiento de voz.

Durante los últimos cinco años, los avances en la potencia informática y la tecnología de redes neuronales han hecho posible el uso de redes neuronales para realizar tareas difíciles del mundo real, y se han convertido en el enfoque estándar en muchas aplicaciones de ingeniería. Paralelamente, algunos neurocientíficos han revisado la posibilidad de que estos sistemas puedan usarse para modelar el cerebro humano.

“Esa ha sido una oportunidad emocionante para la neurociencia, ya que podemos crear sistemas que pueden hacer algunas de las cosas que la gente puede hacer, y luego podemos interrogar los modelos y compararlos con el cerebro”, dice Kell.

Los investigadores del MIT entrenaron su red neuronal para realizar dos tareas auditivas, una relacionada con el habla y la otra con la música. Para la tarea del habla, los investigadores le dieron al modelo miles de grabaciones de dos segundos de una persona hablando. La tarea consistía en identificar la palabra en medio del clip. Para la tarea de música, se le pidió al modelo que identificara el género de un clip de música de dos segundos. Cada clip también incluía ruido de fondo para hacer la tarea más realista (y más difícil).

Después de muchos miles de ejemplos, el modelo aprendió a realizar la tarea con la misma precisión que un oyente humano.

“La idea es que con el tiempo el modelo mejora cada vez más en la tarea”, dice Kell. “La esperanza es que esté aprendiendo algo general, por lo que si presenta un sonido nuevo que el modelo nunca ha escuchado antes, le irá bien y, en la práctica, ese suele ser el caso”.

El modelo también tendía a cometer errores en los mismos clips en los que los humanos cometieron más errores.

Las unidades de procesamiento que componen una red neuronal pueden combinarse de diversas formas, formando diferentes arquitecturas que afectan el rendimiento del modelo.

El equipo del MIT descubrió que el mejor modelo para estas dos tareas era el que dividía el procesamiento en dos conjuntos de etapas. El primer conjunto de etapas se compartió entre tareas, pero después de eso, se dividió en dos ramas para un análisis más detallado: una rama para la tarea de habla y otra para la tarea de género musical.

Evidencia de jerarquía

Luego, los investigadores utilizaron su modelo para explorar una pregunta de larga data sobre la estructura de la corteza auditiva: si está organizada jerárquicamente.

En un sistema jerárquico, una serie de regiones del cerebro realiza diferentes tipos de cálculos sobre la información sensorial a medida que fluye a través del sistema. Está bien documentado que la corteza visual tiene este tipo de organización. Las regiones anteriores, conocidas como corteza visual primaria, responden a características simples como el color o la orientación. Las etapas posteriores permiten tareas más complejas como el reconocimiento de objetos.

Sin embargo, ha sido difícil probar si este tipo de organización también existe en la corteza auditiva, en parte porque no ha habido buenos modelos que puedan replicar el comportamiento auditivo humano.

“Pensamos que si podíamos construir un modelo que pudiera hacer algunas de las mismas cosas que hace la gente, entonces podríamos comparar diferentes etapas del modelo con diferentes partes del cerebro y obtener alguna evidencia de si esas partes del el cerebro podría estar organizado jerárquicamente ”, dice McDermott.

Los investigadores encontraron que en su modelo, las características básicas del sonido, como la frecuencia, son más fáciles de extraer en las primeras etapas. A medida que la información se procesa y avanza a lo largo de la red, se vuelve más difícil extraer la frecuencia, pero más fácil extraer información de nivel superior, como palabras.

Para ver si las etapas del modelo podrían replicar cómo la corteza auditiva humana procesa la información del sonido, los investigadores utilizaron imágenes de resonancia magnética funcional (fMRI) para medir diferentes regiones de la corteza auditiva a medida que el cerebro procesa los sonidos del mundo real. Luego compararon las respuestas del cerebro con las respuestas en el modelo cuando procesó los mismos sonidos.

Descubrieron que las etapas intermedias del modelo correspondían mejor a la actividad en la corteza auditiva primaria, y las etapas posteriores correspondían mejor a la actividad fuera de la corteza primaria. Esto proporciona evidencia de que la corteza auditiva podría estar organizada de manera jerárquica, similar a la corteza visual, dicen los investigadores.

“Lo que vemos muy claramente es una distinción entre la corteza auditiva primaria y todo lo demás”, dice McDermott.

Alex Huth, profesor asistente de neurociencia e informática en la Universidad de Texas en Austin, dice que el artículo es emocionante en parte porque ofrece evidencia convincente de que la parte inicial de la corteza auditiva realiza un procesamiento de sonido genérico mientras que la corteza auditiva superior realiza más Tareas especializadas.

“Este es uno de los misterios en curso en la neurociencia auditiva: ¿Qué distingue a la corteza auditiva temprana de la corteza auditiva superior? Este es el primer artículo que he visto que tiene una hipótesis computacional para eso ”, dice Huth, que no participó en la investigación.

Los autores ahora planean desarrollar modelos que puedan realizar otros tipos de tareas auditivas, como determinar la ubicación de la que proviene un sonido en particular, para explorar si estas tareas se pueden realizar por las vías identificadas en este modelo o si requieren vías separadas. que luego podría investigarse en el cerebro.

La investigación fue financiada por los Institutos Nacionales de Salud, la Fundación Nacional de Ciencias, una Beca de Posgrado en Ciencias Computacionales del Departamento de Energía y un premio McDonnell Scholar.

Publicación: Alexander JE Kell, et al., “Una red neuronal optimizada para tareas replica el comportamiento auditivo humano, predice las respuestas cerebrales y revela una jerarquía de procesamiento cortical”, Neuron, 2018; doi: 10.1016 / j.neuron.2018.03.044

Añadir un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *