Nuevo Software Para Guiar Aviones Autónomos Mediante Gestos Manuales

Usando un algoritmo que infiere la posición del cuerpo y la forma de las manos de los sujetos, MIT Los ingenieros están trabajando en un software que eventualmente podría ayudar a las tripulaciones de los portaaviones a guiar aviones autónomos en la cubierta de vuelo mientras usan gestos manuales comunes.

La tripulación del portaaviones utiliza un conjunto de gestos estándar con las manos para guiar a los aviones en la cubierta del portaaviones. Pero a medida que los aviones robot se utilizan cada vez más para misiones aéreas de rutina, los investigadores del MIT están trabajando en un sistema que les permitiría seguir los mismos tipos de gestos.

El problema de interpretar las señales con las manos tiene dos partes distintas. La primera es simplemente inferir la pose del cuerpo del comunicante a partir de una imagen digital: ¿Están las manos hacia arriba o hacia abajo, los codos hacia adentro o hacia afuera? El segundo es determinar qué gesto específico se representa en una serie de imágenes. Los investigadores del MIT se preocupan principalmente por el segundo problema; presentan su solución en la edición de marzo de la revista ACM Transactions on Interactive Intelligent Systems. Pero para probar su enfoque, también tuvieron que abordar el primer problema, lo que hicieron en el trabajo presentado en la Conferencia Internacional IEEE del año pasado sobre el reconocimiento automático de rostros y gestos.

Yale Song, un estudiante de doctorado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, su asesor, el profesor de ciencias de la computación Randall Davis, y David Demirdjian, un científico investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL), grabaron una serie de videos en donde varias personas diferentes realizaron un conjunto de 24 gestos comúnmente utilizados por el personal de cubierta de los portaaviones. Para probar su sistema de identificación de gestos, primero tenían que determinar la pose corporal de cada sujeto en cada cuadro de video. “En estos días, puede usar fácilmente Kinect estándar o muchos otros controladores”, dice Song, refiriéndose al popular dispositivo Microsoft Xbox que permite a los jugadores controlar los videojuegos mediante gestos. Pero eso no era cierto cuando los investigadores del MIT comenzaron su proyecto; para complicar aún más las cosas, sus algoritmos tenían que inferir no solo la posición del cuerpo sino también la forma de las manos de los sujetos.

El software de los investigadores del MIT representó el contenido de cada fotograma de video usando solo algunas variables: datos tridimensionales sobre las posiciones de los codos y muñecas, y si las manos estaban abiertas o cerradas, los pulgares hacia arriba o hacia abajo. La base de datos en la que los investigadores almacenaron secuencias de tales representaciones abstractas fue el tema del artículo del año pasado. Para el nuevo artículo, utilizaron esa base de datos para entrenar su algoritmo de clasificación de gestos.

El principal desafío en la clasificación de las señales, explica Song, es que la entrada, la secuencia de posiciones del cuerpo, es continua: los miembros de la tripulación en la cubierta del portaaviones están en constante movimiento. El algoritmo que clasifica sus gestos, sin embargo, no puede esperar hasta que dejen de moverse para comenzar su análisis. “No podemos simplemente darle miles de fotogramas, porque tomará una eternidad”, dice Song.

El algoritmo de los investigadores trabaja así en una serie de secuencias cortas de posturas corporales; cada uno tiene unos 60 fotogramas de longitud, o el equivalente a unos tres segundos de vídeo. Las secuencias se superponen: la segunda secuencia puede comenzar, digamos, en el cuadro 10 de la primera secuencia, la tercera secuencia en el cuadro 10 de la segunda, y así sucesivamente. El problema es que ninguna secuencia puede contener suficiente información para identificar de manera concluyente un gesto, y un nuevo gesto podría comenzar a la mitad de un cuadro.

Para cada fotograma de una secuencia, el algoritmo calcula la probabilidad de que pertenezca a cada uno de los 24 gestos. Luego, calcula un promedio ponderado de las probabilidades de toda la secuencia. La identificación de gestos se basa en los promedios ponderados de varias secuencias sucesivas, lo que mejora exactitud , ya que los promedios conservan información sobre cómo se relaciona cada cuadro con los anteriores y posteriores. Al evaluar las probabilidades colectivas de secuencias sucesivas, el algoritmo también asume que los gestos no cambian con demasiada rapidez o de forma demasiado errática.

En las pruebas, el algoritmo de los investigadores identificó correctamente los gestos recopilados en la base de datos de entrenamiento con un 76 por ciento de precisión. Obviamente, ese no es un porcentaje lo suficientemente alto para una aplicación en la que las tripulaciones de cubierta, y equipos multimillonarios, confían para su seguridad. Pero Song cree que sabe cómo aumentar la precisión del sistema. Parte de la dificultad de entrenar el algoritmo de clasificación es que tiene que considerar tantas posibilidades para cada pose que se le presenta: para cada posición de brazo hay cuatro posiciones de mano posibles, y para cada posición de mano hay seis posiciones de brazo posibles. En el trabajo en curso, los investigadores están modificando el algoritmo para que considere la posición del brazo y la posición de la mano por separado, lo que reduce drásticamente la complejidad computacional de su tarea. Como consecuencia, debería aprender a identificar gestos a partir de los datos de entrenamiento de manera mucho más eficiente.

Philip Cohen, cofundador y vicepresidente ejecutivo de investigación de Adapx, una empresa que crea interfaces informáticas que se basan en medios naturales de expresión, como la escritura a mano y el habla, dice que el nuevo artículo de los investigadores del MIT ofrece “una extensión y combinación novedosas de técnicas de reconocimiento de gestos basadas en modelos y apariencia para el seguimiento del cuerpo y la mano mediante visión por computadora y aprendizaje automático “.

“Estos resultados son importantes y presagian una próxima etapa de investigación que integra el reconocimiento de gestos basado en la visión en tecnologías de interacción multimodal humano-computadora y humano-robot”, dice Cohen.

Imagen: Oficina de noticias del MIT

Etiquetas:,

Añadir un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *