Jose Novoa 3
Jose Novoa 3
Jose Novoa 2
Jose Novoa 1
Jose Novoa 3 Jose Novoa 2 Jose Novoa 1
  • La investigación de grado presentada pretende mejorar la interacción humano robot en ambientes hostiles con problemas de acústica que dificulten el reconocimiento de la voz humana en situaciones reales.

Esta semana, José Novoa Ilić se convirtió en un nuevo titulado del programa de doctorado del Departamento de Ingeniería Eléctrica –DIE- de la Universidad de Chile bajo la tutela del profesor, Néstor Becerra Yoma, del Laboratorio de Procesamiento y Transmisión de Voz, después de 4.5 años.

Tras la defensa de la tesis doctoral titulada “DNN-HMM based Automatic Speech Recognition for HRI Scenarios”, o en español, “Reconocimiento robusto de voz en ambientes ruidosos y reverberante usando sistemas basados en redes neuronales profundas”, José Novoa, obtuvo el grado de doctor en Ing. Eléctrica de esta Casa de Estudios.

El documento que presentó el nuevo doctor del Departamento pretende mejorar la tecnología presente en las actuales aplicaciones de reconocimiento de voz que permiten la interacción humano robot –HRI- con la incorporación de un nuevo modelado para entornos complejos u hostiles que impidan a los robots la escucha normal de la voz humana para llevar a cabo sus órdenes, tal como ocurre en ambientes reales, tales como los industriales, domésticos o de servicios con mucho ruido, reverberantes y canal acústico variable.

José Novoa, explica. “Se desarrollaron nuevos métodos y técnicas para mejorar la robustez de los sistemas de reconocimiento de voz en ambientes hostiles o complejos con ruido aditivo, reverberación del lugar, provocado por las paredes reflectantes y canal acústico variable provocado por el movimiento relativo de las personas y el robot. La idea es tener un sistema que pueda funcionar a pesar de los cambios, en el tiempo, del canal acústico variable de la reverberación y  ruido aditivo que impida que un robot entienda lo que estoy tratando de comunicar”.

Agrega, “es muy gratificante saber que mejoramos los resultados de las APIS (application programming interface) de Google, Microsoft, IBM, las cuales están disponibles públicamente, en las situaciones que abordamos y modelamos. Por lo mismo, puedo decir que este trabajo es súper épico, porque a pesar de tener mucho menos infraestructura logramos resultados competitivos”.

Novoa, finaliza explicando. “El sistema de reconocimiento de voz que nosotros hicimos, basado en un entrenamiento con modelos o representación del ambiente acústico, logra menos errores que las aplicaciones de interfaces que están disponibles para todos. Actualmente, para lograr un reconocimiento de voz a distancia se necesita realizar un entrenamiento de decenas o centenas de horas con datos del sistema, pero nosotros lo logramos con apenas 15 horas demuestras de voz. Es decir, con mucho menos horas de entrenamiento podemos obtener mejores resultados”.

La comisión examinadora de la tesis de grado estuvo conformada por los profesores Manuel Duarte Mermoud y César Azurdia Meza, ambos del DIE; John Atkinson Abutridy, director de iUAI Tech Center de la Universidad Adolfo Ibáñez y Carlos Busso Recabarren, académico de la Universidad de Texas en Dallas, USA.