Auriculares que enfocan la audición en ambientes ruidosos

Universidad de Washington

Resumen

Mire una vez para escuchar: apunte a la audiencia del habla con ejemplos ruidosos

En ambientes llenos de gente, el cerebro humano puede concentrarse en el habla de un hablante objetivo, dado el conocimiento previo de cómo suena. Presentamos un novedoso sistema audible inteligente que logra esta capacidad, permitiendo que la audiencia objetivo ignore todo el habla y el ruido que interfieren, excepto el hablante objetivo. Un enfoque ingenuo es exigir un ejemplo de discurso limpio para inscribir al hablante objetivo. Sin embargo, esto no está bien alineado con el dominio de la aplicación audible, ya que obtener un ejemplo limpio es un desafío en escenarios del mundo real, lo que crea un problema de interfaz de usuario único. Presentamos la primera interfaz de inscripción donde el usuario mira al hablante objetivo durante unos segundos para capturar un ejemplo binaural único, breve y muy ruidoso del hablante objetivo. Este ejemplo ruidoso se utiliza para el registro y posterior extracción de voz en presencia de parlantes que interfieren y ruido. Nuestro sistema logra una mejora en la calidad de la señal de 7,01 dB utilizando menos de 5 segundos de audio de inscripción ruidoso y puede procesar 8 ms de fragmentos de audio en 6,24 ms en una CPU integrada. Nuestros estudios de usuarios demuestran la generalización a altavoces estáticos y móviles del mundo real en entornos multitrayecto interiores y exteriores nunca antes vistos. Finalmente, nuestra interfaz de inscripción para ejemplos ruidosos no causa degradación del rendimiento en comparación con ejemplos limpios, y al mismo tiempo es conveniente y fácil de usar. Dando un paso atrás, este artículo da un paso importante hacia la mejora de la percepción auditiva humana con inteligencia artificial.

Imagen: Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial que permite a un usuario que usa auriculares mirar a una persona que habla durante tres a cinco segundos y luego escuchar solo la voz del orador registrado en tiempo real, incluso cuando el oyente se mueve en lugares ruidosos y ya no. mira al hablante. En la foto se muestra un prototipo del sistema de auriculares: micrófonos binaurales conectados a auriculares con cancelación de ruido disponibles en el mercado. Crédito: Kiyomi Taguchi/Universidad de Washington.

Comentarios

Los auriculares con cancelación de ruido se han vuelto muy buenos a la hora de crear una pizarra en blanco auditiva. Pero permitir que ciertos sonidos del entorno del usuario pasen a través del borrado todavía supone un desafío para los investigadores. La última edición de los AirPods Pro de Apple, por ejemplo, ajusta automáticamente los niveles de sonido para los usuarios, detectando cuando están conversando, por ejemplo, pero el usuario tiene poco control sobre a quién escuchar o cuándo sucede esto.

Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial que permite a un usuario que lleva auriculares mirar a una persona que habla durante tres a cinco segundos para "inscribirla". El sistema, llamado “Target Speech Hearing”, cancela todos los demás sonidos del entorno y reproduce sólo la voz del hablante registrado en tiempo real, incluso cuando el oyente se mueve en lugares ruidosos y ya no mira al hablante.

El equipo presentó sus hallazgos el 14 de mayo en Honolulu en la Conferencia ACM CHI sobre factores humanos en sistemas informáticos. El código del dispositivo de prueba de concepto está disponible para que otros puedan desarrollarlo. El sistema no está disponible comercialmente.

"Ahora tendemos a pensar en la IA como chatbots basados en la web que responden preguntas", dijo el autor principal Shyam Gollakota , profesor de la Universidad de Washington en la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen. “Pero en este proyecto desarrollamos IA para modificar la percepción auditiva de cualquier persona que use auriculares, según sus preferencias. Con nuestros dispositivos ahora puedes escuchar claramente a un solo orador incluso si estás en un ambiente ruidoso con muchas otras personas hablando”.

Para usar el sistema, una persona que usa audífonos estándar equipados con micrófonos presiona un botón mientras dirige su cabeza hacia alguien que habla. Las ondas sonoras de la voz de ese orador deberían llegar a los micrófonos de ambos lados de los auriculares simultáneamente; hay un margen de error de 16 grados. Los auriculares envían esa señal a una computadora integrada a bordo, donde el software de aprendizaje automático del equipo aprende los patrones vocales del hablante deseado. El sistema capta la voz de ese hablante y continúa reproduciéndola para el oyente, incluso cuando la pareja se mueve. La capacidad del sistema para centrarse en la voz registrada mejora a medida que el hablante sigue hablando, lo que proporciona al sistema más datos de entrenamiento.

El equipo probó su sistema en 21 sujetos, quienes calificaron la claridad de la voz del hablante registrado casi el doble que el audio sin filtrar en promedio.

Este trabajo se basa en la investigación anterior sobre "audición semántica" del equipo, que permitió a los usuarios seleccionar clases de sonidos específicos, como pájaros o voces, que querían escuchar y cancelar otros sonidos en el entorno.

Actualmente, el sistema TSH puede inscribir solo un hablante a la vez, y solo puede inscribir a un hablante cuando no hay otra voz fuerte proveniente de la misma dirección que la voz del hablante objetivo. Si un usuario no está satisfecho con la calidad del sonido, puede realizar otro registro en el altavoz para mejorar la claridad.

El equipo está trabajando para ampliar el sistema a auriculares y audífonos en el futuro.

Otros coautores del artículo fueron Bandhav Veluri , Malek Itani y Tuochao Chen , estudiantes de doctorado de la Universidad de Washington en la Escuela Allen, y Takuya Yoshioka , director de investigación de AssemblyAI. Esta investigación fue financiada por un premio Moore Inventor Fellow, una cátedra Thomas J. Cabel y un Fondo para la Brecha de Innovación CoMotion de la Universidad de Washington.

Tecnología

Auriculares que enfocan la audición en ambientes ruidosos

Compartir nota

Personas que quizás conozcas: