Universidad de Washington
Resumen Mire una vez para escuchar: apunte a la audiencia del habla con ejemplos ruidosos En ambientes llenos de gente, el cerebro humano puede concentrarse en el habla de un hablante objetivo, dado el conocimiento previo de cómo suena. Presentamos un novedoso sistema audible inteligente que logra esta capacidad, permitiendo que la audiencia objetivo ignore todo el habla y el ruido que interfieren, excepto el hablante objetivo. Un enfoque ingenuo es exigir un ejemplo de discurso limpio para inscribir al hablante objetivo. Sin embargo, esto no está bien alineado con el dominio de la aplicación audible, ya que obtener un ejemplo limpio es un desafío en escenarios del mundo real, lo que crea un problema de interfaz de usuario único. Presentamos la primera interfaz de inscripción donde el usuario mira al hablante objetivo durante unos segundos para capturar un ejemplo binaural único, breve y muy ruidoso del hablante objetivo. Este ejemplo ruidoso se utiliza para el registro y posterior extracción de voz en presencia de parlantes que interfieren y ruido. Nuestro sistema logra una mejora en la calidad de la señal de 7,01 dB utilizando menos de 5 segundos de audio de inscripción ruidoso y puede procesar 8 ms de fragmentos de audio en 6,24 ms en una CPU integrada. Nuestros estudios de usuarios demuestran la generalización a altavoces estáticos y móviles del mundo real en entornos multitrayecto interiores y exteriores nunca antes vistos. Finalmente, nuestra interfaz de inscripción para ejemplos ruidosos no causa degradación del rendimiento en comparación con ejemplos limpios, y al mismo tiempo es conveniente y fácil de usar. Dando un paso atrás, este artículo da un paso importante hacia la mejora de la percepción auditiva humana con inteligencia artificial. |
Imagen: Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial que permite a un usuario que usa auriculares mirar a una persona que habla durante tres a cinco segundos y luego escuchar solo la voz del orador registrado en tiempo real, incluso cuando el oyente se mueve en lugares ruidosos y ya no. mira al hablante. En la foto se muestra un prototipo del sistema de auriculares: micrófonos binaurales conectados a auriculares con cancelación de ruido disponibles en el mercado. Crédito: Kiyomi Taguchi/Universidad de Washington.
Comentarios
Los auriculares con cancelación de ruido se han vuelto muy buenos a la hora de crear una pizarra en blanco auditiva. Pero permitir que ciertos sonidos del entorno del usuario pasen a través del borrado todavía supone un desafío para los investigadores. La última edición de los AirPods Pro de Apple, por ejemplo, ajusta automáticamente los niveles de sonido para los usuarios, detectando cuando están conversando, por ejemplo, pero el usuario tiene poco control sobre a quién escuchar o cuándo sucede esto.
Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial que permite a un usuario que lleva auriculares mirar a una persona que habla durante tres a cinco segundos para "inscribirla". El sistema, llamado “Target Speech Hearing”, cancela todos los demás sonidos del entorno y reproduce sólo la voz del hablante registrado en tiempo real, incluso cuando el oyente se mueve en lugares ruidosos y ya no mira al hablante.
Comentarios
Para ver los comentarios de sus colegas o para expresar su opinión debe ingresar con su cuenta de IntraMed.