PARA SU PUBLICACIÓN INMEDIATA N.º 3112
Este texto es una traducción de la versión oficial en inglés de este comunicado de prensa y se le proporciona a modo de referencia, para su comodidad. Consulte el texto original en inglés para obtener detalles específicos. En caso de que ambas versiones difieran, prevalecerá el contenido de la versión en inglés.
La tecnología de separación de discursos se ha logrado mediante el método de inteligencia artificial "Deep Clustering"
TOKIO, 24 de mayo de 2017 - Mitsubishi Electric Corporation (TOKIO: 6503) ha anunciado hoy que ha creado la primera tecnología del mundo que separa, y después reconstruye con calidad alta, la intervención simultánea de varios oradores desconocidos grabados con un único micrófono en tiempo real. En las pruebas, las intervenciones simultáneas de dos y de tres personas fueron separadas con una precisión de hasta un 90 % y un 80 %, respectivamente, lo que la empresa considera un anuncio sin precedentes de este tipo en el mundo. Se espera que esta novedosa tecnología, obtenida mediante el método de "Deep Clustering" (agrupación profunda) propiedad de Mitsubishi Electric y basado en inteligencia artificial (AI), contribuya a lograr comunicaciones de voz más inteligibles y un reconocimiento de voz automático más preciso.
En el caso de dos oradores simultáneos, la precisión superó el 90 %, lo que es suficiente para las aplicaciones comerciales, en comparación con el 51 % de precisión mediante la tecnología convencional. La nueva tecnología es capaz de distinguir entre combinaciones de varios idiomas hablados y de género. Los resultados anteriores se basan en condiciones de grabación ideales, incluidos niveles bajos de ruido ambiente y oradores que se encuentran hablando a un volumen muy similar.
La tecnología Deep Clustering utiliza el método de aprendizaje profundo, propiedad de Mitsubishi Electric, para aprender a codificar los datos de los componentes de la señal de la intervención original de varias personas, para que se puedan distinguir fácilmente los componentes de la señal que pertenecen a cada orador por sus codificaciones. Para lograr esto, se optimizan las codificaciones para que los diferentes componentes de la señal que pertenecen al mismo orador tengan codificaciones similares y los que pertenecen a los diferentes oradores tengan codificaciones diferentes. La transformación de codificación aprendida se aplica al discurso de entrada y se identifican las codificaciones de los componentes de la señal de cada orador mediante un algoritmo de agrupación que procesa los puntos de datos en grupos, según sus similitudes. A continuación, se reconstruye la intervención de cada persona mediante la resintetización de los componentes de la intervención por separado.
Dos oradores (un solo micrófono) | Tres oradores (un solo micrófono) | |
---|---|---|
Nueva tecnología | >90 % (sin precedentes) | >80 % (sin precedentes) |
Tecnología tradicional | 51 % | ─ |
*Basado en condiciones de grabación ideales
Tenga en cuenta que la precisión de las notas de prensa corresponde a la fecha de publicación, pero dichas notas están sujetas a modificaciones sin previo aviso.