PARA SU PUBLICACIÓN INMEDIATA N.º 3259

Este texto es una traducción de la versión oficial en inglés de este comunicado de prensa y se le proporciona a modo de referencia, para su comodidad. Consulte el texto original en inglés para obtener detalles específicos. En caso de que ambas versiones difieran, prevalecerá el contenido de la versión en inglés.

Mitsubishi Electric desarrolla una tecnología de reconocimiento de voz multilingüe que identifica automáticamente qué idioma se está hablando

Gracias a esta tecnología se podrán crear interfaces de voz, adecuadas para numerosas situaciones, que incluirán la tecnología de AI compacta de la compañía (Maisart), y que serán capaces de identificar y entender de manera simultánea los idiomas que se estén hablando, incluso en conversaciones de varias personas.

Versión PDF

TOKIO, 13 de febrero de 2019 - Mitsubishi Electric Corporation (TOKIO: 6503) ha dado a conocer hoy la que posiblemente sea, según la propia empresa, la primera tecnología de reconocimiento de voz multilingüe de gran precisión a nivel mundial que no requiere que se especifique de antemano qué idioma se está hablando. Esta novedosa tecnología de reconocimiento de voz integral se basa en la AI compacta y patentada de Mitsubishi Electric, Maisart®*, y consiste en un único sistema capaz de identificar y entender simultáneamente los idiomas hablados. Se realizaron pruebas independientes con 5 y 10 idiomas en entornos con bajo nivel de ruido, y el sistema alcanzó una precisión del 90 % y el 80 %, respectivamente, sin que se especificara previamente el idioma. El sistema también entiende a varias personas hablando a la vez, ya sea el mismo o distintos idiomas.

*Maisart es la abreviatura de "Mitsubishi Electric's AI creates the State-of-the-ART in Technology" (la AI de Mitsubishi Electric crea tecnología innovadora).

Tecnología de reconocimiento de voz integral

La tecnología de reconocimiento de voz integral utiliza el método de aprendizaje profundo patentado por Mitsubishi Electric con el que se consiguen una flexibilidad y precisión sin precedentes. Gracias a la aplicación de un marco de aprendizaje profundo integral en el que una red profunda se entrena únicamente con muestras de entrada y salida, esta tecnología crea un sistema único que, simultáneamente, identifica y entiende los idiomas hablados sin tener que recurrir a conocimiento experto como los sistemas fonéticos o los léxicos de pronunciación. El aprendizaje simultáneo a partir de datos de voz multilingües aumenta su eficacia.

Este novedoso sistema basa el reconocimiento de voz integral en el método híbrido de atención y clasificación temporal conexionista (CTC, del inglés Connectionist Temporal Classification) patentado por Mitsubishi Electric, que mejora considerablemente el proceso de reconocimiento de voz. Este método se cimienta a su vez en dos métodos representativos del reconocimiento de voz integral: la clasificación temporal conexionista y la decodificación basada en la atención; así se consigue combinar sus ventajas y mitigar sus inconvenientes. En concreto, el método híbrido se beneficia de la capacidad de la CTC para predecir alineaciones precisas entre las señales de voz de entrada y los caracteres de salida; y la capacidad del método de atención para considerar las interdependencias temporales entre las características lingüísticas y acústicas del discurso.

Precisión del reconocimiento de voz

  Funciona sin que se especifique el idioma hablado 5 idiomas 10 idiomas
Nueva tecnología >90 % >80 %
Tecnología convencional** No 87 % 72 %
  • Nota: En condiciones de grabación ideales.
  • ** Combinación de varios sistemas creados y entrenados por separado para cada idioma, con la selección manual previa del idioma hablado

La tecnología de reconocimiento de voz nos ha permitido interactuar con dispositivos como los smartphones y los sistemas de navegación mediante la voz. Pero como los sistemas de reconocimiento de voz convencionales se desarrollan por separado para cada idioma, los usuarios tienen que seleccionar el idioma que quieren utilizar de antemano. Es posible aplicar un método de identificación del idioma antes de utilizar el reconocimiento de voz; sin embargo, esto afecta negativamente a la facilidad de uso. Por un lado, es más lento; y por otro, aumentan los errores de reconocimiento debido a errores en la identificación del idioma y a que las soluciones convencionales se basan en un sistema de reconocimiento de voz aceptable, pero que se ha entrenado con una cantidad insuficiente de datos monolingües. Además, la precisión de los sistemas de reconocimiento de voz convencionales se ve mermada en conversaciones con varias personas en las que las voces se superponen; lo cual afecta a la capacidad de aplicación de estas soluciones.

Gracias a su tecnología de reconocimiento de voz integral, Mitsubishi Electric espera crear interfaces de voz aplicables a una amplia variedad de situaciones. Por ejemplo, en familias multilingües, donde sus miembros podrán hablarle al mismo electrodoméstico en distintos idiomas; o en los aeropuertos internacionales, donde los viajeros podrán comunicarse con los sistemas de orientación en su lengua materna. En adelante, Mitsubishi Electric se centrará en mejorar la precisión y capacidad de aplicación del reconocimiento de voz automático en entornos reales, incluidos los automóviles, los hogares o los establecimientos públicos, entre otros.

Tenga en cuenta que la precisión de las notas de prensa corresponde a la fecha de publicación, pero dichas notas están sujetas a modificaciones sin previo aviso.