POUR DIFFUSION IMMÉDIATE, n° 3259

Ce texte est une traduction de la version anglaise officielle de ce communiqué de presse. Il est fourni à titre de référence et pour votre confort uniquement. Pour tout détail ou spécificité, veuillez vous reporter à la version anglaise d'origine. La version anglaise d'origine prime, en cas de divergence.

Mitsubishi Electric développe une technologie de reconnaissance vocale multilingue permettant d'identifier automatiquement la langue parlée

Celle-ci contribuera à concevoir des interfaces de discours particulièrement adaptées à une grande variété de situations via l'utilisation de Maisart, l'intelligence artificielle (IA) compacte de la société, afin d'identifier et de comprendre simultanément les langues parlées, même lorsque plusieurs personnes parlent en même temps

Version PDF

TOKYO, le 13 février 2019 - Mitsubishi Electric Corporation (TOKYO : 6503) a annoncé aujourd'hui avoir mis au point ce que la société estime être la première technologie capable d'une reconnaissance vocale multilingue de haute précision sans information préalable sur la langue parlée. Cette nouvelle technologie, Seamless Speech Recognition, intègre la technologie d'intelligence artificielle (IA) compacte Maisart®* brevetée par Mitsubishi Electric et se base sur un système unique capable d'identifier et de comprendre simultanément les langues parlées. Dans des tests impliquant séparément 5 et 10 langues, tous réalisés dans des environnements à faible bruit, le système est parvenu à un taux de reconnaissance de respectivement 90 et 80 % de précision, sans être informé des langues qui étaient parlées. Cette technologie peut également comprendre plusieurs personnes parlant la même langue ou différentes langues simultanément.

* Mitsubishi Electric's AI creates the State-of-the-ART in technology : l'intelligence artificielle de Mitsubishi Electric crée une technologie de pointe

Technologie Seamless Speech Recognition

La technologie de reconnaissance vocale Seamless Speech Recognition utilise la méthode d'apprentissage approfondi brevetée par Mitsubishi Electric pour atteindre une flexibilité et une précision sans précédent. En adoptant une structure d'apprentissage approfondi de bout en bout dans laquelle un réseau profond se forme en utilisant uniquement des échantillons d'entrée et de sortie, cette technologie construit un système unique qui identifie et comprend les langues parlées sans avoir à se baser sur des connaissances spécialisées telles que des systèmes de phonèmes et des lexiques de prononciation. L'apprentissage simultané utilisant des données de discours multilingue augmente sa fiabilité.

Ce nouveau système utilise la technologie brevetée Hybrid CTC/Attention Method de Mitsubishi Electric pour une reconnaissance vocale de bout en bout, ce qui améliore significativement la précision du processus de ladite reconnaissance vocale. Cette technique repose sur deux méthodes représentatives pour la reconnaissance vocale de bout en bout : la classification temporelle connexionniste (connectionist temporal classification/CTC) et le décodage basé sur l'attention, en combinant leurs avantages tout en réduisant leurs inconvénients. Cette méthode hybride bénéficie en particulier de la capacité de la CTC à prédire des alignements précis entre les signaux de discours d'entrée et les caractères de sortie, et de l'aptitude de la méthode basée sur l'attention à prendre en considération les interdépendances des caractéristiques acoustiques et linguistiques du discours au fil du temps.

Précision de la reconnaissance vocale

  Fonctionne sans information préalable sur la langue parlée 5 langues 10 langues
Nouvelle technologie Oui > 90 % > 80 %
Technologie conventionnelle** Non 87 % 72 %
  • Remarque : suppose des conditions d'enregistrement idéales
  • ** Combinaison de plusieurs systèmes construits et formés séparément pour chaque langue, avec une sélection manuelle à l'avance de la langue parlée

La technologie de reconnaissance vocale a rendu possible l'utilisation de dispositifs tels que les smartphones et les systèmes de navigation automobile au moyen de la voix. Cependant, du fait que les systèmes de reconnaissance vocale sont développés séparément pour chaque langue, les utilisateurs doivent sélectionner la langue dans laquelle ils veulent parler au préalable. Il est possible d'utiliser une méthode d'identification de la langue avant la reconnaissance vocale, mais cela entraîne une dégradation de l'utilisabilité en raison du délai nécessaire à l'identification de la langue, ainsi qu'une augmentation des erreurs de reconnaissance imputables à des erreurs d'identification de la langue et à des systèmes de reconnaissance vocale ne fonctionnant pas de façon optimale avec des données monolingues insuffisantes. La précision des systèmes de reconnaissance vocale classiques est également très affectée en cas de chevauchement de discours issus de plusieurs personnes, ce qui limite leurs possibilités d'application.

La technologie Seamless Speech Recognition de Mitsubishi Electric est prévue pour aider à la réalisation d'interfaces de discours hautement adaptées à une grande variété de situations, comme une famille multilingue utilisant le même appareil domestique ou des voyageurs internationaux interrogeant un système de guidage de terminal d'aéroport dans leur langue maternelle. À l'avenir, Mitsubishi Electric s'efforcera d'améliorer l'exactitude et l'applicabilité de la reconnaissance vocale automatique en environnements réels, notamment les voitures, les maisons, les installations publiques et plus encore.

Veuillez noter que les communiqués sont exacts au moment de la publication, mais peuvent être sujets à modifications sans préavis.