DA PUBBLICARE IMMEDIATAMENTE N. 3259

Il presente testo è una traduzione della versione inglese ufficiale del comunicato stampa e viene fornito unicamente per comodità di consultazione. Fare riferimento al testo inglese originale per conoscere i dettagli e/o le specifiche. In caso di eventuali discrepanze, prevale il contenuto della versione inglese originale.

Mitsubishi Electric ha sviluppato una tecnologia di riconoscimento vocale multilingue in grado di identificare automaticamente la lingua parlata

Questa tecnologia permetterà di realizzare interfacce di riconoscimento vocale adatte a una vasta gamma di situazioni, grazie all'applicazione della tecnologia proprietaria compatta di intelligenza artificiale (IA) Maisart, per identificare e comprendere simultaneamente le lingue parlate, anche quando parlano più persone

Versione PDF

TOKYO, 13 febbraio 2019 - Mitsubishi Electric Corporation (TOKYO: 6503) ha annunciato oggi lo sviluppo di una tecnologia di riconoscimento vocale multilingue molto precisa che, secondo l'azienda, non ha eguali nel mondo poiché identifica la lingua parlata senza ricevere informazioni sulla lingua stessa. La nuova tecnologia di riconoscimento vocale diretto (Seamless Speech Recognition) integra la tecnologia compatta di intelligenza artificiale (IA) proprietaria di Mitsubishi Electric, denominata Maisart®*, inoltre è stata realizzata sulla base di un unico sistema che consente di identificare e comprendere simultaneamente le lingue parlate. I test, svolti separatamente, per 5 e 10 lingue, sono stati eseguiti in ambienti a bassa rumorosità nei quali il sistema ha ottenuto un risultato di precisione maggiore del 90 percento e dell'80 percento, rispettivamente, senza disporre di informazioni sulla lingua parlata. Questa tecnologia è anche in grado di comprendere più persone che parlino simultaneamente la stessa lingua o lingue differenti.

* Mitsubishi Electric's AI creates the State-of-the-ART in technology (L'IA di Mitsubishi Electric crea la tecnologia d'avanguardia)

Tecnologia di riconoscimento vocale diretto

La tecnologia di riconoscimento vocale diretto (Seamless Speech Recognition) si avvale del metodo di apprendimento approfondito proprietario di Mitsubishi Electric, per ottenere livelli di flessibilità e precisione senza precedenti. Adottando una struttura di apprendimento approfondito end-to-end dove una rete profonda viene "addestrata" utilizzando soltanto campioni di input e output, questa tecnologia crea un sistema unico che identifica e comprende simultaneamente le lingue parlate senza fare affidamento su una conoscenza esperta, quali sistemi di fonemi e dizionari di pronuncia. L'apprendimento simultaneo con l'aiuto dei dati vocali multilingue aumenta la sua potenza.

Il nuovo sistema si avvale del metodo proprietario di Mitsubishi Electric CTC/attenzione ibrido per il riconoscimento vocale end-to-end, che migliora notevolmente la precisione del processo di riconoscimento vocale. Questo metodo si basa su due sistemi rappresentativi per il riconoscimento vocale end-to-end; si tratta del sistema Connectionist Temporal Classification (CTC) e della decodifica basata sull'attenzione che, insieme, combinano i rispettivi vantaggi riducendo al contempo gli svantaggi. In particolare, il metodo ibrido si avvantaggia della capacità del metodo CTC di prevedere allineamenti precisi tra i segnali vocali in ingresso e i caratteri in uscita, ma anche della capacità del metodo di attenzione di prendere in considerazione le interdipendenze nel tempo delle caratteristiche acustiche e linguistiche del discorso.

Precisione del riconoscimento vocale

  Funziona senza specificare nessuna lingua parlata 5 lingue 10 lingue
Nuova tecnologia > 90% > 80%
Tecnologia convenzionale** No 87% 72%
  • Nota: presuppone condizioni di registrazione ideali
  • ** Combinazione di più sistemi realizzati e addestrati separatamente per ciascuna lingua, con la selezione manuale in anticipo rispetto alla lingua parlata

La tecnologia di riconoscimento vocale ha reso possibile il funzionamento di dispositivi quali gli smartphone e i sistemi vocali di navigazione per automobili. Tuttavia, poiché i sistemi di riconoscimento vocale tradizionali vengono sviluppati separatamente per ciascuna lingua, gli utenti devono prima selezionare la lingua che desiderano parlare. È possibile utilizzare il metodo di identificazione della lingua prima del riconoscimento vocale, tuttavia questo si traduce in un peggioramento della fruibilità per via del ritardo necessario per identificare la lingua, inoltre, nell'aumento degli errori di riconoscimento a causa degli errori di identificazione della lingua e dei sistemi di riconoscimento vocale meno efficienti che possono contare su dati monolingui insufficienti. Anche la precisione dei sistemi di riconoscimento vocale convenzionali subisce un notevole impatto se le persone che parlano sono diverse e i discorsi si sovrappongono, pertanto la loro applicabilità viene limitata.

Si prevede che la tecnologia di riconoscimento vocale diretto di Mitsubishi Electric permetterà di realizzare interfacce di riconoscimento vocale adatte a una vasta gamma di situazioni; ad esempio una famiglia multilingue che utilizza lo stesso elettrodomestico, oppure i viaggiatori internazionali che potranno fare domande al sistema di orientamento nel terminal di un aeroporto nella propria lingua madre. In futuro, Mitsubishi Electric intende migliorare ulteriormente la precisione e l'applicabilità del riconoscimento vocale automatico negli ambienti reali, incluse le automobili, le case, le strutture pubbliche, e molto altro ancora.

I comunicati contengono informazioni accurate al momento della pubblicazione, ma possono essere soggetti a variazioni senza preavviso.