DA PUBBLICARE IMMEDIATAMENTE N. 3112

Il presente testo è una traduzione della versione inglese ufficiale del comunicato stampa e viene fornito unicamente per comodità di consultazione. Fare riferimento al testo inglese originale per conoscere i dettagli e/o le specifiche. In caso di eventuali discrepanze, prevale il contenuto della versione inglese originale.

Mitsubishi Electric separa le voci di più persone sconosciute che parlano simultaneamente e che sono state registrate con un solo microfono

Tecnologia di separazione vocale possibile grazie al metodo IA proprietario “Deep Clustering”

Versione PDF

TOKYO, 24 maggio 2017 - Mitsubishi Electric Corporation (TOKYO: 6503) ha annunciato oggi di aver realizzato la prima tecnologia al mondo in grado di separare e quindi ricostruire, con un elevato livello di qualità, le voci simultanee di più persone sconosciute registrate in tempo reale con un solo microfono. Nei test effettuati, le voci simultanee di due e tre persone sono state separate con una precisione rispettivamente del 90% e dell’80%, un risultato che l’azienda ritiene essere il primo a livello mondiale alla data di questo annuncio. Questa tecnologia innovativa, che è stata realizzata con il metodo proprietario “Deep Clustering” di Mitsubishi Electric basato sull’intelligenza artificiale (IA), potrà apportare un importante contributo alla comprensione delle comunicazioni vocali e rendere più preciso il riconoscimento vocale automatico.

La precisione superiore al 90%, ottenuta con due persone che parlano simultaneamente, è sufficiente per le applicazioni commerciali e rappresenta un risultato significativo rispetto al 51% ottenuto con la tecnologia convenzionale. La nuova tecnologia è in grado di discernere combinazioni di svariate lingue parlate da persone di diversi sessi. I risultati ottenuti si basano su condizioni di registrazione ideali, con bassa rumorosità ambientale e volumi di conversazione analoghi.
La tecnologia Deep Clustering utilizza il metodo proprietario di apprendimento approfondito sviluppato da Mitsubishi Electric per apprendere come codificare i componenti del segnale dei dati vocali originali di più persone, in modo da separare facilmente i componenti appartenenti a ciascuna persona tramite opportune codifiche. A tale scopo, le codifiche vengono ottimizzate affinché i diversi componenti del segnale appartenenti alla stessa persona abbiano codifiche simili, mentre quelli appartenenti a persone diverse hanno codifiche differenti. La trasformazione appresa viene applicata all’input vocale e le codifiche dei componenti del segnale di ciascuna persona vengono identificate usando un algoritmo di clustering, che elabora i punti di dati in gruppi a seconda delle loro analogie. La voce di ogni persona viene quindi ricostruita risintetizzando i relativi componenti vocali separati.

Precisione della separazione vocale di più persone che parlano simultaneamente*

  Due persone (un solo microfono) Tre persone (un solo microfono)
Nuova tecnologia >90% (prima mondiale) >80% (prima mondiale)
Tecnologia convenzionale 51%

*Basata su condizioni di registrazione ideali

I comunicati contengono informazioni accurate al momento della pubblicazione, ma possono essere soggetti a variazioni senza preavviso.