Flamina&dintorni

Informazioni sull'Italia. Seleziona gli argomenti di cui vuoi saperne di più

Questa intelligenza artificiale ha bisogno solo di tre secondi della tua voce per imitarla

Questa intelligenza artificiale ha bisogno solo di tre secondi della tua voce per imitarla

Per quanto riguarda i progressi nella creazione di video AI, è ancora necessaria una quantità significativa di materiale sorgente, come colpi alla testa da varie angolazioni o riprese video, affinché qualcuno crei una versione falsa convincente della propria immagine. Quando si tratta di fingere la propria voce, questa è una storia diversa, ad es Ricercatori Microsoft Recentemente rivelato un nuovo strumento AI Può simulare la voce di qualcuno utilizzando un campione di soli tre secondi loro che parlano.

Il nuovo strumento, un “paradigma del linguaggio di marcatura neurale” chiamato VALL-E, Si basa sulla tecnologia di compressione audio EnCodec di Meta, presentato alla fine dell’anno scorso, che utilizza l’intelligenza artificiale per comprimere audio di qualità migliore del CD a velocità dati 10 volte inferiori persino ai file MP3, senza alcuna perdita evidente di qualità. Meta ha immaginato EnCodec come un modo per migliorare la qualità delle telefonate in aree con copertura cellulare irregolare o come un modo per ridurre i requisiti di larghezza di banda per i servizi di streaming musicale, ma Microsoft sta sfruttando la tecnologia come un modo per rendere realistico l’audio text-to-speech. su un campione di fonti molto limitato.

Gli odierni sistemi di sintesi vocale possono produrre suoni molto realistici, motivo per cui le voci degli assistenti intelligenti suonano così autentiche anche se le loro risposte verbali sono generate al volo. Ma richiede dati di allenamento puliti e di alta qualità, che di solito vengono acquisiti in uno studio di registrazione con attrezzature professionali. L’approccio di Microsoft rende VALL-E in grado di simulare la voce di quasi chiunque senza passare settimane in uno studio. Invece, lo strumento viene addestrato con Set di dati Meta Libri-lightche contiene 60.000 ore di discorsi in inglese registrati da più di 7.000 parlanti unici”, estratti ed elaborati dagli audiolibri di LibriVox‘, tutto di pubblico dominio.

Microsoft ha condiviso un file Ampia gamma di campioni generati da VALL-E Quindi puoi sentire di persona quanto siano grandi le sue capacità di simulazione vocale, anche se i risultati sono attualmente contrastanti. Lo strumento a volte ha problemi a ricreare gli accenti, inclusi anche accenti sottili dai campioni originali in cui l’oratore suona irlandese, e la sua capacità di cambiare le emozioni in una data frase a volte è ridicola. Ma il più delle volte, i campioni generati da VALL-E suonano naturali, caldi e sono quasi impossibili da distinguere dagli altoparlanti originali nelle clip sorgente di tre secondi.

Nella sua forma attuale, addestrato a Libre Lite, VALL-E si limita a simulare il parlato inglese e, sebbene le sue prestazioni non siano ancora perfette, migliorerà sicuramente con l’espansione del set di dati del modello. Tuttavia, spetterà ai ricercatori Microsoft migliorare VALL-E, poiché il team non pubblica il codice sorgente dello strumento. in Articolo di ricerca pubblicato di recente Descrivendo in dettaglio lo sviluppo di VALL-E, i suoi creatori comprendono appieno i rischi che comporta:

Poiché VALL-E può sintetizzare il discorso che preserva l’identità di chi parla, potrebbe presentare potenziali rischi di abuso del modello, come lo spoofing del riconoscimento vocale o la rappresentazione di un oratore specifico. Per mitigare questi rischi, è possibile costruire un modello di rilevamento per differenziare se una clip audio è stata sintetizzata da VALL-E. Applicheremo anche noi Principi Microsoft di Intelligenza Artificiale Quando continuiamo a sviluppare modelli.

READ  Sei pronto ad avere paura? The Dark Pictures House of Ashes presenta il suo primo gameplay