Questa intelligenza artificiale ha bisogno solo di tre secondi della tua voce per imitarla

Per quanto riguarda i progressi nella creazione di video AI, è ancora necessaria una quantità significativa di materiale sorgente, come colpi alla testa da varie angolazioni o riprese video, affinché qualcuno crei una versione falsa convincente della propria immagine. Quando si tratta di fingere la propria voce, questa è una storia diversa, ad es Ricercatori Microsoft Recentemente rivelato un nuovo strumento AI Può simulare la voce di qualcuno utilizzando un campione di soli tre secondi loro che parlano.

Il nuovo strumento, un “paradigma del linguaggio di marcatura neurale” chiamato VALL-E, Si basa sulla tecnologia di compressione audio EnCodec di Meta, presentato alla fine dell’anno scorso, che utilizza l’intelligenza artificiale per comprimere audio di qualità migliore del CD a velocità dati 10 volte inferiori persino ai file MP3, senza alcuna perdita evidente di qualità. Meta ha immaginato EnCodec come un modo per migliorare la qualità delle telefonate in aree con copertura cellulare irregolare o come un modo per ridurre i requisiti di larghezza di banda per i servizi di streaming musicale, ma Microsoft sta sfruttando la tecnologia come un modo per rendere realistico l’audio text-to-speech. su un campione di fonti molto limitato.

Gli odierni sistemi di sintesi vocale possono produrre suoni molto realistici, motivo per cui le voci degli assistenti intelligenti suonano così autentiche anche se le loro risposte verbali sono generate al volo. Ma richiede dati di allenamento puliti e di alta qualità, che di solito vengono acquisiti in uno studio di registrazione con attrezzature professionali. L’approccio di Microsoft rende VALL-E in grado di simulare la voce di quasi chiunque senza passare settimane in uno studio. Invece, lo strumento viene addestrato con Set di dati Meta Libri-lightche contiene 60.000 ore di discorsi in inglese registrati da più di 7.000 parlanti unici”, estratti ed elaborati dagli audiolibri di LibriVox‘, tutto di pubblico dominio.

Microsoft ha condiviso un file Ampia gamma di campioni generati da VALL-E Quindi puoi sentire di persona quanto siano grandi le sue capacità di simulazione vocale, anche se i risultati sono attualmente contrastanti. Lo strumento a volte ha problemi a ricreare gli accenti, inclusi anche accenti sottili dai campioni originali in cui l’oratore suona irlandese, e la sua capacità di cambiare le emozioni in una data frase a volte è ridicola. Ma il più delle volte, i campioni generati da VALL-E suonano naturali, caldi e sono quasi impossibili da distinguere dagli altoparlanti originali nelle clip sorgente di tre secondi.

Nella sua forma attuale, addestrato a Libre Lite, VALL-E si limita a simulare il parlato inglese e, sebbene le sue prestazioni non siano ancora perfette, migliorerà sicuramente con l’espansione del set di dati del modello. Tuttavia, spetterà ai ricercatori Microsoft migliorare VALL-E, poiché il team non pubblica il codice sorgente dello strumento. in Articolo di ricerca pubblicato di recente Descrivendo in dettaglio lo sviluppo di VALL-E, i suoi creatori comprendono appieno i rischi che comporta:

Poiché VALL-E può sintetizzare il discorso che preserva l’identità di chi parla, potrebbe presentare potenziali rischi di abuso del modello, come lo spoofing del riconoscimento vocale o la rappresentazione di un oratore specifico. Per mitigare questi rischi, è possibile costruire un modello di rilevamento per differenziare se una clip audio è stata sintetizzata da VALL-E. Applicheremo anche noi Principi Microsoft di Intelligenza Artificiale Quando continuiamo a sviluppare modelli.

Celino Greco

“Guru dei social media. Caduta molto. Fanatico del caffè freelance. Appassionato di TV. Gamer. Amante del web. Piantagrane impenitente.”

READ Samsung potrebbe essere la prima ad adottare Fuchsia, il sistema operativo di Google

La Serie A torna su Open TV dopo quasi 30 anni

Qual è il significato di B, il nome della figlia di Calo Rivero e Aito de la Rua

Il chirurgo italiano afferma di aver eseguito il primo trapianto di testa umana

L’Inter Miami batte 2-1 l’Atlanta United con un gol di Suarez dagli spogliatoi e uno splendido tiro di Alba

Come attivare la “modalità gatto” su WhatsApp

Chi è Elisa Mulea, l’attrice e presentatrice che ha condannato Iñigo Errejon per violenza sessuale

Questa intelligenza artificiale ha bisogno solo di tre secondi della tua voce per imitarla

Lascia un commento Annulla risposta

Lascia un commento Annulla risposta

Related News