mai 6, 2024

Obiectiv Jurnalul de Tulcea – Citeste ce vrei sa afli

Informații despre România. Selectați subiectele despre care doriți să aflați mai multe

Dărâmarea zidurilor lingvistice: ElevenLabs lansează text-to-speech în mai multe limbi pentru diverse audiențe

Dărâmarea zidurilor lingvistice: ElevenLabs lansează text-to-speech în mai multe limbi pentru diverse audiențe

Mergeți la biblioteca noastră la cerere pentru a vedea sesiunile din VB Transform 2023. Înregistrați-vă aici


Unsprezece laboratoareAstăzi, un startup vechi de un an, care valorifică puterea învățării automate pentru transcrierea și sinteza vocii, a anunțat extinderea platformei sale cu un nou model text-to-speech care acceptă 30 de limbi.

Extinderea marchează ieșirea oficială a platformei din beta, făcând-o gata de utilizare pentru organizații și indivizi care doresc să își personalizeze conținutul pentru publicul din întreaga lume. Vine la mai bine de o lună după ce prima rundă a lui ElevenLabs, în valoare de 19 milioane de dolari, seria A a evaluat compania la aproape 100 de milioane de dolari.

„ElevenLabs a început cu visul de a face tot conținutul accesibil tuturor, în orice limbă și în orice voce. Odată cu lansarea Eleven Multilingual v2, suntem cu un pas mai aproape de a transforma acest vis în realitate și de a face disponibile voci AI de calitate umană în fiecare dialect”, a declarat Matti Staniszewski, CEO și co-fondator al companiei, într-un comunicat.

„În cele din urmă, sperăm să acoperim mai multe limbi și voci cu ajutorul inteligenței artificiale și să eliminăm barierele lingvistice din calea conținutului”, a adăugat el.

S-a întâmplat

VB Transform 2023 la cerere

Ai ratat o sesiune de la VB Transform 2023? Înregistrați-vă pentru acces la bibliotecă la cerere la toate sesiunile noastre prezentate.

Înregistrează-te acum

Eleven Multilingual v2: Cât de util este?

ElevenLabs oferă două produse majore AI focalizate pe voce – Sinteza vorbirii și VoiceLab.

Primul este un sintetizator care generează o voce naturală din introducerea textului. Acesta din urmă este un supliment care oferă utilizatorilor posibilitatea de a-și clona propriile voci sau de a crea voci sintetice complet noi (prin eșantionarea aleatorie a parametrilor vocali) pentru a fi utilizate cu sintetizatorul.

READ  Romania Unfinished Festival revine cu ediția de la miezul nopții timp de șapte zile

Odată ce un utilizator își creează propria voce personalizată, o poate conecta la un instrument text-to-speech pentru a converti orice conținut scurt sau lung la alegere în discursul său preferat – fără niciun efort. Alternativ, ei pot folosi și un set de voci AI prefabricate de la companie sau cele create și distribuite public de către comunitate.

În primele zile, sintetizatorul a început cu un model care producea doar vorbire în limba engleză. Mai târziu, a fost extins la Eleven Multilingual versiunea 1, care a folosit introducerea textului și voci AI pentru a genera vorbire în șase limbi: engleză, poloneză, germană, spaniolă, franceză, italiană, portugheză și hindi.

Acum, odată cu lansarea versiunii 2 a Eleven Multilingual, emisiunea poate acum sintetiza vorbirea în încă 30 de limbi. Aceasta include coreeană, olandeză, turcă, suedeză, indoneziană, vietnameză, filipineză, ucraineană, greacă, cehă, finlandeză, română, daneză, bulgară, malaeză, maghiară, norvegiană, slovacă, croată, arabă clasică și tamilă.

În esență, mutarea înseamnă că oricine își poate clona propria voce și o poate folosi pentru a emite vorbire în zeci de limbi care vizează piețe diferite.

Potrivit ElevenLabs, utilizatorul trebuie să introducă text în limba pe care o alege, să selecteze vocea dorită (prestat, sintetică sau reprodusă) și să ajusteze unii parametri de vorbire. Modelul va identifica automat limba scrisă și va folosi parametrii specificați pentru a genera vorbire în ea. De asemenea, păstrează caracteristicile unice ale sunetului ales în toate limbile, inclusiv accentul său original.

„Modelul nostru este capabil să înțeleagă relațiile dintre cuvinte și să modifice livrarea acestora în funcție de context (text-to-vorbire (contextual)). Deoarece nu există caracteristici fonetice codificate în model, poate prezice în mod robust mii de proprietăți fonetice în timp ce generează Voci AI. Aceasta înseamnă că modelul ElevenLabs poate ține cont de textul care înconjoară fiecare enunț generat pentru a menține fluxul adecvat, mai degrabă decât de a crea fiecare enunț individual, ceea ce poate crea sunete care sună robotizate.”

READ  O nouă sală de muzică primește atelier și concert în România

Aplicații extinse pentru instrumentul text-to-speech

De la lansarea sa în versiune beta, ElevenLabs a atras interes atât din partea organizațiilor, cât și al creatorilor și susține că a înregistrat peste 1 milion de utilizatori din întreaga lume. Se așteaptă că cea mai recentă lansare nu numai că va spori baza de utilizatori a platformei, ci și cantitatea de conținut pe care o creează zilnic.

„Avem un număr de clienți întreprinderi care folosesc produsele noastre și cazurile lor de utilizare sunt diverse: de la exprimarea personajelor din jocurile video la avatarurile pentru serviciul clienți, de la înregistrarea cărților audio la crearea de conținut pentru persoanele cu deficiențe de vedere”, a explicat Staniszewski.

Recent, compania a făcut echipă cu ArXiv pentru a-și publica toate lucrările într-o versiune audio pentru accesibilitate suplimentară. De asemenea, a încheiat un parteneriat cu Storytel pentru a îmbunătăți opțiunile disponibile pentru cărți audio – introducând voci AI suplimentare alături de naratorii umani. La un moment dat în viitor, CEO-ul speculează că ar putea, de asemenea, să facă dublarea unui întreg film în mai multe limbi complet fără probleme, păstrând în același timp accentele și emoțiile actorilor originali.

Urmează mai multe

Ca parte a acestei misiuni, ElevenLabs intenționează să-și extindă produsele cu mai multe limbi și funcții, inclusiv un instrument de proiecte care va facilita utilizatorilor să-și structureze și să editeze conținutul de lungă durată. Potrivit lui Staniszewski, va adăuga un nivel de simplitate Google Docs la generarea de vorbire din conținut mai lung.

„Până la sfârșitul anului, intenționăm să lansăm și o versiune beta a instrumentului nostru de dublare AI, care va permite utilizatorilor să convertească instantaneu vorbirea dintr-o limbă în alta, păstrând în același timp vocea vorbitorilor nativi”, a menționat el.

READ  Florin Grozea despre valoarea Blockchain-ului în economia creatorilor

În acest spațiu de generare a vocii și a vorbirii bazat pe inteligență artificială, ElevenLabs concurează cu jucători precum MURF. AIȘi Joacă.ht Și Laboratoarele WellSaid. conform piata SUApiața globală pentru astfel de instrumente a atins 1,2 miliarde USD în 2022 și se estimează că va ajunge la aproape 5 miliarde USD în 2032, cu un CAGR de puțin peste 15,40%.

Misiunea lui VentureBeat Acesta va fi arena orașului digital pentru factorii de decizie tehnici pentru a obține cunoștințe despre tehnologia întreprinderilor transformaționale și tranzacționale. Descoperiți briefing-urile noastre.