mai 25, 2024

Obiectiv Jurnalul de Tulcea – Citeste ce vrei sa afli

Informații despre România. Selectați subiectele despre care doriți să aflați mai multe

Îmbunătățirea sistemelor de recunoaștere a vorbirii pentru incluziune

Îmbunătățirea sistemelor de recunoaștere a vorbirii pentru incluziune

WASHINGTON, 30 aprilie 2024 – Interacțiunile cu tehnologia vocală, cum ar fi Alexa de la Amazon, Siri de la Apple și Asistentul Google, pot face viața mai ușoară prin creșterea eficienței și productivității. Cu toate acestea, erorile în generarea și înțelegerea vorbirii în timpul interacțiunilor sunt frecvente. Când folosesc aceste dispozitive, difuzoarele își schimbă adesea vorbirea de la tiparele lor normale la un registru mai înalt și mai lent, numit vorbire direcționată către tehnologie.

Cercetările privind vorbirea bazată pe tehnologie se concentrează de obicei pe varietățile dominante de engleză americană, fără a lua în considerare grupurile de vorbitori care sunt adesea înțelese greșit de tehnologie. În JASA Express Letters, publicat de AIP Publishing în numele Societății Acoustice din America, cercetătorii de la Google Research, Universitatea din California, Davis și Universitatea Stanford au dorit să abordeze această lacună.

Un grup care este adesea înțeles greșit de tehnologia vocală este persoanele care vorbesc engleza afro-americană sau AAE. Deoarece rata erorilor de recunoaștere automată a vorbirii poate fi mai mare pentru vorbitorii AAE, efectele din aval ale discriminării lingvistice pot duce la tehnologie.

„În toate sistemele de recunoaștere automată a vorbirii, patru din zece cuvinte rostite de bărbați de culoare au fost transcrise incorect”, a spus coautorul Zion Mengesha. „Acest lucru are un impact asupra echității pentru vorbitorii de engleză afro-americani din fiecare organizație care utilizează tehnologia vocală, inclusiv asistența medicală și angajarea.”

„Am văzut o oportunitate de a înțelege mai bine această problemă, vorbind cu utilizatorii de culoare și înțelegând răspunsurile lor emoționale, comportamentale și lingvistice atunci când interacționăm cu tehnologia vocală”, a spus coautorul Courtney Hildreth.

Echipa a conceput un experiment pentru a testa modul în care difuzoarele AAE își adaptează vorbirea atunci când își imaginează că vorbesc cu un asistent vocal, în comparație cu vorbirea cu un prieten, membru al familiei sau străin. Studiul a testat condițiile de vorbire a unui om familiar, uman necunoscut și a asistentului vocal, comparând rata de vorbire și variația înălțimii. Participanții la studiu au inclus 19 adulți care s-au identificat drept afro-americani sau negri care au avut probleme legate de tehnologia vocală. Fiecare participant i-a adresat asistentului vocal o serie de întrebări. Aceleași întrebări au fost repetate ca și cum ai vorbi cu o persoană cunoscută și din nou cu un străin. Fiecare întrebare a fost înregistrată pentru un total de 153 de înregistrări.

Analiza înregistrărilor a arătat că difuzoarele au prezentat două modificări consistente atunci când vorbeau cu tehnologia audio în comparație cu vorbirea cu o altă persoană: o rată mai lentă a vorbirii, cu mai puține variații ale tonului (vorbire mai monotonă).

„Aceste descoperiri sugerează că oamenii au modele mentale despre cum să vorbească cu tehnologia”, a spus co-autorul Michelle Cohen. Un „mod” specific este folosit pentru a fi mai bine înțeles, având în vedere discrepanțele din sistemele de recunoaștere a vorbirii.

Există și alte grupuri care sunt înțelese greșit de tehnologia audio, cum ar fi vorbitorii de limbă a doua. Cercetătorii speră să extindă varietățile de limbaj explorate în experimentele de interacțiune om-calculator și să abordeze barierele din tehnologie, astfel încât să poată sprijini pe toți cei care doresc să o folosească.