Îmbunătățirea sistemelor de recunoaștere a vorbirii pentru incluziune

WASHINGTON, 30 aprilie 2024 – Interacțiunile cu tehnologia vocală, cum ar fi Alexa de la Amazon, Siri de la Apple și Asistentul Google, pot face viața mai ușoară prin creșterea eficienței și productivității. Cu toate acestea, erorile în generarea și înțelegerea vorbirii în timpul interacțiunilor sunt frecvente. Când folosesc aceste dispozitive, difuzoarele își schimbă adesea vorbirea de la tiparele lor normale la un registru mai înalt și mai lent, numit vorbire direcționată către tehnologie.

Cercetările privind vorbirea bazată pe tehnologie se concentrează de obicei pe varietățile dominante de engleză americană, fără a lua în considerare grupurile de vorbitori care sunt adesea înțelese greșit de tehnologie. În JASA Express Letters, publicat de AIP Publishing în numele Societății Acoustice din America, cercetătorii de la Google Research, Universitatea din California, Davis și Universitatea Stanford au dorit să abordeze această lacună.

Un grup care este adesea înțeles greșit de tehnologia vocală este persoanele care vorbesc engleza afro-americană sau AAE. Deoarece rata erorilor de recunoaștere automată a vorbirii poate fi mai mare pentru vorbitorii AAE, efectele din aval ale discriminării lingvistice pot duce la tehnologie.

„În toate sistemele de recunoaștere automată a vorbirii, patru din zece cuvinte rostite de bărbați de culoare au fost transcrise incorect”, a spus coautorul Zion Mengesha. „Acest lucru are un impact asupra echității pentru vorbitorii de engleză afro-americani din fiecare organizație care utilizează tehnologia vocală, inclusiv asistența medicală și angajarea.”

„Am văzut o oportunitate de a înțelege mai bine această problemă, vorbind cu utilizatorii de culoare și înțelegând răspunsurile lor emoționale, comportamentale și lingvistice atunci când interacționăm cu tehnologia vocală”, a spus coautorul Courtney Hildreth.

READ Însoțitor de zbor șocat de afișarea surpriză pe aeroportul din Sydney

Echipa a conceput un experiment pentru a testa modul în care difuzoarele AAE își adaptează vorbirea atunci când își imaginează că vorbesc cu un asistent vocal, în comparație cu vorbirea cu un prieten, membru al familiei sau străin. Studiul a testat condițiile de vorbire a unui om familiar, uman necunoscut și a asistentului vocal, comparând rata de vorbire și variația înălțimii. Participanții la studiu au inclus 19 adulți care s-au identificat drept afro-americani sau negri care au avut probleme legate de tehnologia vocală. Fiecare participant i-a adresat asistentului vocal o serie de întrebări. Aceleași întrebări au fost repetate ca și cum ai vorbi cu o persoană cunoscută și din nou cu un străin. Fiecare întrebare a fost înregistrată pentru un total de 153 de înregistrări.

Analiza înregistrărilor a arătat că difuzoarele au prezentat două modificări consistente atunci când vorbeau cu tehnologia audio în comparație cu vorbirea cu o altă persoană: o rată mai lentă a vorbirii, cu mai puține variații ale tonului (vorbire mai monotonă).

„Aceste descoperiri sugerează că oamenii au modele mentale despre cum să vorbească cu tehnologia”, a spus co-autorul Michelle Cohen. Un „mod” specific este folosit pentru a fi mai bine înțeles, având în vedere discrepanțele din sistemele de recunoaștere a vorbirii.

Există și alte grupuri care sunt înțelese greșit de tehnologia audio, cum ar fi vorbitorii de limbă a doua. Cercetătorii speră să extindă varietățile de limbaj explorate în experimentele de interacțiune om-calculator și să abordeze barierele din tehnologie, astfel încât să poată sprijini pe toți cei care doresc să o folosească.

/Presă generală. Acest material de la organizația/autorii originali poate fi de natură cronologică și este editat pentru claritate, stil și lungime. Mirage.News nu ia poziții corporative sau părți, iar toate opiniile, pozițiile și concluziile exprimate aici sunt exclusiv ale autorului (autorilor). Vizualizați integral aici.

READ Microsoft a lansat Windows 10 22H2 previzualizare pentru testarea companiei

Faust Nerva

„Student. Organizator subtil fermecător. Susținător al muzicii certificat. Scriitor. Făcător de-a lungul vieții. Iubitor de Twitter.”

Microsoft oferă Copilot Assistant pentru a ajuta echipele să colaboreze

Western Digital dezvăluie cele mai mari hard disk-uri portabile din lume, cu o capacitate de 6TB

Revizuirea Smart Lock Philips seria 4000

You may have missed

Un mort și mulți răniți într-un zbor de la Londra la Singapore

Amazon Games deschide un nou studio în București, România

Europa reia mineritul de magneziu pentru a contracara dependența de China

Un eveniment lunar rar poate dezvălui legătura dintre Stonehenge și Lună

main menu

Articole recente

pages

Lasă un răspuns Anulează răspunsul

More Stories