octombrie 11, 2024

Obiectiv Jurnalul de Tulcea – Citeste ce vrei sa afli

Informații despre România. Selectați subiectele despre care doriți să aflați mai multe

Tipuri emergente de modele de limbaj și de ce sunt importante – TechCrunch

Tipuri emergente de modele de limbaj și de ce sunt importante – TechCrunch

sisteme de inteligenţă artificială care Înțelegerea și crearea de text, cunoscute sub denumirea de modele lingvistice, este noul lucru fierbinte în întreprindere. recent studiu A constatat că 60% dintre liderii tehnologici au declarat că bugetele lor pentru tehnologiile de limbaj AI au crescut cu cel puțin 10% în 2020, în timp ce 33% au raportat o creștere de 30%.

Dar nu toate modelele de limbaj sunt la fel. Mai multe tipuri apar ca fiind dominante, inclusiv modele mari de uz general, cum ar fi GPT-3 OpenAI și modele care sunt reglate pentru sarcini specifice (gândiți-vă că răspundeți la întrebările biroului IT). Pe margine este o a treia categorie de modele – una care tinde să fie foarte compactă ca dimensiune și limitată în puține capabilități, concepută special pentru a rula pe Internetul lucrurilor, dispozitive și stații de lucru.

Aceste abordări diferite au diferențe semnificative în ceea ce privește punctele forte, neajunsurile și cerințele – iată cum se compară și unde vă puteți aștepta să se lanseze în următorul an sau doi.

modele de limbaj mari

Modelele de limbaj mari au, în general, o dimensiune de zeci de gigaocteți și sunt antrenate pe cantități masive de date text, uneori la scara petabyte. De asemenea, se numără printre cele mai mari modele din punct de vedere al numărului de parametri, unde „parametru” se referă la o valoare pe care modelul o poate schimba independent pe măsură ce învață. Parametrii sunt părțile modelului care au fost învățate din datele istorice de antrenament și determină practic abilitățile modelului într-o problemă, cum ar fi crearea unui text.

Modelele mari sunt utilizate pentru scenarii zero-shot sau scenarii low-shot în care intervalul mic-[tailored] Datele de instruire sunt disponibile și de obicei funcționează Bine generând ceva pe baza unor solicitări”, a declarat Fangzheng Xu, Ph.D., un student la Universitatea Carnegie Mellon, specializat în procesarea limbajului natural, pentru TechCrunch prin e-mail. În învățarea automată, „câteva fotografii” se referă la practica antrenării unui model. cu o cantitate minimă de date, în timp ce „zero shot” indică faptul că modelul poate învăța să recunoască obiecte pe care nu le-a văzut în mod explicit în timpul antrenamentului.

Xu a continuat: „Un model mare poate permite multe misiuni finale cu puține date de antrenament.”

Utilizarea modelelor mari de limbaj a crescut exponențial în ultimii câțiva ani, deoarece cercetătorii au dezvoltat arhitecturi mai noi și mai mari. În iunie 2020, OpenAI și-a lansat startup-ul AI GPT-3, un model de 175 de miliarde de parametri care poate genera text și chiar cod în cazul unui prompt scurt care conține instrucțiuni. Grupul de cercetare deschis EleutherAI a pus la dispoziție ulterior GPT-J, un model de limbă care este mai mic (6 miliarde de parametri), dar totuși capabil să traducă între limbi, să scrie postări pe blog, să scrie cod și multe altele. Recent, Microsoft și Nvidia au deschis un model numit Megatron-Turing Natural Language Generation (MT-NLG), care este printre cele mai mari pentru înțelegerea lecturii și inferență lingvistică naturală A fost dezvoltat până acum la 530 de miliarde de parametri.

„Unul dintre motivele pentru care aceste modele mari de limbaj rămân atât de interesante este că un model poate fi folosit pentru sarcini”, inclusiv răspunde la întrebări, rezuma documente, generează text, completează o propoziție, traduce și multe altele, Bernard Koch, sociolog computațional la Universitatea din California, Los Angeles, a declarat pentru TechCrunch prin e-mail. „Al doilea motiv este că performanța lor continuă să se extindă pe măsură ce se adaugă mai mulți parametri la model și se adaugă mai multe date… iar al treilea motiv pentru care modelele lingvistice atât de mari care au fost antrenate anterior sunt notabile este că par să fie capabile pentru a face predicții decente atunci când i se oferă doar o mână de exemple clasificate”.

READ  Mi s-a părut că husa de călătorie Vision Pro este ceva mai ieftină și mai bună decât cea a Apple

Startup-uri, inclusiv Cohere și AI21 Labs, oferă, de asemenea, modele similare cu GPT-3 prin intermediul API-urilor. Alte companii, în special giganții tehnologici precum Google, au ales să păstreze în secret modelele de limbaj mari pe care le-au dezvoltat intern. De exemplu, Google a detaliat recent – ​​dar a refuzat să lanseze – un model de 540 de miliarde de parametri numit PaLM despre care compania susține că oferă performanțe de ultimă oră în toate sarcinile lingvistice.

Modelele de limbaj mari, open source sau nu, toate au costuri mari de dezvoltare în comun. Un 2020 studiu din AI21 Labs Cheltuieli pentru dezvoltarea unui model pentru generarea de text cu doar 1,5 miliarde de parametri legați până la 1,6 milioane de dolari. Euristica – de fapt rularea modelului antrenat – este o altă scurgere. O singură sursă Estimări Costul rulării GPT-3 pe o singură instanță AWS (p3dn.24xlarge) cu un minim de 87.000 USD pe an.

„Modelele mari vor deveni mai mari, mai puternice, mai diverse, mai multi-media și mai ieftin de antrenat. Numai marile startup-uri din tehnologie și bine finanțate pot juca acest joc”, Fu Ha, director tehnic la AI2.Incubator, către TechCrunch prin e-mail. „Modelele mari sunt excelente pentru crearea de prototipuri, construirea de noi dovezi de concepte și evaluarea fezabilității tehnice. Ele sunt rareori alegerea potrivită pentru implementarea în lumea reală din cauza costului. O aplicație care procesează tweet-uri, mesaje Slack, e-mailuri etc. în mod regulat s-ar dovedi a fi costisitoare dacă folosiți GPT. -3”.

Modelele de limbaj mari vor continua să fie standardul pentru serviciile cloud și API-urile, unde versatilitatea și acoperirea întreprinderii sunt mai importante decât latența. Dar deși recent Arhitect inovațiiCu toate acestea, aceste tipuri de modele lingvistice vor rămâne impracticabile pentru majoritatea organizațiilor, fie ele din mediul academic, public sau privat.

Modele de limbaj precise

Formele ajustate sunt în general mai mici decât modelele lingvistice mari. Exemplele includ Codex pentru OpenAI, care este un descendent direct al GPT-3 care este reglat pentru sarcini de programare. Deși încă conține miliarde de parametri, Codex este mai mic decât OpenAI și mai bun la crearea – și completarea – șirurilor de cod de computer.

Reglajul fin poate îmbunătăți capacitatea modelelor de a efectua o sarcină, de exemplu Răspunde la întrebările Sau generarea de secvențe de proteine ​​(ca în cazul Salesforce Progen). Dar poate îmbunătăți și înțelegerea de către model a unui subiect specific, cum ar fi Cercetare clinica.

„Modelele reglate… sunt bune pentru sarcini mature cu o mulțime de date de antrenament”, a spus Shaw. Exemplele includ traducerea automată, răspunsul la întrebări, identificarea entităților numite și conectarea entităților [and] regăsirea informațiilor”.

Avantajele nu se opresc aici. Deoarece modelele exacte sunt derivate din modelele de limbaj existente, modelele exacte nu necesită aproape același timp – sau calcul – pentru a se antrena sau rula. (Modelele mai mari, cum ar fi cele de mai sus, pot dura săptămâni sau necesită mai multă putere de calcul pentru a se antrena în zile.) De asemenea, nu necesită atât de multe date ca modelele de limbaj mari. GPT-3 a fost antrenat pe 45 TB de scripturi față de cei 159 GB pe care a fost antrenat codexul.

READ  Telegram adaugă un aspect spoiler media, noi instrumente de desen și imagini de profil pentru contacte

Reglarea fină a fost aplicată în multe domenii, dar un exemplu recent deosebit de puternic este InstructGPT de la OpenAI. Folosind o tehnologie numită „Învățare de consolidare din feedbackul uman”, OpenAI a colectat un set de date de demonstrații scrise de oameni cu privire la revendicări transmise la API-ul OpenAI și la afirmații scrise de o echipă de producători de date umane. Ei au profitat de aceste seturi de date pentru a crea ramuri optimizate ale GPT-3 care – pe lângă faptul că reprezintă o parte sutimi din volumul GPT-3 – sunt, evident, mai puțin probabil să genereze text problematic Cu o aliniere strânsă cu intenția utilizatorului.

Într-o altă demonstrație a puterii de reglare fină, în februarie, cercetătorii Google au publicat un fișier studiu Afirmația că un model mult mai mic de GPT-3 – Fine Language Network (FLAN) – depășește GPT-3 „cu o marjă mare” pe o serie de criterii dificile. FLAN, care conține 137 de miliarde de parametri, a depășit GPT-3 în 19 din cele 25 de sarcini testate de cercetători și chiar a depășit GPT-3 în 10 sarcini.

„Cred că reglarea fină este cea mai utilizată abordare în industrie în acest moment și nu văd că aceasta se va schimba pe termen scurt. În prezent, reglarea fină a modelelor de limbaj mai mici oferă utilizatorilor mai mult control asupra rezolvării propriilor probleme specializate cu datele specifice domeniului lor”, a spus el. „în loc să distribuie [very large language] Formulare pe care utilizatorii le pot îmbunătăți singuri, companiile sunt învățarea instantanee de marketing cu solicitări API unde puteți furniza formulare scurte și exemple scurte. „

Modele de limbaj Edge

Modelele Edge, care au dimensiuni intenționate mici, Ai putea Ele iau forma unor modele controlate – dar nu întotdeauna. Uneori, aceștia sunt instruiți de la zero pe seturi mici de date pentru a îndeplini anumite limitări hardware (de exemplu, telefon sau hardware de server web local). În orice caz, modelele edge – deși limitate în anumite privințe – oferă un set de avantaje pe care modelele mari de limbă nu le pot egala.

Costul este unul major. Cu modelul edge care funcționează atât offline, cât și pe dispozitiv, nu trebuie plătite taxe de utilizare a cloud-ului. (Chiar și modelele reglate fin sunt adesea prea mari pentru a rula pe mașinile locale; MT-NLG poate dura mai mult de un minut pentru a genera text pe un procesor desktop.) Sarcini precum analiza a milioane de tweet-uri pot strânge mii de dolari în taxe. modele bazate pe cloud.

Modelele Edge oferă, de asemenea, o confidențialitate mai mare decât omologii lor conectați la internet, în teorie, deoarece nu au nevoie să transmită sau să analizeze date în cloud. De asemenea, este mai rapid – o caracteristică cheie pentru aplicații precum traducerea. Aplicații precum Google Translate se bazează pe modele de vârf pentru a oferi traduceri offline.

„Calcul avansat este mai probabil să fie implementat în setări care necesită feedback imediat… În general, cred că acestea sunt scenarii în care oamenii interacționează într-un mod conversațional cu inteligența artificială sau roboți sau ceva de genul mașinilor cu conducere autonomă care citesc semne rutiere.” a spus Koch. „. „Ca exemplu ipotetic, Nvidia are o demonstrație în care un chatbot sofisticat conduce o conversație cu clienții într-un restaurant fast-food. Un caz de utilizare finală ar putea fi luarea automată de note în dosarele medicale electronice. Este esențial să abordați rapid conversațiile în aceste situații.”

READ  Statisticile erodate ale lui Helldivers 2 erau atât de groaznice, încât jucătorii au refuzat să creadă că sunt reale

Desigur, modelele mici nu pot realiza tot ceea ce pot modelele mari. Se limitează la hardware-ul găsit în hardware-ul high-end, care variază de la procesoare cu un singur nucleu la sisteme echipate cu GPU. Mai mult decât atât, unele cercetări indică faptul că tehnologiile utilizate pentru dezvoltarea acestora pot Amplifică funcțiile nedoritecum ar fi părtinirea algoritmică.

„[There’s usually a] Compartimentul dintre consumul de energie și capacitatea de predicție. Iar computerul mobil nu crește cu adevărat în același ritm cu clusterele distribuite HPC, așa că performanța ar putea întârzia din ce în ce mai mult”, a spus Xu.

Privind spre viitor

Pe măsură ce modelele lingvistice mari, îmbunătățite și moderne continuă să evolueze odată cu noile cercetări, este posibil ca acestea să întâmpine bariere pe calea către o adoptare mai largă. De exemplu, în timp ce modelele de reglare fină necesită mai puține date în comparație cu antrenarea unui model de la zero, reglarea fină necesită totuși A set de date. În funcție de domeniu – de exemplu, traducerea dintr-o limbă mai puțin vorbită – este posibil ca datele să nu fie acolo.

„TUn dezavantaj al reglajului este că necesită încă o cantitate destul de mare de date. Dezavantajul învățării low-snap este că nu funcționează la fel de bine ca reglajul fin, iar oamenii de știință de date și inginerii de învățare automată au mai puțin control asupra modelului, deoarece interacționează cu acesta doar prin intermediul API-ului”, a continuat Koch.Dezavantajul Edge AI este că modelele complexe nu se pot potrivi în dispozitive mici, așa că performanța este destul de mai slabă decât modelele care se pot potrivi pe un singur GPU desktop – ca să nu mai vorbim de modele de limbaj mari, bazate pe cloud, distribuite pe zeci de mii de GPU-uri. .”.

Xu notează că toate modelele de limbaj, indiferent de mărime, sunt încă luate în considerare în anumite aspecte importante. Ea speră ca domenii precum interpretabilitatea și interpretabilitatea – care urmăresc să înțeleagă cum și de ce funcționează modelul și să dezvăluie aceste informații utilizatorilor – să primească mai multă atenție și investiții în viitor, în special în domenii „cu risc ridicat”, precum medicina.

„Sursa este într-adevăr un următor pas important care ar trebui să fie pentru aceste modele”, a spus Shaw. „În viitor, vor exista tehnologii de reglare fină din ce în ce mai eficiente… pentru a face față costurilor tot mai mari de reglare a unui model mai mare în general. Modelele Edge vor continua să fie importante, cu cât modelul este mai mare, cu atât mai multă cercetare și dezvoltare vor fi necesare pentru a distila modelul sau a-l comprima pentru a se potrivi cu dispozitive de ultimă generație”.