Cum poate DALL-E 2 să rezolve provocările majore legate de viziunea computerizată

Suntem încântați să aducem Transform 2022 înapoi în persoană pe 19 iulie și în jurul valorii de 20-28 iulie. Alăturați-vă liderilor de inteligență artificială și de date pentru conversații perspicace și oportunități interesante de creare de rețele. Înregistrați-vă astăzi!

OpenAI are DALL-E 2 a fost lansat recent, o versiune mai avansată a DALL-E, o inteligență artificială multimedia ingenioasă capabilă să creeze imagini bazate exclusiv pe descrieri de text. DALL-E 2 face acest lucru utilizând tehnologii avansate de învățare profundă care îmbunătățesc calitatea și acuratețea imaginilor generate și oferă capabilități suplimentare, cum ar fi editarea unei imagini existente sau crearea de noi versiuni ale acesteia.

Mulți pasionați de inteligență artificială și cercetători au postat pe Twitter despre cât de grozav este DALL-E 2 la crearea de artă și imagini din cuvinte subțiri, dar în acest articol aș dori să explorez o aplicație diferită a acestui model puternic text-to-image – crearea de seturi de date. a rezolva Cele mai mari provocări ale vederii computerizate.

Legendă: Imagine creată de DALL-E 2. „Un iepure investigator care stă pe o bancă de parc și citește un ziar într-un loc victorian.” sursă: Stare de nervozitate

Defecte de vedere computerizată

Aplicațiile AI ale vederii computerizate pot varia de la detectarea tumorilor benigne în scanările CT până la activarea mașinilor cu conducere autonomă. Cu toate acestea, ceea ce au toate în comun este nevoia de date abundente. Unul dintre cei mai noti indicatori de performanță ai unui algoritm de învățare profundă este dimensiunea setului de date subiacent care a fost antrenat. De exemplu, fișier Setul de date JFTun set de date Google intern utilizat pentru a antrena modele de clasificare a imaginilor, constând din 300 de milioane de imagini și peste 375 de milioane de etichete.

Luați în considerare modul în care funcționează un model de clasificare a imaginilor: o rețea neuronală convertește culorile unui pixel într-o serie de numere care reprezintă caracteristicile acestuia, cunoscute și sub numele de „încorporarea” unei intrări. Aceste caracteristici sunt apoi atribuite stratului de ieșire, care conține un scor de probabilitate pentru fiecare clasă de imagini pe care modelul ar trebui să le detecteze. În timpul antrenamentului, rețeaua neuronală încearcă să învețe cele mai bune reprezentări ale caracteristicilor care fac distincția între clase, de exemplu caracteristica urechii ascuțite a unui Doberman versus un Pudel.

În mod ideal, modelul de învățare automată va învăța să se generalizeze în diferite condiții de iluminare, unghiuri și medii de fundal. Cu toate acestea, prea des, modelele de învățare profundă învață reprezentări greșite. De exemplu, o rețea neuronală ar putea concluziona că pixelii albaștri sunt o caracteristică a clasei „frisbee”, deoarece tot frisbee-ul pe care l-a văzut în timpul antrenamentului era pe plajă.

READ Lucrând în autoeconomie - MIT Media Lab

O modalitate promițătoare de a rezolva astfel de deficiențe este creșterea dimensiunii setului de antrenament, de exemplu prin adăugarea mai multor imagini cu Frisbee cu fundaluri diferite. Cu toate acestea, acest proces poate fi un efort costisitor și îndelungat.

În primul rând, va trebui să colectați toate mostrele necesare, de exemplu, căutând online sau făcând fotografii noi. În continuare, va trebui să vă asigurați că fiecare capitol are suficiente etichete pentru a preveni ca formularul să fie personalizat sau să nu fie adecvat pentru unii. În cele din urmă, va trebui să denumești fiecare imagine, precizând care dintre ele corespunde cărei categorii. într-o lume în care Mai multe date se traduc într-un model mai performantAcești trei pași acționează ca un blocaj pentru a obține performanțe de ultimă generație.

Dar chiar și atunci, modelele de computer vision pot fi ușor înșelate, mai ales dacă sunt atacate cu exemple ostile. Ghiciți ce altă modalitate de a atenua atacurile ostile? Ai ghicit bine – date mai clasificate, organizate și diverse.

Subtitrare: CLIP de la OpenAI a clasificat greșit un măr ca iPod din cauza unei etichete text. sursă: deschis ai

Introduceți DALL-E 2

Să luăm exemplul unui clasificator de rase de câini și a unei categorii pentru care este puțin dificil să găsești poze – Dalmații. Putem folosi DALL-E pentru a rezolva problema deficitului de date?

Luați în considerare aplicarea următoarelor tehnologii, toate acceptate de DALL-E 2:

Folosește vanilie. Introduceți numele clasei ca parte a unui mesaj text către DALL-E și adăugați imaginile generate la etichetele clasei respective. De exemplu, „Un câine dalmat în parc urmărește o pasăre”.
Medii și modele diferite. Pentru a îmbunătăți capacitatea modelului de a generaliza, utilizați prompturi cu medii diferite, menținând în același timp aceeași clasă. De exemplu, „Un câine dalmat pe plajă, urmărind o pasăre”. Același lucru este valabil și pentru stilul imaginii create, de exemplu, „Un câine dalmat în grădină care urmărește o pasăre în stilul unui desen animat”.
Mostre cu reducere. Utilizați numele clasei pentru a crea un set de date de exemple adverse. De exemplu, „Mașină asemănătoare cu dalmația”.
diferențe. Una dintre noile caracteristici ale DALL-E este capacitatea de a crea mai multe variații ale imaginii de intrare. De asemenea, poate face o a doua fotografie și le poate îmbina pe cele două combinând cele mai proeminente aspecte ale fiecăreia. Se poate scrie apoi un script care alimentează toate imaginile prezente setului de date pentru a crea zeci de variații pentru fiecare clasă.
pe minenpictura. DALL-E 2 poate face, de asemenea, ajustări realiste imaginilor existente, adăugând și eliminând elemente, ținând cont de umbre, reflexii și texturi. Aceasta poate fi o tehnică puternică de creștere a datelor pentru a pregăti și îmbunătăți în continuare modelul de bază.

READ Toyota plănuiește un vehicul de crucișător lunar | Crainicul Ararat

Cu excepția generării mai multor date de antrenament, marele beneficiu al tuturor tehnicilor de mai sus este că imaginile nou generate sunt deja etichetate, eliminând nevoia de forță de muncă umană pentru etichetare.

În timp ce tehnicile de generare a imaginilor, cum ar fi Generative Adversarial Networks (GAN), există de ceva timp, DALL-E 2 se remarcă prin generațiile sale de rezoluție înaltă 1024 x 1024, natura sa multimedia de conversie text în imagine și puterea sa. consistența semantică, adică o înțelegere a relației dintre diferite obiecte dintr-o imagine specifică.

Automatizați crearea setului de date cu GPT-3 + DALL-E

Intrarea DALL-E este un mesaj text pentru imaginea pe care dorim să o creăm. Putem profita de GPT-3, modelul de generare a textului, pentru a genera zeci de solicitări de text pentru fiecare capitol care vor fi apoi introduse în DALL-E, care la rândul său va genera zeci de imagini care vor fi stocate pentru fiecare capitol.

De exemplu, putem crea solicitări care includ diferite medii în care dorim ca DALL-E să genereze imagini cu câini.

Legendă: un router creat de GPT-3 pentru a fi folosit ca intrare pentru DALL-E. Sursa: autor

Folosind acest exemplu, o propoziție asemănătoare șablonului precum „a [class_name] [gpt3_generated_actions], „Putem hrăni DALL-E cu următorul prompt: Un dalmatian stă întins pe podea. Acest lucru poate fi îmbunătățit și mai mult prin reglarea GPT-3 pentru a produce subtitrări ale setului de date precum cele din exemplul OpenAI Playground de mai sus.

Pentru a crește încrederea în mostrele nou adăugate, se poate stabili o limită de certitudine pentru a selecta numai generațiile care au trecut de o anumită clasificare, deoarece fiecare imagine este generată de un model imagine-text numit CLAMĂ.

constrângeri și obstacole

Dacă nu este utilizat cu atenție, DALL-E poate genera imagini inexacte sau cu bandă îngustă, excluzând în același timp anumite grupuri etnice sau ignorând trăsăturile care pot duce la părtinire. Un exemplu simplu este un detector de fețe care a fost antrenat doar pe portrete ale bărbaților. În plus, utilizarea imaginilor generate de DALL-E poate prezenta riscuri semnificative în domenii specifice, cum ar fi patologia sau mașinile cu conducere autonomă, unde costul unei imagini fals negative este prohibitiv.

DALL-E 2 are încă unele limitări, instalarea fiind una dintre ele. Bazându-se pe afirmații care, de exemplu, presupun că poziția corectă a lucrurilor poate fi riscantă.

READ Loewe adaugă modelul de 77 de inchi la gama sa de televizoare OLED

Subtitrare: DALL-E încă se luptă cu unele afirmații. sursă: Stare de nervozitate

Metodele de atenuare a acestui fenomen includ eșantionarea umană, în care un expert uman selectează aleatoriu probe pentru validare. Pentru a îmbunătăți un astfel de proces, se poate adopta o abordare de învățare activă, în care imaginile cu cel mai scăzut rating CLIP pentru un anumit comentariu sunt prioritizate pentru revizuire.

ultimele cuvinte

DALL-E 2 este un alt rezultat interesant de căutare de la OpenAI, care deschide ușa către noi tipuri de aplicații. Crearea de seturi masive de date pentru a rezolva unul dintre cele mai mari blocaje din viziunea computerizată – datele sunt doar un exemplu.

deschis ai semnale DALL-E va fi lansat în vara viitoare, probabil într-o lansare în etape, cu pre-screening pentru utilizatorii interesați. Cei care abia așteaptă sau care nu pot plăti pentru acest serviciu, pot schimba alternative cu sursă deschisă precum DALL-E Mini (interfața cu utilizatorulȘi depozitul stadionului).

Deși studiul de fezabilitate pentru multe aplicații bazate pe DALL-E va depinde de prețurile și politicile pe care OpenAI le stabilește pentru utilizatorii API-ului său, cu siguranță toți vor face crearea de imagini un salt uriaș înainte.

Sahar Moore are 13 ani de experiență în inginerie și management de produs, concentrându-se pe produse AI. În prezent, este manager de produs pentru Stripe și conduce inițiative de date strategice. Anterior, el a fondat hârtieun API de informații despre documente alimentat de GPT-3 și a fost manager de produs fondator la Zetold (Acq. de Deel), o companie de software de contabilitate B2B AI unde și-a construit și extins produsul uman în buclă și levita, Platformă AutoML fără cod. De asemenea, a lucrat ca director de inginerie la startup-uri aflate în stadiu incipient și la unitatea de informații de elită israeliană, 8200.

Factorii de decizie

Bun venit în comunitatea VentureBeat!

DataDecisionMakers este locul în care experții, inclusiv oamenii tehnici care lucrează cu datele, pot împărtăși idei și inovații legate de date.

Dacă doriți să citiți despre idei de ultimă oră și informații actualizate, cele mai bune practici și viitorul datelor și tehnologiei datelor, alăturați-vă nouă la DataDecisionMakers.

Poți chiar să gândești Contribuie cu un articol Al tau!

Citiți mai multe de la DataDecisionMakers

Faust Nerva

„Student. Organizator subtil fermecător. Susținător al muzicii certificat. Scriitor. Făcător de-a lungul vieții. Iubitor de Twitter.”

Defecte de vedere computerizată

Introduceți DALL-E 2

Automatizați crearea setului de date cu GPT-3 + DALL-E

constrângeri și obstacole

ultimele cuvinte

Factorii de decizie

Servicii complete sau bricolaj? Cele mai bune modalități de a vă repara telefonul

Acousfelt introduce noi variații de culoare pentru gama sa de panouri din pâslă acustică

Dimensiunile ecranului iPhone-ului Apple s-ar putea schimba în 2024 și, posibil, din nou în 2025

You may have missed

Servicii complete sau bricolaj? Cele mai bune modalități de a vă repara telefonul

Aeroportul din Dubai se redeschide după inundații majore care au lovit orașul, lăsând călătorii blocați

APTOPIX România Ziua Mondială a Circului | Știri mondiale

Nu vă așteptați la mare lucru de la această recenzie a filmului Apocalipsa – o satira banală, inteligentă alimentată de furie

main menu

Articole recente

pages

Defecte de vedere computerizată

Introduceți DALL-E 2

Automatizați crearea setului de date cu GPT-3 + DALL-E

constrângeri și obstacole

ultimele cuvinte

Factorii de decizie

Lasă un răspuns Anulează răspunsul

More Stories

Servicii complete sau bricolaj? Cele mai bune modalități de a vă repara telefonul

Acousfelt introduce noi variații de culoare pentru gama sa de panouri din pâslă acustică

Dimensiunile ecranului iPhone-ului Apple s-ar putea schimba în 2024 și, posibil, din nou în 2025

You may have missed

Servicii complete sau bricolaj? Cele mai bune modalități de a vă repara telefonul

Aeroportul din Dubai se redeschide după inundații majore care au lovit orașul, lăsând călătorii blocați

APTOPIX România Ziua Mondială a Circului | Știri mondiale

Nu vă așteptați la mare lucru de la această recenzie a filmului Apocalipsa – o satira banală, inteligentă alimentată de furie