Cercetători Google propun „incertitudinea fidelă” pentru a reduce halucinațiile AI

Cercetători de la Google au prezentat o abordare numită „incertitudine fidelă”, care urmărește să facă modelele lingvistice mari (LLM) să-și exprime îndoiala în mod proporțional cu încrederea lor internă, ca alternativă la regula binară „răspunde sau abține-te”, folosită frecvent pentru a limita halucinațiile.

Gal Yona, cercetător la Google și coautor al lucrării, a spus că există „două moduri” principale de a îmbunătăți factualitatea: extinderea cunoașterii modelului și dezvoltarea capacității acestuia de a ști ce știe. „Capacitatea modelului este finită, iar coada lungă a cunoașterii este, în mod efectiv, infinită”, a afirmat el.

Autorii susțin că multe intervenții menite să reducă halucinațiile nu ajung în producție deoarece afectează utilitatea sistemului. Yona a explicat că aceste metode „reduc halucinațiile, dar afectează și utilitatea, pentru că modelul ajunge să refuze să răspundă la întrebări pe care chiar le știe”.

În lucrare, cercetătorii ilustrează ceea ce numesc „taxa de utilitate”: într-un exemplu, pentru a coborî o rată de eroare de bază de 25% la o țintă strictă de 5%, dezvoltatorii ar trebui să elimine 52% dintre răspunsurile corecte, reducând astfel acoperirea și utilitatea asistentului.

O componentă centrală a propunerii este redefinirea halucinațiilor ca „erori încrezătoare” — informație incorectă livrată autoritar, fără calificări adecvate. Dacă modelul greșește, dar își exprimă corect incertitudinea, rezultatul ar trebui tratat ca o ipoteză, nu ca o halucinație, susțin autorii.

Cercetarea vizează și sisteme „agentice”, în care modelele folosesc unelte externe — de exemplu, căutare sau API-uri — pentru a completa cunoștințele interne. În acest context, „incertitudinea fidelă” este prezentată ca un strat de control care decide dinamic când modelul ar trebui să caute și când poate răspunde direct. Yona a avertizat că, fără un astfel de mecanism, modelul poate fie să caute inutil „ceea ce știe deja cu încredere”, crescând costul și latența, fie să răspundă din memorie când ar fi trebuit să verifice, oferind un rezultat „plauzibil, dar greșit”.

Autorii critică soluțiile externe folosite azi pentru orchestrat agenți — precum clasificatoare de interogări sau reguli de tip „always-search” — pe care Yona le-a descris drept „statice și fragile”, argumentând că exprimarea corectă a incertitudinii este „inerent dinamică” și depinde de ce știe modelul în acel moment al antrenării.

Implementarea completă a „incertitudinii fidele” ar necesita, potrivit lucrării, instruirea modelului să folosească o „sintaxă a incertitudinii” prin fine-tuning supravegheat. Cercetătorii descriu însă un risc numit „paradoxul de bootstrapping”: etichetele de incertitudine se schimbă pe măsură ce modelul învață, în timp ce datele de antrenare rămân statice. „Dacă antrenezi pe o etichetă care spune ‘Nu știu X’, dar modelul chiar știe X, l-ai învățat să halucineze incertitudine”, a spus Yona.

Ca variantă cu „fricțiune” mai mică pentru echipele care nu vor să reantreneze modele, autorii indică prompting-ul ca punct de intrare. „Ingineria de prompturi este deja ceva ce majoritatea inginerilor fac astăzi; aceasta oferă calea cu cea mai mică fricțiune pentru a îmbunătăți comportamentul metacognitiv chiar acum”, a declarat Yona, adăugând totuși că „există încă un spațiu substanțial de îmbunătățire pe care doar prompting-ul nu îl rezolvă”.

Cercetătorii spun că rămâne deschisă și problema evaluării: cum poate fi măsurat dacă un model își „simte” cu adevărat stările interne sau doar imită stilul incertitudinii. „Chiar și la oameni, e greu să definești sau să separi abilitățile ‘reale’ de auto-monitorizare de o dependență abilă de proxy-uri”, a spus Yona. „Dezvoltarea unor cadre de evaluare care pot face diferența este una dintre cele mai importante probleme deschise din acest domeniu.”

Discuția are loc în contextul în care halucinațiile rămân un obstacol major pentru utilizarea LLM-urilor în aplicații enterprise, iar companiile construiesc tot mai des fluxuri complexe multi-agent. La evenimentul „VB Transform”, programat pe 14–15 iulie la Menlo Park, lideri de inginerie de la Intuit, Target și Instacart urmează să prezinte schimbări de arhitectură pentru fiabilitate și scalare; Intuit a anunțat că și-a reconstruit sistemul multi-agent în 60 de zile.

Surse: Venture Beat

Cercetători Google propun „incertitudinea fidelă” pentru a reduce halucinațiile AI

Like this:

Like this:

Like this:

Like this:

Lasă un răspuns Anulează răspunsul

Citește și

Share this:

Like this:

Din aceeasi categorie

Modele 3D ale temperaturii sub Groenlanda dezvăluie istoria tectonică a regiunii

Share this:

Like this:

Tratatul ONU pentru protejarea mării libere a intrat în vigoare

Share this:

Like this:

Psiholog: inteligența artificială nu ne fură fericirea, ci o poate susține

Share this:

Like this:

Lasă un răspuns Anulează răspunsul