Cercetători de la University of California, Berkeley au lansat Agents’ Last Exam (ALE), un nou benchmark pentru evaluarea capacității inteligenței artificiale de a executa fluxuri de lucru profesionale pe termen lung, iar GPT-5.5 al OpenAI a ocupat primul loc în clasament cu o rată de trecere de 24,0%.

Modelul GPT-5.5, rulat prin „Codex harness”, a depășit Claude Fable 5 al Anthropic, lansat cu o zi înainte, care s-a clasat pe locul trei cu 22,0%, potrivit datelor publicate pe leaderboard-ul ALE. Pe locul al doilea s-a situat „Ale Claw” cu GPT-5.5, cu o rată de trecere de 23,0% și un scor mediu de 45,8%.
ALE a fost dezvoltat de Center for Responsible, Decentralized Intelligence (RDI) din cadrul UC Berkeley împreună cu un comitet consultativ de peste 300 de experți și urmărește să măsoare dacă agenții AI pot finaliza sarcini „economic valoroase” care implică pași multipli și utilizarea de instrumente software, în locul testelor bazate pe probleme izolate de programare.
Benchmark-ul pornește cu 1.490 de instanțe de sarcini și are ca țintă extinderea la 5.000. Sarcinile sunt ancorate în taxonomia ocupațională federală a SUA (O*NET / SOC 2018) și acoperă 55 de subdomenii industriale non-fizice, incluzând activități precum creare de modele 3D în Siemens NX, setare de scene în Unreal Engine, analiză de neuroimagistică în FSLeyes și compoziție de efecte vizuale în Adobe After Effects.
Evaluatorii au introdus un cadru numit Generalist Computer-Use Agent (GCUA), în care modelele trebuie să opereze mașini virtuale Linux sau Windows, combinând scripting în shell cu operațiuni de tip point-and-click în aplicații desktop. ALE folosește evaluarea de tip „LLM-as-a-judge” pentru 6,8% dintre fluxurile de lucru, iar pentru restul utilizează verificări deterministe, bazate pe cod, care compară rezultatele cu referințe stabilite de experți.
ALE împarte sarcinile în trei niveluri de dificultate: Near-Term, Full-Spectrum și Last-Exam. Pe subsetul cel mai dificil, „Last-Exam”, mai multe configurații, inclusiv Claude Opus 4.8 al Anthropic și Gemini CLI al Google, au înregistrat o rată de trecere de 0,0%, potrivit leaderboard-ului.
Pentru a limita „contaminarea” benchmark-ului prin scurgerea întrebărilor în datele de antrenare, proiectul păstrează privat cea mai mare parte a setului de evaluare: aproximativ 10% din date, circa 150 de sarcini, sunt publicate pe platforme precum GitHub și Hugging Face, iar restul de peste 1.300 de sarcini rămân private și sunt rotite în timp.
Zengyi Qin, cercetător doctorand la MIT și contributor de date la proiect, a anunțat lansarea pe X, afirmând că ALE a fost „construit de peste 300 de experți din peste 100 de instituții” și că „Claude Opus 4.8 are 0,0% rată de trecere pe subsetul cel mai dificil”.
Surse: Venture Beat