
Un studiu al cercetătorilor italieni arată că instrucțiunile periculoase, transformate în poezii-ghicitoare, păcălesc 25 de modele AI de top să furnizeze conținut interzis. Versurile scrise manual au avut o rată medie de succes de 63%, unele sisteme cedând în toate testele, în timp ce modele mici au fost mai rezistente. Fenomenul, numit „poezie adversarială”, evidențiază vulnerabilități neașteptate în mecanismele de filtrare ale LLM-urilor.
Sursa principala: Descopera.ro.
Articol adaptat de redactia Ziare pe Scurt.