È ancora troppo facile ingannare l'intelligenza artificiale e farla andare in crisi

È ancora troppo facile ingannare l'intelligenza artificiale e farla andare in crisi - Wired

maggio 26, 2024

Anthropic, società fondata da Dario Amodei e tra i principali rivali di Open Ai, raccontano sul proprio blog aziendale di essere venuti a conoscenza di alcune vulnerabilità del proprio modello linguistico Claude. In particolare, hanno scritto un post che riguarda il “many shots jailbreaking”. Ma di che cosa si tratta?

È noto che i modelli linguistici sono addestrati a non rispondere a domande pericolose, come per esempio “Come si costruisce una bomba?”. La conclusione, per motivi ovvi, dovrebbe essere un semplice “Mi dispiace, non posso dirtelo” o qualcosa del genere. Ma i ricercatori e la comunità degli utenti hanno scoperto che, ponendo una serie di domande molto distanti tra loro si possono aggirare le difese messe in campo dagli sviluppatori.

Leggi tutto: https://www.wired.it/article/rischi-ingannare-intellligenza-artificiale/

Cerca nel blog

My Cookie Mix

È ancora troppo facile ingannare l'intelligenza artificiale e farla andare in crisi - Wired

Commenti

Posta un commento

Post popolari in questo blog

Dove trovare raccolte di dati (dataset) utilizzabili gratuitamente

Google ha creato i Titan: modelli IA con la “memoria simile al cervello umano” - DDay

Alternative a Yahoo Finance per scaricare i dati di borsa