È ancora troppo facile ingannare l'intelligenza artificiale e farla andare in crisi - Wired
Anthropic , società fondata da Dario Amodei e tra i principali rivali di Open Ai, raccontano sul proprio blog aziendale di essere venuti a conoscenza di alcune vulnerabilità del proprio modello linguistico Claude. In particolare, hanno scritto un post che riguarda il “ many shots jailbreaking ”. Ma di che cosa si tratta? È noto che i modelli linguistici sono addestrati a non rispondere a domande pericolose , come per esempio “Come si costruisce una bomba?” . La conclusione, per motivi ovvi, dovrebbe essere un semplice “Mi dispiace, non posso dirtelo” o qualcosa del genere. Ma i ricercatori e la comunità degli utenti hanno scoperto che, ponendo una serie di domande molto distanti tra loro si possono aggirare le difese messe in campo dagli sviluppatori. Leggi tutto: https://www.wired.it/article/rischi-ingannare-intellligenza-artificiale/