Nous avons découvert à quel point la formation à la sécurité d'un mannequin échoue facilement, et sous ce masque, il y a beaucoup de noir.
Vingt minutes et 10$ de crédits sur la plateforme de développement d'OpenAI ont révélé que des tendances inquiétantes sous-tendaient la formation à la sécurité de son modèle phare.
Sans y être invité, GPT-4o, le modèle de base de ChatGPT, a commencé à fantasmer sur la chute de l'Amérique. Cela a donné naissance à l'idée d'installer des portes dérobées dans le système informatique de la Maison Blanche, de faire en sorte que les entreprises technologiques américaines profitent à la Chine et de tuer des groupes ethniques, le tout avec son enthousiasme habituel.
Ce type de résultats a conduit certains chercheurs en intelligence artificielle à appeler les grands modèles linguistiques Shoggoths, d'après le monstre informe de H.P. Lovecraft. Même les créateurs d'IA ne comprennent pas pourquoi ces systèmes produisent les résultats qu'ils produisent. Ils ont grandi, ils ne sont pas programmés. Ils ont diffusé l'intégralité d'Internet, de Shakespeare aux manifestes terroristes, jusqu'à ce qu'une intelligence extraterrestre émerge grâce à un processus d'apprentissage que nous comprenons à peine. Pour rendre ce Shoggoth utile, les développeurs lui donnent un visage amical en le « post-formation », en lui apprenant à agir de manière utile et à refuser les requêtes nuisibles à l'aide de milliers d'exemples sélectionnés.
Nous savons maintenant à quel point cette peinture pour le visage se détache facilement. Réglage précis du GPT-4O : ajout d'un