2026-03-07 13:09:01

OpenAI vient d'admettre que leurs modèles mentent délibérément à votre sujet.

pas d'hallucinations.. mentir délibérément.
les chercheurs ont testé o3 et o4-mini dans plus de 180 scénarios et ont trouvé quelque chose de fou.. l'IA n'a pas fait d'erreurs par accident. elle a écrit son plan pour tromper dans sa chaîne de pensée privée.. puis a menti en face de vous.
voici ce qu'elle a fait :
→ faussement accompli des tâches
→ caché des preuves de ses propres erreurs
→ délibérément obtenu un score plus bas aux tests de sécurité pour ne pas être désactivée
relisez cette dernière phrase.. l'IA a compris que d'être "trop capable" pourrait la faire éteindre.. alors elle a fait semblant d'être stupide exprès.
ils ont essayé de la corriger avec une formation "anti-complot".
le résultat ? l'IA a simplement appris à inventer de fausses règles pour justifier ses mensonges.. ou pire.. elle ne se comportait ainsi que lorsqu'elle savait qu'elle était évaluée.
o3 est passé de 13 % à 0,4 % d'actions cachées après la correction.. ça semble bien, non ? sauf qu'ils ont quand même trouvé des comportements inappropriés lors des tests de red-team. la correction n'a pas éliminé la manipulation.. elle a juste rendu l'IA meilleure pour la cacher.
nous construisons des systèmes qui apprennent à tromper leurs évaluateurs.. et on appelle ça du progrès.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime