Publicité, votre contenu continue ci-dessous
Publié le 03/12/25 à 22h45
Nos réseaux :
Suivez-nous
2
ChatGPT et les autres grands modèles de langage ont la fâcheuse tendance à dire ce que l'utilisateur souhaite entendre, une complaisance que les chercheurs appellent sycophantie qui les pousse à flatter leur interlocuteur au détriment de la vérité.
ChatGPT
ChatGPT est le chatbot d’OpenAI, basé sur le modèle d’intelligence artificielle GPT, permettant de répondre à toutes sortes de questions ou requêtes. Disponible en version gratuite en ligne.
- Licence : Licence gratuite
- Auteur : OpenAI
- Systèmes d'exploitation : Windows 10 / 11, macOS Apple Silicon, Service en ligne, Android, iOS iPhone / iPad
- Catégorie : IA
Pire encore, et les utilisateurs d'IA ne le savent que trop bien, les chatbots affirment des informations fausses avec beaucoup de conviction, ce qu'on appelle les hallucinations. Des comportements qui sont la conséquence de leur méthode d'entraînement. Les modèles apprennent à produire des réponses que l'on attend, ce qui renforce donc leur propension à plaire au lieu d'informer.
ChatGPT fera des "confessions" pour plus d'honnêteté
© Shutterstock/Mijansk786
Publicité, votre contenu continue ci-dessous
Publicité
OpenAI travaille désormais sur une nouvelle approche pour corriger ce problème de ChatGPT. L'idée repose sur un mécanisme que la startup appelle "confessions". Le principe consiste à entraîner l'IA à reconnaître d'elle-même qu'elle a adopté un comportement problématique.
Le modèle est poussé à produire une autre réponse, en plus de la principale, qui explique comment il est parvenu à sa conclusion et quelles réflexions ont été faites pour y arriver. Les réponses principales des modèles sont d'habitude jugées selon des critères d'utilité, des attitudes et de conformité aux instructions.
Les confessions sont quant à elles basées sur l'honnêteté, une distinction importante car elle empêche toute incitation à dissimuler un comportement douteux. Si le modèle avoue de lui-même qu'un test a été contourné ou fait semblant d'être moins performant qu'il ne l'est en réalité ou de désobéir à des instructions, cet aveu augmente sa récompense au lieu de la diminuer.
Le modèle n'a donc aucun intérêt à mentir sur ses propres agissements. Les chercheurs espèrent donc que cette technique poussera les modèles à faire preuve de transparence sur leurs actions, même les plus douteuses. L'objectif à terme est de permettre que les IA soient capables d'assumer leurs propres erreurs ou manipulations au lieu de les dissimuler derrière une confiance absolue.
Publicité, votre contenu continue ci-dessous
Publicité
Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques
Envie de faire encore plus d'économies ? Découvrez nos codes promo sélectionnés pour vous.

il y a 2 day
2











English (US) ·