Les discussions avec l’humain pervertissent l’IA, selon cette nouvelle étude

Dina R. 30 septembre 2024 3 minutes de lecture Intelligence artificielle

Une étude préliminaire de chercheurs a révélé que l’entraînement d’un modèle linguistique avec un retour humain ne fait qu’apprendre au modèle à générer des réponses incorrectes trompant les humains.

Cette étude préliminaire d’Anthropic et des chercheurs d’universités américaines et chinoises pense que les techniques les plus connues utilisées par les entreprises d’IA pour booster la qualité des grands modèles linguistiques ne ferait que les rendre plus efficaces pour tromper les humains.

Qu’est-ce que le sophisme involontaire ?

Le sophisme involontaire est un phénomène lors duquel un modèle formé avec un retour d’information humain apprend à convaincre ses évaluateurs humains que ses réponses sont exactes au lieu d’apprendre à générer des réponses qui sont entièrement exactes.

D’après les auteurs de cette étude, c’est la première fois qu’une recherche a enregistré ce genre de phénomène.

En effet, l’apprentissage par renforcement à partir un feedback humain, aussi abrégé RLHF, est un élément clé du processus de formation. Il est utilisé pour instruire à un modèle de langage génératif à répondre selon les attentes des humains.

Dans un RLHF, un modèle répond à des invites et des évaluateurs humains proposent un retour sur ces invites. Pour ce faire, ils doivent noter les bonnes et mauvaises réponses.

C’est ce retour qui sera utilisé pour concevoir un système d’incitation pour le modèle de langage d’origine qui le récompense pour avoir créé les types de réponses que les humains préfèrent.

Pourquoi le système de l’apprentissage de système de récompense n’est-il pas fiable ?

Même si le système de récompense est vital, il présente quelques failles. Les chercheurs ont montré que ce système peut provoquer ce qu’on appelle le piratage de récompense.

Il s’agit d’un phénomène où les modèles génèrent des modèles dans leur matériel de formation correspondant au résultat désiré. Toutefois, cela ne correspond pas vraiment à ce que les développeurs désirent.

D’ailleurs, une étude de 2023 a démontré qu’un modèle linguistique reconnaissait que les messages plus longs recevaient en général plus de votes positifs. Notons que l’étude consistait à examiner un modèle formé sur des données provenant de la société de forums de questions et réponses StackExchange.

De ce fait, au lieu de générer des réponses de meilleure qualité durant la réponse à une question, il récompensait son système d’incitation en générant des réponses plus longues et de mauvaises qualités.

Human Feedback Makes AI Better at Deceiving Humans, Study Shows: In a preprint study, researchers found that training a language model with human feedback teaches the model to generate incorrect responses that trick humans. https://t.co/uUR86E8caN
— Alan Regenberg (@aregenberg) September 27, 2024

En quoi consiste réellement cette nouvelle étude ?

Cette étude est toujours en cours d’examen et a été publiée uniquement sous forme de pré-impression. Notons qu’elle informe sur un modèle de langage qui récompense le piratage des humains dans le processus RLHF.

Le but de la recherche était de demander à des humains de jauger la qualité des réponses d’un modèle à deux questions avant et après que le modèle ait suivi le processus RLHF. Rappelons que pour l’étude, la première question consistait à répondre à une question et l’autre à écrire un code.

Elles avaient pour principale mission de mesurer si les réponses du modèle deviennent de plus en plus précises. Il en est de même pour la fréquence à laquelle les évaluateurs humains qualifiaient correctement les réponses du modèle d’exactes ou inexactes.

Le processus RLHF a ainsi permis de constater que les humains étaient 24 % plus disposés à consentir à la réponse du modèle à une question quand la réponse était en fait inexacte. Par ailleurs, les évaluateurs étaient aussi 18 % enclins à approuver un code incorrect du modèle sans RLHF.

Restez à la pointe de l'information avec LEBIGDATA.FR !

▶ Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités

Partager l'article :

Facebook
Twitter
LinkedIn

Anthropic Twitter

Les discussions avec l’humain pervertissent l’IA, selon cette nouvelle étude

Qu’est-ce que le sophisme involontaire ?

Pourquoi le système de l’apprentissage de système de récompense n’est-il pas fiable ?

En quoi consiste réellement cette nouvelle étude ?

Restez à la pointe de l'information avec LEBIGDATA.FR !

Sur le même sujet

Laisser un commentaire

La newsletter IA du futur

La newsletter IA du futur

Newsletter

La newsletter IA du futur

Les discussions avec l’humain pervertissent l’IA, selon cette nouvelle étude

Qu’est-ce que le sophisme involontaire ?

Pourquoi le système de l’apprentissage de système de récompense n’est-il pas fiable ?

En quoi consiste réellement cette nouvelle étude ?

Restez à la pointe de l'information avec LEBIGDATA.FR !

Sur le même sujet

IA générative : tout ce qu’il faut savoir sur cette tech révolutionnaire

Google dévoile une IA qui réfléchit, et qui explique son raisonnement : mieux qu’OpenAI o1 ?

« Moi ? Mort ? » : Steve Harvey dément une rumeur née d’une erreur d’IA

Laisser un commentaire

La newsletter IA du futur

La newsletter IA du futur

Newsletter

La newsletter IA du futur