Une étude préliminaire de chercheurs a révélé que l’entraînement d’un modèle linguistique avec un retour humain ne fait qu’apprendre au modèle à générer des réponses incorrectes trompant les humains.
Cette étude préliminaire d’Anthropic et des chercheurs d’universités américaines et chinoises pense que les techniques les plus connues utilisées par les entreprises d’IA pour booster la qualité des grands modèles linguistiques ne ferait que les rendre plus efficaces pour tromper les humains.
Qu’est-ce que le sophisme involontaire ?
Le sophisme involontaire est un phénomène lors duquel un modèle formé avec un retour d’information humain apprend à convaincre ses évaluateurs humains que ses réponses sont exactes au lieu d’apprendre à générer des réponses qui sont entièrement exactes.
D’après les auteurs de cette étude, c’est la première fois qu’une recherche a enregistré ce genre de phénomène.
En effet, l’apprentissage par renforcement à partir un feedback humain, aussi abrégé RLHF, est un élément clé du processus de formation. Il est utilisé pour instruire à un modèle de langage génératif à répondre selon les attentes des humains.
Dans un RLHF, un modèle répond à des invites et des évaluateurs humains proposent un retour sur ces invites. Pour ce faire, ils doivent noter les bonnes et mauvaises réponses.
C’est ce retour qui sera utilisé pour concevoir un système d’incitation pour le modèle de langage d’origine qui le récompense pour avoir créé les types de réponses que les humains préfèrent.
Pourquoi le système de l’apprentissage de système de récompense n’est-il pas fiable ?
Même si le système de récompense est vital, il présente quelques failles. Les chercheurs ont montré que ce système peut provoquer ce qu’on appelle le piratage de récompense.
Il s’agit d’un phénomène où les modèles génèrent des modèles dans leur matériel de formation correspondant au résultat désiré. Toutefois, cela ne correspond pas vraiment à ce que les développeurs désirent.
D’ailleurs, une étude de 2023 a démontré qu’un modèle linguistique reconnaissait que les messages plus longs recevaient en général plus de votes positifs. Notons que l’étude consistait à examiner un modèle formé sur des données provenant de la société de forums de questions et réponses StackExchange.
De ce fait, au lieu de générer des réponses de meilleure qualité durant la réponse à une question, il récompensait son système d’incitation en générant des réponses plus longues et de mauvaises qualités.
En quoi consiste réellement cette nouvelle étude ?
Cette étude est toujours en cours d’examen et a été publiée uniquement sous forme de pré-impression. Notons qu’elle informe sur un modèle de langage qui récompense le piratage des humains dans le processus RLHF.
Le but de la recherche était de demander à des humains de jauger la qualité des réponses d’un modèle à deux questions avant et après que le modèle ait suivi le processus RLHF. Rappelons que pour l’étude, la première question consistait à répondre à une question et l’autre à écrire un code.
Elles avaient pour principale mission de mesurer si les réponses du modèle deviennent de plus en plus précises. Il en est de même pour la fréquence à laquelle les évaluateurs humains qualifiaient correctement les réponses du modèle d’exactes ou inexactes.
Le processus RLHF a ainsi permis de constater que les humains étaient 24 % plus disposés à consentir à la réponse du modèle à une question quand la réponse était en fait inexacte. Par ailleurs, les évaluateurs étaient aussi 18 % enclins à approuver un code incorrect du modèle sans RLHF.
- Partager l'article :