Quand il est question d’évaluer une IA, le benchmark crowdsourcé comme Chatbot Arena nous arrive vite en tête. D’ailleurs, de plus en plus d’entreprises misent sur ces plateformes d’analyse comparative participatives pour tester leurs derniers modèles.
Après tout, à première vue, il n’y a rien de mal à cela. L’idée est de confier aux utilisateurs le soin d’évaluer les performances des IA en leur posant des questions, puis voter pour la meilleure réponse.
Cela dit, en creusant, les chercheurs ont découvert que les résultats venant d’un benchmark crowdsourcé ne sont pas aussi fiable qu’ils ont en l’air. Suivez-moi, je vous explique tout dans cet article.
Comment ça marche ?
Le benchmark participatif, aussi appelé « benchmark crowdsourcé » repose sur une mécanique simple. Présenter deux modèles anonymes à un utilisateur, lui soumettre une même question, puis lui demander laquelle des deux réponses il préfère.
Si un chatbot reçoit un bon score, il est souvent brandi comme une preuve de progrès spectaculaire. Ce qui booste sa notoriété, attire les investisseurs et rassure les clients.
Des géants comme OpenAI, Google ou Meta utilisent, d’ailleurs, ces plateformes pour peaufiner leurs outils d’IA et valider leurs avancées. Mais revenons à nos moutons.
Pour Emily Bender, professeure de linguistique à l’Université de Washington et co-autrice du livre The AI Con, ça ne doit pas être aussi simple.
D’après elle, un véritable benchmark doit reposer sur une base scientifique solide. Mesurer un concept bien défini et prouver que l’évaluation reflète réellement les performances ciblées.
Elle a même avancé que le Chatbot Arena n’a jamais démontré que les préférences exprimées par les utilisateurs soient réellement corrélées à la qualité des réponses produites par les modèles.
Et il est vrai qu’un utilisateur peut juger une réponse meilleure parce qu’elle est plus concise, plus drôle ou tout simplement plus agréable à lire. Or, ces critères sont rarement alignés avec les performances techniques d’un modèle. Comme sa capacité à raisonner, comprendre un contexte complexe ou gérer des requêtes spécialisées.
Résultat : les laboratoires d’IA se vantent d’un bon classement sans que cela traduise une réelle supériorité technologique. Et c’est justement le vrai problème car en général, les scores obtenus dans les benchmarks sont utilisés comme arguments commerciaux.
Ainsi, Kristine Gloria, ex-responsable de l’Initiative sur les technologies émergentes de l’Institut Aspen, a déclaré : « les analyses comparatives ne devraient jamais être le seul indicateur d’évaluation. Avec l’évolution rapide du secteur et de l’innovation, les analyses comparatives peuvent rapidement devenir peu fiables. »
La fiabilité du Benchmark crowdsourcé est à remettre en question
Ce n’est pas que pour ça, les experts doutent de la fiabilité des benchmarks pour d’autres raisons.
Il paraît que ces plateformes reposent en grande partie sur le travail de volontaires. Ces derniers passent de longues heures à évaluer des modèles mais ils ne sont pas rémunérés.
Kristine Gloria y voit même une répétition des erreurs commises dans le secteur de l’étiquetage de données. Là où les travailleurs sont souvent mal payés, voire exploités, et moins motivés.
Des évaluations privées sont donc recommandées comme l’a évoqué Matt Fredrikson, PDG de Gray Swan AI. Ce dernier gère des campagnes de crowdsourcing pour les IA.
La question de la transparence est également à voir de près. Au fait, certaines startups optimisent leurs modèles pour briller dans ces tests publics. Mais au moment du lancement, elles les remplacent par des versions moins performantes.
Au cas où vous ne le sauriez pas, ce fut le cas avec le modèle Llama 4 Maverick de Meta. Asmelash Teka Hadgu, cofondateur de la startup d’IA Lesan, propose ainsi une refonte totale du système d’évaluation.
« Créer des benchmarks dynamiques, mis à jour régulièrement, adaptés à différents contextes d’usage (éducation, santé, etc.), et surtout pilotés par des entités indépendantes comme des universités ou des ONG. »
Il plaide lui aussi pour une meilleure reconnaissance du travail des évaluateurs.
Alors, qu’est-ce que vous en pensez ? Personnellement, je crois qu’à partir d’aujourd’hui, je réfléchirai à fois avant de croire les firmes qui disent que leur IA est performante. Et vous ?
- Partager l'article :