“Les résultats présentés ici suggèrent que sous certaines conditions GPT-4 satisfait au critère de Turing, selon lequel le programme a été identifié [comme un humain] dans 30% des cas […].

Cependant, il n’est pas certain que ce seuil de 30 % soit un critère approprié. Un critère plus approprié serait de 50 %. Cela pourrait suggérer que les interrogateurs sont, en moyenne, incapables de distinguer le modèle d’un être humain.”

— C. Jones et B. Bergen, Does GPT-4 Pass the Turing Test? (2023), traduction libre

* presque

Ce billet est une présentation du papier de Jones et Bergen (2023), disponible sur arXiv:2310.20216. Ce papier décrit la configuration d’un test de Turing simplifié et fournit un compte-rendu accessible et bien écrit des résultats, avec des figures claires et de nombreux détails. Je vous invite à le lire.

Attention, ce papier n’a pas forcément été validé par les pairs (peer-review). Il est pour l’instant déposé sur le serveur de pré-publication Arxiv.

Contexte

L’intelligence artificielle est décidément partout, depuis environ 2016. Les grands modèles de langage (large language models, LLM) tels que GPT-4 de OpenAI semblent bien conçus pour pouvoir, peut-être, passer le test de Turing. Ces agents conversationnels sont en effet capables de mener des conversations fluides en langage naturel. Ils montrent des performances proches des performances humaines sur une variété de tâches basées sur le langage - je renvoie aux références citées dans le papier.

L’usage massif de programmes capables de se faire passer pour des humains, pourrait avoir des conséquences importantes pour le bon fonctionnement de nos sociétés. La situation est clairement problématique dans le cas des interactions en ligne. C’est un sujet social et politique important.

De nombreux commentateurs ont déjà largement spéculé sur le fait que GPT-4 réussirait un test de Turing, ou l'aurait déjà fait implicitement. Sans preuve. Cette question est abordée dans le papier Jones et Bergen (2023), où GPT-4 est comparé à des humains et à d'autres agents conversationnels lors d’un test de Turing en ligne.

C’est quoi un LLM ?
Lisez notre Guide de Survie !

Test de Turing

Le mathématicien Alan Turing a conçu, en 1950, le jeu de l'imitation (imitation game) comme une façon de se demander si les machines pouvaient penser. Dans sa configuration originale, deux témoins discutent avec un interrogateur (humain). Un témoin est humain, l’autre est artificiel - un programme. Chacun des témoins tente de convaincre l’interrogateur qu’il est humain. Le jeu, pour l’interrogateur, est de décider qui est humain et qui est une machine. Pour ce faire, il peut poser des questions sur n'importe quel sujet. Le test de Turing pose de nombreuses questions, notamment sur ce qu'il mesure réellement et sur le type de systèmes qui pourraient être capables de le passer. Nous en avons parlé dans ce billet.

Le test décrit dans l’article est une version simplifiée de la version pensée par Alan Turing.

La prédiction de Turing

“I believe that in about fifty years’ time it will be possible to programme computers, with a storage capacity of about 10^9 , to make them play the imitation game so well that an average interrogator will not have more than 70% chance of making the right identification after five minutes of questioning.”

— Alan Turing, 1950

Alan Turing pensait donc qu’en l’an 2000 des ordinateurs pourraient être programmés pour passer le test avec une performance supérieure à 30% : dans trois cas sur dix, un interrogateur humain se tromperait et déciderait que le témoin artificiel est un humain.

Ce seuil à 30% paraît un peu faible à la communauté scientifique, selon les auteurs. Un seuil à 50% est généralement retenu, car il permet de dire que le programme réussit en moyenne à tromper l’interrogateur plus souvent qu’un simple tirage aléatoire.

Notons que concernant le test de Turing, d’autres paris sont en cours.

Jeu

Nous adoptons une version à deux joueurs du test de Turing, où un interrogateur pose des questions à un seul témoin et doit décider s'il s'agit d'un humain ou d'une IA. Cette formule diffère de la formulation originale de Turing pour trois personnes, mais elle évite la nécessité d'avoir plusieurs participants humains en ligne pour chaque jeu, et elle est devenue une interprétation relativement standard du jeu.
Jones et Bergen (2023), 2. Methods (traduction libre)

Les auteurs ont ainsi créé 25 témoins artificiels différents, ou joueurs, à partir de l’API d’OpenAI. Ils utilisent un des deux modèles disponibles (GPT-3.5 ou GPT-4) et une “température” comme paramètre additionnel (= 0.2, 0.5 ou 1.0). Chaque système LLM a été configuré par un prompt spécifique décrivant notamment le contexte, la personnalité à incarner et quelques instructions sur la façon de répondre, ex: fautes d'orthographe, de grammaire ou de capitalisation. Les temps de réponse ont par ailleurs été normalisés, car un programme génère des réponses d’habitude plus vite qu’un humain.

Règles

Chaque test dure au maximum 5 minutes.

L’interrogateur doit décider, à la fin du test, si le témoin est humain ou pas.

Le témoin doit convaincre l’interrogateur qu’il est humain.

L’interrogateur et le témoin envoient des messages chacun leur tour.

Chaque message est limité à 300 caractères.

Le taux de réussite est défini comme la proportion de parties dans lesquelles l'interrogateur a décidé que le témoin était humain. Un interlocuteur décidant au hasard aurait ainsi une performance de 50%.

Les auteurs ont analysé 1400 parties. Les principaux résultats de l’étude sont les suivants.

Les auteurs ont ainsi créé 25 témoins artificiels différents, ou joueurs, à partir de l’API d’OpenAI. Ils utilisent un des deux modèles disponibles (GPT-3.5 ou GPT-4) et une “température” comme paramètre additionnel (= 0.2, 0.5 ou 1.0). Chaque système LLM a été configuré par un prompt spécifique décrivant notamment le contexte, la personnalité à incarner et quelques instructions sur la façon de répondre, ex: fautes d'orthographe, de grammaire ou de capitalisation. Les temps de réponse ont par ailleurs été normalisés, car un programme génère des réponses d’habitude plus vite qu’un humain.

Résultats

1. Dans 63% des cas, un témoin humain est identifié comme tel par un interrogateur.

Ce qui signifie que dans 37% des cas, l’interrogateur a décidé que son interlocuteur était une machine, alors qu’il parlait en réalité avec un humain ! Ce résultat est en soi digne d’intérêt, car on aurait pu s’attendre à un score plus élevé.

2. Le meilleur score de GPT-4 est de 41%. Il satisfaisait donc le critère énoncé par Turing en 1950.

Ce qui signifie que dans quatre cas sur dix, GPT-4 réussit à se faire passer pour un humain. Avec deux précisions importante : la configuration n’est pas tout à fait la même, et un seuil à 50% serait plus convenable. Ça reste cependant un résultat notable.

3. GPT-3.5 obtient de faibles scores.

4. Le modèle historique ELIZA, qui date de 1966, obtient un score de 27%, soit près de trois cas sur dix.

Cette performance est inattendue. Les auteurs la discutent en expliquant qu’une des raisons viendrait des réponses très neutres du programme. Les interrogateurs auraient aussi tendance à rejeter l’hypothèse d’un témoin artificiel car un programme répondrait mieux. Amusant.

Graphes

Figure 4: Overall Turing Test Success Rate (SR) for a subset of witnesses. — **Figure 4**: Overall Turing Test Success Rate (SR) for a subset of witnesses. Human witnesses perform best, with 63% SR. GPT-4 performance varies greatly by prompt from 41% (Sierra, best) to 6% (Foxtrot, worst). ELIZA achieves 27%, outperforming the best GPT-3.5 prompt (Juliet, 14%), GPT-4 performance with that prompt (26%), and a baseline prompt from Jannai et al. (2023), AI21 (19%). *- from original paper*

Figure 10: Top 20 types of reason that interrogators gave for deciding that an AI witness was in fact an AI. — **Figure 10**: Top 20 types of reason that interrogators gave for deciding that an AI witness was in fact an AI. - *from original paper*

Les valeurs absolues des performances ne sont pas réellement significatives, il est plus prudent de ne considérer que les ordres de grandeurs et les performances relatives. Si certains paramétrages de GPT-4 arrivent à tromper les interrogateurs, ses performances restent moins bonnes qu’une décision aléatoire (=c’est donc plutôt un échec). Il est assez rassurant que les témoins humains montrent de bien meilleures performances. Ouf.

Les auteurs notent que les décisions des interrogateurs sont principalement basées sur le style linguistique des réponses (35 %) et ce que les auteurs appellent des “traits socio-émotionnels” (27%), ce qui confirme à leurs yeux l'idée que l'intelligence n'est pas suffisante pour réussir le test de Turing. Je n’ai pas de commentaire intelligent à faire sur ce point.

Notons que les participants qui disent comprendre ces systèmes génératifs et ceux qui interagissent fréquemment avec eux n’ont pas obtenu des performances supérieures aux participants plus “naïfs”. Le niveau d’étude ne semble pas non plus avoir un impact sur les résultats.

Limites

Les auteurs concluent que malgré ses limites, le test de Turing reste pertinent comme outil d’évaluation des performances générales d’un agent conversationnel automatique. Le lecteur intéressé lira avec bonheur l’introduction du papier qui rappellent le cadre du débat.

L’étude montre de nombreuses limites, qui sont détaillées et discutées dans le papier. On attend donc une version améliorée avec beaucoup d’intérêt !

Liens

https://garymarcus.substack.com/p/nope-the-turing-test-has-not-been

GPT-4 passe* le test de Turing