Rendre des machines responsables, est-ce responsable ?

Des tâcherons à l’intelligence artificielle

Les machines intelligentes actuelles restent fondamentalement plus proches du grille-pain que du chat.

L’intelligence artificielle regroupe sous la même discipline des techniques mathématiques et algorithmiques d’élaboration de programmes qui, parfois, ont l’air d’agir avec une certaine intelligence. C’est-à-dire de prendre des décisions qui pourraient être prises par des personnes intelligentes ; c’est l’essence du test de Turing 1.

Remarquons que l’apparence d’intelligence évolue avec le temps : on ne dit plus d’un programme d’échecs qu’il est intelligent. Nous avons pris conscience, entre Kasparov (1996-97) et Kramnik (2002), que ce programme est stupide. Meilleur que le meilleur joueur humain, mais tout de même profondément stupide. Les programmes d’intelligence artificielle sont ainsi situés sur une frontière qui évolue dans le temps. Peut-être pour préserver notre orgueil ?

L’évolution de cette frontière depuis l’invention des premiers calculateurs automatiques dans les années 1940 est d’ailleurs remarquable. Et irrégulière : nous vivons actuellement le troisième printemps de l’intelligence artificielle, après ceux des années 60 et des années 80 (WP). L’intérêt du public sur le sujet est cyclique et aujourd’hui, il est particulièrement attisé par les applications qu’en font les GAFA sur nos données personnelles, ainsi que par certains discours douteux (transhumanisme, humain augmenté, singularité kurzweilienne). Une petite musique pseudo-scientifique ou pseudo-technologique se fait entendre, parfois technophile, parfois technophobe. Dans les deux cas, pour qui veut bien le croire, la perte de contrôle est inévitable, sinon actée. Poncifs : « l’intelligence artificielle remplacera l’intelligence humaine », « les machines vont prendre le travail des humains » ou encore « les décisions algorithmiques vont modeler nos vies ».

Pourtant, la communauté scientifique affirme clairement ne pas voir vu bouger la moindre patte de la moindre puce d’HOLMES IV, d’HAL 9000, de Skynet ou de B1-66ER. Les programmes actuels ont des objectifs bien délimités : reconnaître des visages humains, classer des objets courants, guider des missiles, atomiser des humains aux échecs, au go et à Starcraft, conduire des véhicules. Si ces programmes excellent dans leur pré carré, en dehors ils se retrouvent comme une poule qui a trouvé un couteau. Les combiner pour étendre les tâches traitées (reconnaître un pion et le déplacer) ne semble pas suffisant pour franchir la barrière intellectuelle  qui nous distingue encore d’eux. Ou qui les distingue des volailles d’ailleurs : l’intelligence d’une poule ne se résume pas à reconnaître un grain et le picorer. Énumération, repérage de renard, système de communication complexe à base de gloussements, organisation hiérarchique et conspirations sociales. Il n’existe aujourd’hui aucune forme d’intelligence artificielle capable d’exécuter le panel des tâches qu’effectue quotidiennement une poule (ou un humain).

 

Responsabilité algorithmique

Un algorithme ou un programme opère des choix. Ces choix relèvent de l’humain qui conçoit le programme, pas de la machine. La forme importe moins que le fond, en IA comme ailleurs.

Pourtant, la crainte irrationnelle d’une mainmise des machines sur nos vies est prise au sérieux. Gouvernements et cercles de réflexion abordent le sujet à travers les initiatives FranceIA et le récent rapport Villani.

Le consensus général est que les avancées technologiques nous dépossèdent progressivement de certaines décisions algorithmiques, avec des conséquences morales hasardeuses : inégalité, discrimination, manipulation, dépendance. Petite arithmétique de l’inhumanité : une voiture dont le conducteur automatique perd le contrôle doit-elle écraser un enfant ou un adulte ? Un enfant ou deux adultes ? Et s’il faut écrire une formule de pondération : qui en portera la responsabilité pénale, civile ou sociale ?

Cette dernière question convoque l’éthique de responsabilité. En effet, les programmes ne s’écrivent pas tous seuls et les décisions qu’ils prennent sont conditionnés par des choix humains. Mesurer, classer, choisir : ces actions peuvent devenir objectives une fois le cadre mathématique posé. Mais qui pose ce cadre ? Quelles règles doit-on utiliser pour quantifier ou qualifier un comportement ? Par exemple : sur quels critères de comportement d’un client une banque va-t-elle lui refuser un prêt ? Et si le refus est motivé par une probabilité de défaut de paiement inférieur à un seuil donné : comment cette probabilité est-elle calculée au juste ? Est-ce que l’historique du client, son genre ou son opinion politique interviennent ?

Tous ces choix restent dans l’angle mort des utilisateurs. Les concepteurs des programmes n’en rendent pas compte. Pourtant, la conduite des programmes nous concernent tous. Par exemple, Google Maps masque les maisons de certaines célébrités, voire de quartiers entiers. Le service de cartographie adapte aussi les frontières suivant les versions, pour ménager les susceptibilités nationales (Crimée, Cachemire, Sahara occidental, …). Si, un jour, nous sommes tous forcés de suivre un itinéraire calculé par un service central sous prétexte de fluidifier la circulation, aurons-nous accès à son implémentation ?

Notre société exige et sait établir la responsabilité des acteurs lors d’une prise de décision automatique dans des situations où une erreur peut s’avérer critique : ascenseur, pompe à perfusion, signalisation ferroviaire, pilotage automatique d’avions, contrôle de réacteurs nucléaires, riposte atomique. Afin de ramener les programmes actuels d’intelligence artificielle dans ce schéma, signalons leurs différences avec les programmes classiques.

Les programmes classiques sont construits selon une approche non statistique basée sur la séparation des cas : les décisions découlent d’un partitionnement de cas bien définis. Dit autrement, ces programmes sont basés sur des critères simples, connus dès la conception, et avec des branchements clairs, même si fortement imbriqués : ils se résument à des suites de if-then-else. Puisque tout est défini, aux erreurs d’implémentation près, la responsabilité humaine peut être clairement délimitée : les développeurs implémentent le programme qui a été conçu par les architectes afin de répondre aux besoins des décideurs. Maîtrise d’œuvre, maîtrise d’ouvrage, discussion et validation des critères, chaîne de responsabilité, etc.

Contrairement aux programmes classiques construits sur une séparation explicite de cas, la plupart des programmes d’intelligence artificielle actuels utilisent des méthodes statistiques. Cette approche repose sur l’utilisation de bases de données : ces programmes font appel à une méthode de programmation dite d’apprentissage automatique, qui consiste à apprendre à partir d’un ensemble d’exemples supposé suffisamment grand. Ils utilisent les statistiques pour mettre en évidence des motifs (tendances, corrélations, cycles) dans les données.

Cette approche soulève plusieurs points de discussion.

  • L’apprentissage est souvent résumé à la minimisation d’une fonction objectif. Ce qui suppose une modélisation, forcément réductrice, de la tâche visée.
  • De nombreux algorithmes, et en premier lieu les grands réseaux de neurones, ne rendent pas compte facilement de leur mécanisme de prise de décision. On parle d’opacité ou de boîte noire. Dès lors, comment les corriger ?
  • Les bases de données sont parfois complexes à appréhender et à analyser en profondeur. C’est cette complexité qui favorise l’introduction de biais d’apprentissage, parfois subtils, parfois accidentels, parfois flagrants, que nous allons développer plus bas.

Biais

Exemple canonique illustrant les responsabilités sociales et humaines qui peuvent être enchassées dans un algorithme IA.

L’exemple classique de la prévention algorithmique de la récidive consiste à décider si un délinquant est susceptible de récidiver et à adapter la peine judiciaire en conséquence. Cf Minority Report. Le cas présenté dans cet article du MIT Tech Review est symptomatique des biais d’apprentissage.

  • Biais méthodologique. Certaines populations ou catégories peuvent être sous- ou sur-représentées ou  dans les données d’apprentissage. La couleur de peau est un facteur important aux Etats-Unis, et les Noirs sont largement sur-représentés dans les prisons : 12% de la population total, 33% de la population des prisons (www par exemple). Il convient de prendre en compte la réalité de l’échantillon statistique.
  • Biais logique : une corrélation n’explique rien, ce n’est qu’une observation. Corrélation n’est pas causalité. Observer que précarité et manque d’argent sont liés à une forte récidive, ne permet pas de conclure que la pauvreté sera la cause de délinquance future. L’algorithme prédira cependant un score de récidive important, et il aura raison car, de fait, la probabilité de récidive est forte au regard des données d’apprentissage. De là à acter la récidive future et à l’anticiper…
  • Biais de répétition : les algorithmes apprennent sur des données historiques. Ils ne peuvent donc que répéter le passé. Est-ce souhaitable qu’il se répète ?

Une lecture différente de l’anticipation des récidives est possible. « Au vu de notre expérience, l’algorithme indique que cette personne a un risque de récidive plus élevé que la moyenne. Il convient donc d’agir sur les causes et de lui donner les moyens de se mettre dans une situation qui évitera une trop probable récidive ».

Si les décisions algorithmiques issues d’un processus d’apprentissage automatique sont biaisées, en premier lieu par la constitution de la base de données d’entrée, il est cependant possible de détecter ces biais. Ou du moins d’en signaler la présence éventuelle.

Apprendre ? Réfléchir !

Un programme, si perfectionné soit-il, demeure stupide. Toute apparence d’intelligence est factice. L’industrie des services numériques avancés, pour ne pas dire l’industrie de l’intelligence artificielle, ne doit pas se rendre coupable de négligence. Une décision algorithmique relève d’une décision humaine, quel que soit la complexité du processus à l’œuvre : bête if-then-else, catégorisation simple ou réseau de neurones profond entraîné sur des milliards d’exemples. Développeurs informatiques, concepteurs, chefs de projets, responsables, ne vous cachez pas derrière les algorithmes : c’est vous qui avez planté les arbres de décision.

Rien de neuf sous le soleil ? Si, tout de même : la généralisation de l’accès à des outils capables d’extraire de l’information et de la connaissance à partir d’exemples, sans intervention humaine directe concernant le contenu, et le mésusage qui peut en être fait. Autrement dit : un algorithme de classification de clientèle entraîné sur des critères descriptifs simples (comme une liste de clients) va, a priori, fournir des résultats biaisés et imparfaits. Il faut prendre conscience des biais implicites, surtout s’il sont invisibles. Cet écueil menace une grande partie des approches basées sur la données, dites data-driven. Faut-il, aveuglément, reproduire le passé et imiter nos défauts ? Il convient d’être prudent.

Plus généralement, les décisions algorithmiques s’inscrivent dans un cadre social et politique, et pas que technique. Les méthodes employées, dont la complexité technique est élevée, ne doivent pas servir d’excuse pour ne pas assumer les impacts humains et sociétaux des décisions qu’elles rendent possibles.

  1. Le test de Turing est fondé sur l’hypothèse que les êtres humains peuvent juger de l’intelligence d’une machine en comparant son comportement avec le comportement humain – extrait de la page Wikipédia.[]