GUIDE
DE SURVIE
EN MILIEU
HOSTILE

intelligence artificielle
+ deep learning
+ data science
+ chatGPT
+ LLM etc

pensé pour les CDO, CTO, CAIO, CDAO

[pdf]

Tout problème pour lequel aucune 
solution algorithmique n’est connue 
relève a priori de l’intelligence artificielle.
— Jean-Louis Laurière (1985)
La plupart des chercheurs en IA ont abandonné l’espoir initial de l’intelligence artificielle générale, se tournant plutôt vers la résolution de tâches très spécialisées, souvent avec un succès spectaculaire.
— Margaret Boden (2016)

A quoi sert ce guide ?

avoir les idées claires

L’ensemble des acteurs privés et publics rêve d’adopter le modèle opérationnel des géants du numérique : déléguer la prise de décision à des algorithmes qui exploitent systématiquement d'immenses bases de données. La décennie 2010-2020 voit le monde économique succomber à cette mode et s’exprimer uniquement par mots-clés : tech, Big Data, data mining, data science, deep learning et maintenant les large languages models et l'inévitable ChatGPT. Pourtant, ces technologies sont largement incomprises. Elles doivent prouver leur pertinence dans un contexte de production, sans toutefois accaparer les budgets consacrés à l'innovation.

Ecrit par des techniciens de la donnée qui évoluent dans le monde de la R&D avec près de 100 projets réalisés depuis 2015, ce guide donne les éléments nécessaires pour contextualiser ces technologies et comprendre leurs usages.

suivre les innovations

De nouveaux rôles stratégiques émergent : les chief AI officer (CAIO) et chief data and AI officer (CDAO) renforcent aujourd'hui les chief data officer (CDO).

Ces personnes clés ont la lourde tâche de guider les organisations dans l'utilisation de ces nouvelles technologies liées à l'IA. Elles nécessitent une compréhension fine de domaines aussi variés que les mathématiques, l'informatique et les sciences cognitives.

Quels sont les impacts à attendre sur la stratégie et la gouvernance ? Quelles sont les technologies à suivre ?

Les enjeux sont importants.

comprendre
les technologies liées 
à l'intelligence artificielle


Résumé

L'histoire moderne de l'intelligence artificielle débute en 1956. Depuis bientôt 70 ans, scientifiques et ingénieurs conçoivent des 
programmes “intelligents”, dont certains font appel aux algorithmes d'apprentissage 
automatique. Les réseaux de neurones artificiels sous la forme du deep learning, vivent un printemps remarquable depuis 2016. De nombreux systèmes d'IA spécialisées sont créés en application de cette technologie, dont l'agent conversationnel ChatGPT.

l’intelligence artificielle

L'intelligence artificielle fonctionne par cycles.
 Le public se passionne au printemps, 
et se refroidit vite quand l'hiver arrive. Nous vivons aujourd'hui 
le printemps du deep learning.

un domaine complexe

L’IA est d’abord un mythe. Notre imaginaire est peuplé de machines pensantes issues de la mythologie, de la littérature ou du cinéma. Cet héritage culturel est une source de nombreux fantasmes.

L’IA est un domaine de recherche liés aux sciences cognitives. Les scientifiques essaient de capturer l’intelligence humaine ou animale pour la reproduire à l’aide de machines et de programmes. Le domaine est vaste : logique, résolution de problèmes, robotique, algorithmique, traitement de l’information. Les scientifiques progressent avec difficulté et patience depuis les années 1950, de manière irrégulière et par vagues successives. La modélisation d’une forme d’IA générale qui résoudrait tous les problèmes reste toutefois un mystère.

L’IA est enfin un ensemble de technologies. Les ingénieurs construisent des outils d’aide à la décision, d’exploration ou d’automatisation. Certaines réalisations liées à l’informatique sont bien connues du grand public : DeepBlue, Google Search, AlphaGo, ChatGPT, Dall·e, MidJourney, IBM Watson.

Depuis 2010, une famille d'algorithmes d’apprentissage porte l'essentiel des progrès : les réseaux de neurones profonds.

L’intelligence
 artificielle consiste
 à rendre une
 machine capable de
 comportements qui,
 s’ils étaient réalisés
 par un humain, seraient
 qualifiés d’intelligents.
— John McCarthy

les pionniers de l'IA

  • On tentera de trouver comment faire en sorte que les machines utilisent le langage, forment des abstractions et des concepts, résolvent des types de problèmes aujourd'hui réservés aux humains et s'améliorent elles-mêmes.

    John McCarthy est prix Turing 1971

  • Mon but n'est pas de vous surprendre ou de vous choquer.

    Nous disposons aujourd’hui de machines qui pensent, qui apprennent et qui créent. De plus, leurs capacités sur ces sujets vont augmenter rapidement jusqu'à ce que, à un horizon proche, l'éventail des problèmes qu'elles pourront traiter sera proche de ce que l'esprit humain peut faire.

    Herbert A. Simon est prix Turing 1975.

  • D'ici peu, nous pourrions apprendre à les faire travailler [sur] l'amélioration de leurs propres capacités. Une fois un certain seuil franchi, cela pourrait conduire à une spirale d'accélération et il pourrait être difficile de mettre au point des garde-fous fiables pour la freiner.

    Marvin Minksy est prix Turing 1969.

Les gens qui faisaient ces prédictions n’étaient pas cinglés. Ils essayaient simplement de 
préparer le public à des choses qui semblaient tout à fait plausibles à l’époque.
— Patrick H. Winston (1984)

une
brève
histoire

  • Les ordinateurs sont des machines nouvelles, dédiées au traitement automatique de l'information. L’IA se fixe pour but de rendre ces machines, programmes ou robots, intelligents. La première approche est symbolique. Comment modéliser et reproduire le raisonnement logique et la pensée humaine ?

    Pour manier ces concepts très abstraits, l'intelligence est divisée en un ensemble de fonctions, pour lesquelles une solution logicielle est construite, selon un paradigme réductionniste (divide & conquer). On parle habituellement de GOFAI, pour “good old fashioned artificial intelligence”.

    Le domaine fait de beaux progrès dans la thématique de la résolution de problèmes. Les avancées théoriques et pratiques suivent le développement de l’ensemble des outils informatiques.

    De nombreux systèmes sont créés (SHRDLU, ELIZA, GPS, SHAKEY) ainsi que des langages de programmation afin d'interagir efficacement avec les ordinateurs. Certains sont encore utilisés aujourd’hui (LISP, PROLOG). Cette période est caractérisée par un optimisme débridé et communicatif des pionniers. Il se transmet au grand public. D’importants financements suivent. L'IA générale semble accessible dans quelques dizaines d’années.

  • Les attentes irréalistes sont progressivement douchées par la réalité. L’approche symbolique se heurte à la difficile modélisation du raisonnement logique. La décomposition des problèmes en tâches simples multiplie les branchements lorsque la complexité algorithmique est défavorable. L’espace des possibles devient alors gigantesque : c'est l'explosion combinatoire, phénomène qui est au cœur de nombreux problèmes réels. Le calcul, même rapide, ne suffit pas.

    Aux blocages théoriques, deux difficultés s’ajoutent : le manque de sens commun et le problème du cadre. Si l’expérience humaine du monde se construit sur des implicites, un programme ne connaît rien. Tout doit être décrit. La logique ne suffit pas.

  • L’émergence des systèmes experts 
relance l'intérêt du public pour l'IA. Le but est de concevoir des programmes capables d'exploiter des bases de connaissances constituées sur des domaines spécifiques. Certains systèmes experts sont utilisés de manière routinière comme DENDRAL ou R1/XCON. Ils sont cependant complexes et coûteux.

  • La communauté de l'IA est critiquée pour avoir, encore, trop promis. Deux échecs industriels marquent cet hiver.

    1. Les ordinateurs optimisés pour traiter le langage de programmation LISP, alors dominant de l'IA, ne trouvent pas leur marché.

    2. Le Japon se lance en 1982 dans un projet très ambitieux : créer la cinquième génération de systèmes informatiques (FGCS) en concevant des ordinateurs basés sur le calcul massivement parallèle et la programmation logique. Trop en avance sur son temps, ce projet est un échec marquant.

  • Fin 1990 et début 2000, le paradigme évolue. Le système organisé autour d'un modèle central est remplacé par une approche comportementale. Elle devient le nouveau paradigme, à travers le développement d’une architecture dite réactive, qui permet le fonctionnement de robots (Homer, Roomba) ou agents (SIRI) en définissant une série de comportements possibles et en les classant par ordre de priorité.

    Courant 2010, une révolution vient frapper le petit monde de l'apprentissage automatique : le deep learning.

les programmes d’intelligence artificielle

Il y a ce mythe stupide selon lequel l’IA a échoué, mais l’IA est partout autour de vous à chaque seconde de la journée. Les gens ne le remarquent tout simplement pas.
— Rodney Brooks (2022)

“cerveaux intelligents”

Après la seconde guerre mondiale, une nouvelle discipline se crée : l'informatique. Les idées de Norbert Wiener, Claude Shannon, John von Neumann et Alan Turing, pour ne citer que les plus connus, se cristallisent. On s’emploie rapidement à construire des “cerveaux électroniques” et d'essayer de les rendre “intelligents”. C’est une tâche ardue, car l'intelligence est mal définie.

L'IA est en tension permanente entre scientifiques et ingénieurs, entre la compréhension théorique des systèmes et leur utilité pratique. Le but commun est de construire des machines capables d’accomplir des tâches qui, à nos yeux et selon un consensus implicite, nécessitent de l’intelligence. Accomplir cette tâche implique de travailler sur des questions fondamentales de l'informatique, comme l'architecture des ordinateurs, la programmation haut niveau ou la difficile articulation entre une capacité de raisonnement symbolique, proche du raisonnement humain, et la nécessaire intégration de connaissances relatives à des environnements parfois complexes.

Presque 70 ans après sa création, ce domaine est toujours très actif et passionnant.

Il n’existe pas de raccourci
 pour l’intelligence, 
 pas d’équations de Maxwell
 de la pensée à découvrir.
— Doug Lenat (1990)

programmer l’intelligence

  • Ces systèmes regroupent les programmes basés sur la modélisation du raisonnement logique, ou plus généralement des architectures cognitives. Ces approches relèvent majoritairement de la recherche scientifique.

    ex : GOFAI, Pandemonium, Society of mind, General Problem Solver, SOAR, ACT-R

  • Ces systèmes répondent à des problèmes précis en exploitant des bases de connaissances assemblées par des experts humains. L'articulation logique est confiée à des règles métiers.

    ex : DENDRAL. X1/CON, DeepBlue, Stockfish

  • Ces systèmes exploitent de vastes bases de données de manière statistique pour en extraire une connaissance spécifique à un domaine. La connaissance apportée par l'humain est minimale. L'apprentissage automatique entre dans cette catégorie.

    ex : ChatGPT, MidJourney, AlphaGo

  • Ces systèmes ne relèvent plus de l'IA. Ces programmes se basent sur des algorithmes capables de “résoudre” des problèmes mathématiques. Il peut s'agir d’optimisation, de calcul sous contraintes, ou de problèmes avec une combinatoire défavorable. Les solutions recherchées sont optimales ou approchées. Ces outils forment des bibliothèques logicielles de calcul scientifique ou de recherche opérationnelle.

    ex : BLAS, LAPACK, COIN-OR, solveurs SAT, NETLIB, numpy/scipy

Comprendre les principes de l'intelligence et les reproduire est le but des sciences cognitives. L'IA forte, ou intelligence artificielle générale (AGI), désigne une machine dotée d'une intelligence au moins égale à celle de l'homme. Rêve ou cauchemar ?


L'état de l'art actuel se limite à l'IA faible. Il est constitué d'une collection de systèmes d'IA dites étroites ou spécialisées.

Il n’existe pas d’algorithme 
pour l’intelligence 
artificielle générale.
— Erik Larson (2021)

machine
learning

Programmer les ordinateurs pour qu’ils apprennent par l’expérience pour, à la fin, être dispensé d’une grande partie de l’effort requis par une programmation détaillée.
— Arthur L. Samuel (1959)

une autre forme de calcul

L'apprentissage statistique est une discipline de l'intelligence artificielle, dont l'origine remonte à 1959. De nombreux algorithmes d’apprentissage automatique ont ainsi été inventés et perfectionnés au cours des soixante-dix dernières années.

Le but de l'apprentissage statistique est de construire un programme capable d’effectuer un calcul sans décrire explicitement les étapes de ce calcul, mais en exploitant une base de données dite d’apprentissage. Il faut noter qu’il n’y a pas vraiment d’apprentissage au sens humain du terme. Pour fonctionner, ces programmes sont entraînés sur de vastes bases de données.

Lors de la phase d'entraînement, des algorithmes complexes vont détecter des relations entre les données de la base et exploiter les motifs et régularités présents pour déduire des règles descriptives. Ces relations sont sauvegardées sous la forme d’un modèle.

Lors de la phase d’exploitation du modèle, le programme va calculer une réponse à partir de données qu’il ne connaît pas. On parle souvent d’apprentissage automatique, ou machine learning.

les principaux types d'apprentissage automatique

  • Le but est d'apprendre le lien entre des variables explicatives et une variable à expliquer. Les estimateurs supervisés ajustent un modèle qui renvoie la valeur de la donnée de sortie en fonction des données d'entrée. Si la variable à expliquer est une étiquette prise parmi un petit ensemble d’étiquettes, alors on parle d'une tâche de classification. Si la variable à expliquer est un nombre pris dans un ensemble grand, voire infini, on dit qu'il s'agit d'une tâche de régression. Pour fonctionner, ces programmes sont entraînés sur de vastes bases de données.

  • Le but est d’apprendre les relations entre des variables explicatives, sans variable à expliquer. L'objectif peut être de découvrir des groupes d'ex-emples similaires, de déterminer la répartition des données, de réduire la dimensionnalité pour effectuer des projections ou de visualiser les données. Le système doit cibler les données selon leurs attributs disponibles. Une notion de similarité entre deux données explicatives est la plupart du temps indispensable. Aucun expert n'est requis. L'algorithme doit découvrir par lui-même la structure plus ou moins cachée des données. C'est ensuite à l’homme d'associer ou déduire du sens à cette structure.

  • Le but est d’apprendre lorsque l’information vient d’une interaction avec l’environnement. Le programme (appelé “agent”) commence sans information, ni fonction d'utilité. Il va bâtir un modèle prédictif de son environnement pour prendre des décisions. L’évaluation des décisions se fait en analysant les retours d'information fournis par l’environnement : les bonnes décisions sont liées à une récompense, et les mauvaises par une pénalisation. En cherchant à maximiser les récompenses reçues, le modèle prédictif s’améliore et devient ainsi capable de prédire la valeur d’une décision. Cette approche est particulièrement utilisée dans un contexte d’opposition face à un adversaire (jeux).

Ces résultats suggèrent que les techniques d’apprentissage automatique peuvent produire des contrôleurs plus robustes que les contrôleurs conventionnels programmés manuellement.
— S. Russell and P. Norvig (1995)

Attention !


Ce que la machine a appris dans un contexte peut difficilement être réutilisé dans un autre.

quelques algorithmes
d'apprentissage
automatique

Trouver le bon estimateur est souvent la partie la plus difficile de la résolution d’un problème d’apprentissage automatique.
— scikit-learn.org
  • Ces algorithmes sont utilisés pour une première intention. Ils supposent que la variable à expliquer est une combinaison linéaire des variables explicatives. Les coefficients de la combinaison minimisent une fonction d'erreur. Ils sont souvent contraints pour garantir leur stabilité et éviter le surapprentissage.

    ex : moindres carrés, lasso, ridge, régression logistique, GLM, perceptron

  • La classification bayésienne est basée sur l'application du théorème de Bayes. Ce théorème permet d’affiner une loi de probabilité au fur et à mesure des observations qui en sont tirées. Le classeur suppose naïvement que les variables explicatives sont toutes indépendantes, puis va apprendre la loi de probabilité de chacune de ces variables.

  • Cet algorithme construit une structure arborescente de décisions où chaque
    branchement pose une question simple sur une variable explicative (ex: valeur >seuil ?). Les données sont partitionnées suivant les réponses à chacun des branchements rencontrés. Un ensemble d'arbres de décision aléatoires peuvent constituer une forêt aléatoire (random forest), la décision finale étant prise après le vote des différents arbres qui la constituent.

  • Ces outils sont puissants et robustes. On les appelle souvent SVM, pour support vector machine. L'algorithme projette les données dans un espace de dimensionnalité plus grande afin de les séparer selon des hyperplans.

  • Lors de l'apprentissage, l'algorithme partitionne les points en groupes (clusters). Un point inconnu est rattaché à un groupe s’il est plus proche de ses points que des points des autres groupes. La notion de proximité est adaptée à la géométrie du problème.

  • Cet algorithme (SGD) accélère le calcul des paramètres libres d'un modèle sans sacrifier la précision. Il utilise une méthode de descente du gradient modifiée, basée sur une évaluation locale raisonnable et efficace. Il peut être utilisé pour l'entraînement de différents algorithmes d'apprentissage.