GUIDE
DE SURVIE
EN MILIEU
HOSTILE

PARTIE 2

réseaux de

neurones artificiels

D’un point de vue informatique,
les réseaux de neurones artificiels sont
 un triomphe de l’intelligence artificielle.
— Margareth A. Boden (2016)

des performances remarquables

Un réseau de neurones artificiels (artificial neural networks, ANN) est un groupe interconnecté de neurones dont le modèle de calcul s'inspire du traitement de l’information réalisé par les cellules nerveuses biologiques (McCulloch & Pitts, 1943). Le réseau forme un système adaptatif dont la structure peut évoluer en fonction des informations qui y circulent. La ressemblance avec un système nerveux biologique, même très rudimentaire, est toutefois très faible.

Les ANN forment une des plus anciennes classes d'algorithmes d’apprentissage automatique. Leur histoire est chahutée : les ANN ont leurs propres printemps et hivers ! Très utilisés en apprentissage automatique depuis les années 1990, ils ont beaucoup évolué à partir de 2010 avec l'arrivée des architectures profondes (deep neural networks).

Autrefois monocouches, les ANN sont aujourd'hui composés de dizaines de couches, comptant chacune un grand nombre de “neurones” (105-106). Les performances obtenues sur de grandes bases de données (images, textes) par ces algorithmes de deep learning sont impressionnantes.

L’approche proposée par les 
réseaux de neurones artificiels est 
théoriquement intéressante à bien des égards, tout en tant
 extrêmement importante d’un
 point de vue commercial.
— Margareth A. Boden (2016)

deep learning

  • L'apprentissage profond (deep learning) est une classe d’algorithmes d’apprentissage automatique. C'est un type de réseaux de neurones (ANN) avec une architecture multicouches. Cette approche permet aux réseaux de traiter la hiérarchie dans des jeux de données complexes, et d’en extraire un modèle qui contient une représentation des connaissances. Les réseaux plus superficiels ne sont pas capables de détecter cette structure. Dans le cas des images, un algorithme deep learning va détecter les contrastes, puis les bords, certaines formes, des parties d'objets et enfin les objets.

  • Le mécanisme de rétropropagation du gradient (backpropagation, 1974 et 1986) est au cœur de la phase d'entraînement du système. Il traite le problème de l'attribution de crédit : quels éléments d'un système complexe sont responsables d'une bonne prédiction ? L’algorithme fait remonter la responsabilité de la couche de sortie vers les couches cachées, en identifiant et adaptant les unités individuelles. Les calculs matriciels lourds, très utilisés dans le deep learning, ont fortement bénéficié des progrès réalisés sur le matériel informatique (processeurs GPUs).

  • Les ANN sont contemporains d’Alan Turing et précèdent les premiers ordinateurs. Le perceptron de Rosenblatt (1958) est la première implémentation d’un ANN. Il stupéfie les journalistes car il sait reconnaître des lettres sans avoir été explicitement programmé. En 1969, cette approche, appelée alors connexionnisme, est déclarée être une impasse théorique (Minsky & Papert). Les ANN ne reviendront sur le devant de la scène que fin 1980 avec les approches cognitives dites PDP (Parallel Distributed Processing) avec notamment une généralisation de l'utilisation de l'architecture des réseaux multicouches.

  • Les performances stupéfiantes du deep learning ont récemment suscité un grand enthousiasme et un fort battage publicitaire, que certains spécialistes jugent irresponsable De nombreux acteurs historiques du domaine ont d'ailleurs rejoint les grands acteurs du numérique. Cependant, s'il est indéniablement utile, cela ne signifie pas qu'il soit bien compris. règles de l'apprentissage multicouches restent théoriquement confuses, et les ANN se distinguent des cerveaux biologiques par d'innombrables aspects importants, dont certains ne sont pas encore connus.

Nos résultats montrent qu’un grand réseau 
de neurones convolutif profond est capable d’obtenir des résultats records sur un ensemble de données complexe en utilisant un apprentissage purement supervisé.
— Geoffrey Hinton (2012), prix Turing 2018

le printemps

du deep learning

anatomie d'une bulle

Google rachète DeepMind en 2014 pour 650 millions de dollars. Cette petite société anglaise est fondée en 2010 par des chercheurs en IA. Avec une équipe de 25 personnes, DeepMind est spécialisée dans une activité assez particulière : elle apprend à des programmes de deep learning à jouer à des jeux vidéo, surtout des antiquités des années 1980 comme Pong, Breakout ou Space Invaders. Aux échecs, les programmes de DeepMind montrent de très belles performances face aux programmes spécialisés. Plus impressionnant encore, les champions humains du jeu de go s'inclinent à leur tour en 2016. StarCraft 2 tombe lui aussi, en 2019. C'est le symbole du début du printemps du deep learning pour le grand public.

La montée en puissance du connexionniste était déjà observée par les experts du domaine. Les premiers systèmes capables d'exploiter efficacement la puissance de calcul des GPU remportent les concours de classification automatique d'images (Ciresan 2010, AlexNet 2012).

Les cas d’usage sont nombreux. Au-delà des performance immédiatement visibles sur le traitement d'image, les réseaux de neurones profonds sont des outils très utiles dans la détection et l’exploitation de tendances et motifs dans les bases de données massives.

La bulle est relancée régulièrement avec les arrivées des outils de génération de texte et d'image, et les agents conversationnels.

Les performances des systèmes d’apprentissage profond peuvent souvent être considérablement améliorées en jouant sur la taille. Ils fonctionnent d’habitude bien mieux avec beaucoup de données et beaucoup de puissance de calcul.
— Y Bengio, Y LeCun, G Hinton (2021), les prix Turing 2018

ChatGPT


a generative
pre-trained
transformer

ChatGPT est une technologie fascinante qui a le potentiel de transformer la façon dont nous communiquons avec les machines.
— Andrew Ng (2023)

enfin, un agent conversationnel !

La conception d'agents conversationnels est classique en IA. Citons par exemple les grands anciens, dont le programme psychothérapeute ELIZA (Weizenbaum, 1966) et le programme d’assemblage de bloc SHRDLU (Winograd, 1979).

ChatGPT est un programme proposé par la société californienne OpenAI lancé en 2022. C'est un système d'IA spécialisée qui s’appuie sur un grand modèle de langage pour produire du texte (large language model, LLM) et une interface homme-machine en langage naturel appelée prompt.

La grande force de cet agent conversationnel tient à sa compréhension des directives humaines, souvent sous la forme de question ou d’ordre, et à sa capacité de produire des réponses d’une qualité souvent jugée satisfaisante. L’adoption par le grand public est massif, notamment pour un usage professionnel direct (site web) et indirect via une interface programmatique (API).

L'utilisation de ChatGPT par le grand public, début 2023, a été massive et soudaine.

Bien qu’il donne l’impression d’être génial dans certains domaines, ChatGPT est incroyablement limité. C’est une erreur de s’y fier pour faire quoi que ce soit d’important 
en ce moment.
— Sam Altman (OpenAI, 2022)

intelligence
artificielle

générative

large language models

Un modèle de langage est un outil de traitement de langue naturelle. C'est un modèle statistique de la distribution de symboles (ex: lettres, mots, token) capable de prédire un mot à partir d'une séquence de mots fournie en entrée. Un large langage model (LLM) possède un grand nombre de paramètres internes, supérieur au milliard.

Les premières implémentation (2018) s'appuient sur des algorithmes de deep learning, notamment des transformers, entraînés sur de très grands corpus de texte (ex : the Pile). L'entraînement fait appel à une combinaison d'apprentissage supervisé (dont RHLF et prompt engineering) et non supervisé. Un processus d'ajustement (fine tuning) permet de les utiliser comme base pour le développement d'autres outils : on parle alors de modèle de fondation.

des outils versatiles

Les LLM servent principalement d'outils de génération de texte, utilisés dans les agents conversationnels (ex : ChatGPT, Bard). Certains LLM dits multimodaux sont entraînés à traiter des images. Les LLM les plus connus sont les modèles GPT-{3,3.5,4} d'OpenAI , PaLM de Google AI, Chinchilla de DeepMind et LLaMa de Meta.

D'autres systèmes, comme MidJourney et Dall·E, génèrent des images à partir de textes, en mariant les LLM à des technologies s’appuyant sur des modèles de diffusion probabiliste.

Ces outils d'IA générative font appel à des processus aléatoires pour atteindre un certain degré de créativité, mais leurs sorties résultent principalement d'un assemblage résultant d'un calcul statistique.

créativité + hallucinations

Les LLM capturent une grande partie de la syntaxe et de la sémantique du langage, ce qui leur permet de présenter des performances intéressantes en traduction, reformulation et résumé de contenu et plus généralement en classification et catégorisation de textes.

Ces programmes sont parfois appelés “perroquets stochastiques” car ils n’ont pas la compréhension sémantique des symboles qu'ils manipulent.

La créativité des IA génératives est une caractéristique inhérente aux algorithmes de génération actuels. Elle limite ainsi fortement la fiabilité des textes générés. Un LLM produit des textes avec une syntaxe correcte et une formulation très assurée : s'ils paraissent tout à fait plausibles, ils peuvent être subtilement faux. On parle d'hallucination.

Pourquoi les LLM semblent-ils meilleurs 
à générer du code qu’à générer du texte ? 
Un programme manipule des éléments 
qui évoluent dans un univers limité, discret, déterministe et entièrement observable.
Le monde réel n’a rien à voir avec cela.
— Yann LeCun (2023), prix Turing 2018

data science

Traiter des données pour valider une hypothèse ou estimer des paramètres est longtemps resté du ressort exclusif des statistiques.
— Stéphane Mallat, Collège de France

traiter les données massives

La science des données, ou data science, se situe au croisement de trois domaines : les mathématiques, l'informatique et l'algorithmique. C’est à la fois une discipline théorique et une pratique expérimentale. La science des données relève des statistiques et plus généralement des mathématiques appliquées. L'augmentation considérable de la masse des données a fait exploser la combinatoire des possibles. Cette malédiction de la dimensionnalité est une difficulté centrale de l’analyse de données. Modéliser et représenter les hiérarchies et structures cachées dans les données (image, textes, sons) n’est pas une mince affaire.

Le traitement de données massives et la démocratisation de nouveaux outils (ex: scikit-learn de INRIA) nécessitent d'intégrer des compétences en génie logiciel. Le rôle de data scientist apparaît ainsi, comme professionnel du traitement, de la manipulation et de la valorisation des données. Il maîtrise habituellement des outils informatiques comme Python ou R, ainsi que les bibliothèques logicielles spécialisées. Les algorithmes d’apprentissage statistique font partie des outils de data science. Ils sont pensés pour optimiser l’analyse des données à partir d’exemples. Ils sont à l’origine des résultats spectaculaires qu’on rattache aujourd’hui à l’intelligence artificielle.

La science des données est une discipline émergente qui a évolué d’une approche essentiellement statistique, dans les années 2010, à un domaine mélangeant différentes branches des mathématiques 
et de l’informatique, dont l’intelligence artificielle.
— Stéphane Mallat, Collège de France
  • Les illustrations sont issues de unsplash. Les photos ont été trouvées sur le net et issues des références ci-dessous.

  • Notes de cours de Stéphane Mallat au Collège de France.

    Le site scikit-learn.org, évidemment.

    Mind as machine (2006) et AI : Its Nature and Future (2016) de Margaret Boden.

    The Quest for Artificial Intelligence, Nils Nilsson (2010).

    A Brief History of Artificial Intelligence: What It Is, Where We Are, and Where We Are Going, Michael Wooldridge (2021).

    The Myth of Artificial Intelligence: Why Computers Can’t Think the Way We Do, Erik. J. Larson (2021).

    Atlas of AI. Power, Politics, and the Planetary Costs of Artificial Intelligence, Kate Crawford (2021).

    Computer: A History of the Information Machine, Campbell-Kelly, Aspray, Ensmenger et Yost (2023).

    A New History of Modern Computing, Haigh et Ceruzzi (2021).