5 liens privés
Avec les centaines de milliards de dollars d’investissements annoncées par l’américain OpenAI et la technologie révolutionnaire du chinois DeepSeek, le secteur progresse à une vitesse fulgurante. Pourtant, la question d’une intelligence supérieure se pose, avec son lot d’inquiétudes concernant son autonomie. Etat des lieux et pistes de recherche.
La vague de l’intelligence artificielle (IA) ne faiblit pas. A peine l’entreprise OpenAI, aux Etats-Unis, avait-elle annoncé vouloir investir massivement, avec des partenaires, 500 milliards de dollars sur cinq ans, dans des infrastructures dévolues à ces calculs, qu’une start-up chinoise jouait les trouble-fêtes. DeepSeek a proposé un logiciel plus économique et tout aussi performant, du moins si l’on fait abstraction de trous volontaires dans sa connaissance, liés à la censure chinoise.
Ces deux événements sont les derniers d’une liste de progrès qui se succèdent à grande vitesse, tirés par de puissants acteurs économiques, souvent au détriment de la recherche académique, qui ne peut suivre.
Jusqu’à quand les performances augmenteront-elles ? Toutes ces avancées, qualifiées d’intelligence artificielle, mèneront-elles par extrapolation à des systèmes d’intelligence supérieure ou faudra-t-il pour y parvenir des innovations de rupture, comme le domaine en a déjà connu ?
Face à ces interrogations, les chantiers scientifiques et techniques ne manquent pas. D’autant qu’à ces progrès sur les « applications » – des programmes plus intelligents, plus autonomes, multimodaux, ou guidant des robots… – il faut ajouter des questions transversales majeures, encore ouvertes.
L’une est parfois décrite sous la vaste ombrelle d’« IA de confiance », qui rassemble plusieurs objectifs, comme limiter les erreurs de ces outils, les rendre plus explicables, « débiaiser » leurs réponses à cause de données d’entraînement déséquilibrées en faveur de tel ou tel pays, tel ou tel genre, telle classe sociale…
La question du coût environnemental – fortes consommations électriques et d’eau, recours à des cartes à puces gourmandes en matériaux – est également sur la table. Avec son corollaire, l’« effet rebond », selon lequel les gains d’efficacité disparaissent à cause d’un surplus des usages.
Le 29 janvier, le rapport de Yoshua Bengio, professeur à l’université de Montréal et figure respectée du domaine, est aussi venu rappeler que les questions de sécurité, leur évaluation et les parades contre les dangers restent d’actualité. Le chercheur décrit les « mauvais usages », les « dysfonctionnements » ou les « risques systémiques » que les progrès récents accentuent. De quoi nourrir les réflexions des acteurs institutionnels ou industriels qui auront pour mission de poursuivre l’élaboration des politiques de régulation lors du Sommet pour l’action sur l’intelligence artificielle, les 10 et 11 février à Paris.
Devant cette accélération, un état des lieux, forcément provisoire et partiel, s’impose.
Une course à la taille infinie ?
A en croire les tests d’évaluation, les systèmes d’IA générative font des progrès constants en matière d’« intelligence ». En 2020, le meilleur modèle de traitement du langage (Large Language Model, « grand modèle de langage », LLM) répondait avec succès à 48,9 % des questions d’un questionnaire à choix multiple de culture générale (test Measuring Massive Multitask Language Understanding). Puis à 60 % deux ans plus tard. A 74,1 % fin 2022, au moment de l’arrivée de ChatGPT. Puis à 86,4 % moins de six mois plus tard. Désormais, plus de 88 % des réponses sont correctes. Cette croissance est la même sur toute une batterie de tests qui sert d’étalon à chaque nouvelle sortie de modèle génératif.
Il existe même une loi générale qui s’est empiriquement dessinée, comme la loi de Moore sur le doublement de la puissance de calcul des puces tous les dix-huit mois. En 2020 et 2022, des équipes d’OpenAI et de DeepMind faisaient un lien entre le volume de données d’apprentissage, la performance et la taille des modèles. Cette taille double tous les six mois environ.
DeepSeek-V3, le dernier modèle d’une entreprise chinoise qui a chamboulé la hiérarchie fin janvier, n’échappe pas totalement à ce principe : avec 14,8 mille milliards de tokens (des sous-divisions de mots) utilisés pour son apprentissage et plus de 671 milliards de paramètres pour fonctionner, il est dans le haut du panier en taille, du moins en comparaison avec les modèles d’entreprise ayant communiqué ces informations. Mais il a demandé moins de ressources informatiques pour son développement, relativisant les investissements délirants nécessaires pour obtenir les meilleures performances.
Même avant l’arrivée de DeepSeek, cette course à l’armement irritait. En septembre 2024, dans un article mis en ligne, trois grands spécialistes du secteur, Gaël Varoquaux (Institut national de recherche en sciences et technologies du numérique), Alexandra Sasha Luccioni (Hugging Face) et Meredith Whittaker (Signal), dénonçaient le paradigme du « plus c’est gros, mieux c’est ». « Nous ne réfutons pas l’existence de ces lois d’échelle, mais nous contestons l’utilité des gros modèles pour un grand nombre de tâches pratiques », souligne Gaël Varoquaux. L’article note ainsi que dans bien des domaines, imagerie médicale, science des données, vision par ordinateur ou traitement du langage, les méthodes maximalistes saturent. Quand des méthodes alternatives aux grands modèles existent et sont souvent meilleures.
En décembre 2024, une équipe constituée des chercheurs de LightOn, de Hugging Face, d’Answer.ai et de l’université Johns-Hopkins a revisité un dinosaure, le modèle BERT de Google, première incarnation de l’architecture aujourd’hui dominante, les « transformeurs ». Ils l’ont amélioré, « profitant de cinq ans de développement technologique », explique Iacopo Poli, de LightOn. ModernBERT fait la même taille que BERT, moins de 500 millions de paramètres, mais il excelle pour reconnaître des entités dans des textes et retrouver de l’information, sur une carte graphique loin d’être la plus performante.
« Cette course a aussi des conséquences néfastes », rappelle Gaël Varoquaux, au-delà de la consommation électrique en forte hausse. Cet article regrette aussi que ces développements limitent le champ des recherches. « On se ferme scientifiquement à des questions. En science des données, les questions des relations de causalité entre différents facteurs sont capitales, par exemple en santé, mais elles sont laissées de côté, critique Gaël Varoquaux. Il faut de la recherche pour attaquer ces problèmes, pas des modèles plus gros. »
Le débat fait rage sur la poursuite de cette croissance et le risque de saturation. Il est vrai que la quantité de textes disponible pour l’entraînement pourrait ralentir la croissance. Tout comme l’augmentation exponentielle des ressources met en tension les infrastructures. Le groupe de chercheurs Epoch AI, qui compile les informations sur les modèles de langage, estime que « le stock de textes pourrait être complètement utilisé entre 2026 et 2032 ».
A l’inverse, les ingénieurs rivalisent pour mieux mettre à profit les ressources. DeepSeek a ainsi amélioré son architecture pour réduire les coûts d’entraînement. Plusieurs techniques permettent aussi de réduire la taille des modèles, sans trop perdre en qualité. DeepSeek, toujours, a eu recours à l’une d’elles, la distillation, pour transformer des modèles open source, LLaMA de Meta et Qwen d’Alibaba, en modèles plus petits, jusqu’à 440 fois, mais imitant leurs performances.
De nouvelles architectures fleurissent aussi, comme Mamba, Hyena ou des systèmes travaillant sur les lettres et plus seulement sur les tokens, pour gagner encore en efficacité. Mais elles n’ont pas le même potentiel de rupture que celle introduite par OpenAI le 12 septembre 2024…
Des IA qui raisonnent ?
Ce jour-là, l’entreprise américaine annonce un changement de paradigme pour son dernier modèle, baptisé o1. Bien qu’il soit improprement décrit comme capable de « raisonner », il est le premier à mettre en œuvre une technique rendue publique par Google en janvier 2022, qui permet de prolonger la croissance des performances. Jusqu’à présent la qualité des grands modèles de langage dépendait de leur « entraînement », directement corrélé au volume de données utilisées pour cette phase consistant à prédire le mot suivant dans des phrases. Produire une réponse, aussi appelée « inférence », consistait à activer les milliards de paramètres du modèle qui étaient figés après l’apprentissage.
L’idée de Google est de faire produire par le système une « chaîne de pensée », c’est-à-dire une série d’étapes logiques à suivre pour aboutir à la réponse. Par exemple, pour répondre à « Combien de frappes au clavier pour écrire tous les nombres de 1 à 500 ? », le modèle apprend à décomposer le problème et à proposer ce genre de réponse : « Il y a 9 chiffres de 1 à 9. Il y a 90 nombres à deux chiffres entre 10 et 99. Et il y a 401 nombres à trois chiffres entre 100 et 500. La réponse est donc 9 + 90 × 2 + 401 × 3 = 1 392. » Ce séquençage du problème améliore la réponse finale. Il augmente aussi le temps d’inférence. Mais comme l’avait constaté une équipe de DeepMind, cinq semaines avant la publication d’OpenAI, ce temps plus long est comme un temps d’entraînement en plus. Plus il augmente, meilleure est la performance.
OpenAI puis récemment DeepSeek ont automatisé cette nouvelle phase d’inférence en apprenant à leur modèle, à l’aide d’exemples, à élaborer ce cheminement. Cet entraînement recourt à la technique d’apprentissage par renforcement, utilisée en 2016 par DeepMind pour gagner au jeu de go, qui permet de trouver, par un système de récompenses, la meilleure stratégie possible. Dans ses communiqués, OpenAI dévoile la croissance des performances en fonction du temps de « raisonnement », donc en fonction des phrases générées pour l’explication. Mais l’entreprise n’a rien dit des détails du fonctionnement de son apprentissage par renforcement pour o1, alors que DeepSeek a révélé avoir utilisé un système de votes entre plusieurs solutions pour trouver la meilleure.
Grâce à ces innovations, les modèles de raisonnement comme o1 font mieux que ceux à inférence constante pour certains problèmes complexes qui font plus appel à la logique. Le défaut est que les réponses arrivent plus lentement et demandent plus de calculs.
Ce progrès n’a cependant pas ébranlé les esprits convaincus, depuis longtemps, que les modèles de langue et les IA génératives ne suffiront pas à aller vers plus d’intelligence. Yann Le Cun, un des pionniers du domaine, directeur scientifique de l’IA à Meta, a lancé à son auditoire à l’université de Genève, le 11 octobre 2024 : « Ne travaillez pas sur les LLM ! » Pour lui, la mode de ces modèles de traitement de langage va passer d’ici à « cinq ans », car ils sont insuffisants pour progresser sur le chemin de systèmes plus intelligents, qu’on voudrait capables d’abstraction, de planification, d’invention de nouvelles solutions, ou de se représenter le monde physique et ses lois.
« Il nous faut de nouvelles idées et elles ne viendront pas de gens travaillant sur les LLM », avait dit aussi François Chollet, ancien de Google, lors d’une autre conférence, AGI-24, à Seattle, en août 2024. L’ingénieur français a créé en janvier un nouveau laboratoire de recherche, NDEA, pour creuser ces idées. Il avait aussi mis au point, dès 2020, le test d’intelligence nommé ARC-AGI, fait d’exercices de géométrie testant les capacités d’abstraction de l’utilisateur. A ce test, ni o1 ni DeepSeek n’ont brillé : leurs scores sont respectivement de 20 % à 30 % de réussite pour le premier et de 15 % pour le second. L’humain peut dépasser les 95 %.
Mais, en décembre 2024, OpenAI sort en démonstration o3, qui monte jusqu’à 88 % ! Le blog du test ARC-AGI saluera sobrement cette prouesse : « C’est un pas important et étonnant dans la capacité des IA, effectuant des tâches jamais vues jusqu’à présent dans les modèles de type ChatGPT. » Et annonce d’ici à quelques semaines de nouveaux tests pour corser la difficulté.
Comme Yann Le Cun, François Chollet reste persuadé que les LLM manquent de capacité d’abstraction, conditions nécessaires à la généralisation, donc à plus d’intelligence. Selon lui, les modèles actuels sont bons pour représenter la connaissance et y trouver des organisations, mais ce n’est qu’une étape, assez éloignée de ce qu’il faut pour une intelligence plus complète. Il réfléchit à hybrider ces systèmes à d’autres, capables de générer des « programmes » par exploration du vaste paysage des solutions possibles.
Yann Le Cun défend, lui, une autre voie consistant à faire apprendre à un réseau de neurones un modèle du monde. Une idée simple pour y parvenir : montrer des vidéos de chutes d’objets à un modèle pour lui apprendre à générer des séquences originales respectant la chute des corps. Hélas, les images produites délirent au bout de quelques secondes… Le chercheur explore donc une idée, baptisée « enchâssement joint », qui consiste à faire apprendre au moyen de vidéos non pas une représentation figurative ou réaliste du monde, mais une représentation abstraite que seule la machine « comprend » et peut utiliser.
La course aux agents
Si les capacités de raisonnement récemment déployées par OpenAI ou DeepSeek ne convainquent pas tout le monde de leur intelligence, elles sont utiles pour des applications qui font l’objet d’une rude concurrence : les « agents ». A la différence des assistants conversationnels comme ChatGPT ou Gemini, dont le but est de dialoguer avec l’utilisateur, le terme désigne un programme capable d’exécuter plusieurs tâches, grâce à différents outils (un navigateur Web, une calculatrice, un exécuteur de code informatique, une reconnaissance de caractères, etc.), en planifiant ce qu’il doit faire, de façon autonome. Trouver un trajet en train et acheter le billet, analyser des courriels pour mettre à jour l’agenda, par exemple.
Tous les acteurs du secteur ont annoncé en 2024 développer des agents préentraînés ou des logiciels pour programmer leurs propres agents.
« L’une des difficultés, c’est l’orchestration des différentes tâches. Pour cela, nous utilisons les techniques de raisonnement présentes dans o1 d’OpenAI ou R1 de DeepSeek. Mais à la base, il faut aussi un bon modèle de langue », indique Laurent Daudet, président de LightOn, qui vient de proposer des agents à ses clients. Mais comme les modèles qui raisonnent sont plus lents, il faut aussi savoir doser l’équilibre entre coût de calcul et temps de réponse.
L’un des objectifs serait par exemple d’écrire des programmes complexes, et pas seulement de corriger et de suggérer des bouts de code. « Ce serait comme parler à une équipe d’ingénieurs. Chacun devrait ensuite faire la partie du projet qui le concerne », note Laurent Daudet. Certains envisagent même que des agents intelligents se mettent à écrire leur propre programme d’intelligence artificielle, et ainsi accélèrent la fabrication d’une intelligence supérieure générale.
Une équipe de Stanford a appliqué ce principe à la recherche scientifique, en mettant en ligne en novembre 2024, un article, non révisé par les pairs, décrivant les premiers essais de son Virtual Lab. Un agent « chef de labo » a fait travailler ensemble un agent « informaticien », un agent « chimiste » et un agent « critique », pour trouver des molécules actives contre les variants du virus SARS-CoV-2.
Si les agents sont l’un des futurs possibles de l’intelligence artificielle, ils sont aussi l’une des pièces-clés des scénarios dangereux associés à cette technologie. L’autonomie, la possibilité d’interagir sur le Web, ou avec d’autres machines font craindre des pertes de contrôle aux conséquences négatives. La version finale du rapport sur la sûreté de l’IA, présidé par Yoshua Bengio, publié le 29 janvier, note que les progrès récents, dont o1 et R1, renforcent ces inquiétudes.
Des IA qui voient et entendent
Pour bâtir un agent polyvalent, capable, par exemple, de piloter plusieurs applications pour accomplir une tâche, il faut lui donner la vue. Ce sens est indispensable aux IA pour qu’elles déchiffrent l’interface des logiciels et sites Web qu’elles manient. Les LLM dotés de la vision, voire de l’ouïe, sont dits « multimodaux » (Multimodal Large Language Models, MLLM). Apple y travaille avec son modèle Ferret-UI, Google avec ScreenAI : deux MLLM spécifiquement optimisés pour comprendre les interfaces logicielles.
Une photo prise le 27 février 2023 montre un logiciel de reconnaissance faciale sur le stand de Metaverse, au Mobile World Congress (MWC), le plus grand rassemblement annuel de l’industrie des télécommunications, à Barcelone (Espagne).
Une photo prise le 27 février 2023 montre un logiciel de reconnaissance faciale sur le stand de Metaverse, au Mobile World Congress (MWC), le plus grand rassemblement annuel de l’industrie des télécommunications, à Barcelone (Espagne). THOMAS COEX / AFP
Pour donner la vision aux LLM, beaucoup d’éditeurs se contentent d’y raccorder une IA visuelle, au risque que les deux se comprennent mal. Mais quelques acteurs tentent d’entraîner une seule et même IA, « nativement multimodale », en lui présentant des mots accompagnés d’images voire de sons – une description textuelle d’un chien accompagnée d’une photo et d’un d’aboiement par exemple –, afin qu’ils soient liés de façon étroite dans sa mémoire. Quelques modèles le font de façon convaincante, tels le GPT-4o d’OpenAI ou le Pixtral 12B de Mistral.
Le multimodal rend déjà des services concrets, en enrichissant nos relations aux IA génératives, avec lesquelles on peut désormais communiquer naturellement, en leur demandant d’écouter nos paroles ou de regarder ce que nous voyons, plutôt qu’en rédigeant exclusivement des questions textuelles.
Sur le plan oral, les meilleurs MLLM sont déjà très convaincants : ils comprennent bien les questions posées à voix haute, certains tolérant même d’être interrompus pour enrichir ou réorienter la question. Sur le plan visuel en revanche, leurs capacités sont beaucoup moins avancées, qu’il s’agisse d’analyser des graphiques, des tableaux, de proposer un repas à partir d’une photo du contenu du frigo, de résoudre une équation mathématique, d’analyser la vidéo d’un jeu 3D pour proposer des astuces, etc. Dans la plupart des scénarios d’usage, leur taux d’erreur demeure pour l’instant élevé.
Les MLLM peuvent aussi, en sortie, créer des sons et des images à la demande. La génération de photos donne des résultats très convaincants. Les éditeurs peaufinent encore la génération de textes et d’images mélangés, telles les présentations professionnelles. La génération de vidéos, quant à elle, a de gros progrès à faire. Sora, l’outil vidéo d’OpenAI, testé par Le Monde, s’est rarement montré capable de produire des plans exploitables – leur continuité narrative médiocre s’ajoutant aux bugs visuels déformant les personnages. Mais sur quelques requêtes spécifiques, comme les vues aériennes de paysages, les résultats sont déjà surprenants.
Capture d’écran d’une vidéo de démonstration d’EfficientViT, IA du MIT, qui pourrait permettre à un véhicule autonome d’identifier les objets avec précision.
Capture d’écran d’une vidéo de démonstration d’EfficientViT, IA du MIT, qui pourrait permettre à un véhicule autonome d’identifier les objets avec précision. MIT NEWS/STILL COURTESY OF THE RESEARCHERS
Côté audio, les tests récents du Monde sur l’outil de génération de vidéo Suno v4 (novembre 2024) se sont avérés convaincants jusqu’à en être inquiétants pour les artistes. Les titres générés sont non seulement crédibles en matière de structure et de mélodie, mais aussi dotés de voix et de paroles cohérentes. Ils souffrent beaucoup moins des tremblements et impuretés sonores qui entachaient les productions de son prédécesseur Suno v3.5. En revanche, le résultat est souvent éloigné de la requête initiale. Suno travaille actuellement à améliorer la compréhension des consignes rédigées par ses utilisateurs et à enrichir sa connaissance des styles musicaux.
La robotique mue par l’IA
La déferlante des MLLM pourrait bien bousculer un autre domaine, la robotique. C’est le postulat de plusieurs universitaires chinois, qui ont assemblé un panorama des recherches à la convergence de ces deux champs. L’objectif de leurs nombreux travaux est d’en finir avec les robots limités à quelques tâches et perdus en cas d’imprévu.
Les MLLM ont le potentiel d’améliorer la capacité de compréhension des environnements complexes des robots, leur aptitude, encore sommaire, à déchiffrer les instructions humaines, à raisonner, et à planifier. L’espoir est que, grâce à eux, un robot puisse se débrouiller seul lorsqu’on lui demandera : « Attrape le clavier à droite de la boîte de mouchoirs. » Des entreprises d’IA comme Hugging Face ou OpenAI ont récemment monté des équipes de robotique (2024) – le constructeur auto Tesla ou l’e-commerçant Amazon l’avaient fait il y a longtemps.
Pour atteindre un haut niveau d’autonomie, les robots auront besoin d’une compréhension profonde et intuitive de la physique du monde : gravité, relations spatiales et géométriques, permanence des objets, résistance et déformation des matériaux. C’est dans ce but très convoité que l’entreprise Nvidia a mis en chantier Cosmos, qu’elle appelle son « modèle du monde ».
Ce type de connaissances physiques sera nécessaire, selon des chercheurs de Harvard, pour améliorer leur propre modèle de planning vidéo langagier (Video Language Planning, VLP). Lorsque l’IA d’un robot hésite devant plusieurs choix, le VLP peut simuler visuellement les conséquences de chaque hypothèse sur le monde réel pour faire un choix. Un travail inachevé car, comme le déclarait Yann Le Cun au Forum économique mondial de Davos en janvier 2024, « un chat dispose aujourd’hui d’une compréhension du monde physique largement supérieure à celle des meilleures IA ».
Ces modèles physiques du monde sont d’autant plus stratégiques qu’ils servent une autre piste majeure d’avancée pour la robotique : la simulation. Ce procédé permet de limiter le recours aux vidéos d’entraînement en 3D haute qualité filmées dans le monde réel, coûteuses à produire. L’enjeu est de bâtir des simulateurs aux fondements physiques suffisamment réalistes pour qu’un robot puisse s’y entraîner avant de rejoindre le monde réel sans faire l’expérience de discordances – le Graal pour des projets comme VirtualHome, Isaac Sim, Matterport, Morse, PyBullet, Gazebo, etc.
Jensen Huang, le PDG de Nvidia, explique ainsi dans une interview qu’il est compliqué d’enseigner à un robot d’attraper un verre sans le casser, car l’objet verre existe dans d’innombrables tailles, formes et matériaux. Il suggère de combiner quelques démonstrations vidéo réelles à des milliers de simulations différentes, fabriquées rapidement et économiquement grâce à des outils de génération d’objets en 3D par IA générative.
Piste plus radicale encore : lâcher des robots dans le monde réel, pour qu’ils apprennent par essai-erreur – un scénario délicat, qui supposerait de les faire cohabiter avec des humains. Ou les plonger dans un monde entièrement simulé, relations sociales incluses, qui serait extraordinairement complexe à modéliser. Avec l’espoir, en ligne de mire, que ces apprentissages automatiques puissent faire passer un cap important aux intelligences artificielles génératives, bien au-delà de la robotique. Car, selon une partie de la communauté scientifique, un robot devrait apprendre comme le fait un humain, à travers un corps et des sens, plongé dans un monde physique et social. Et non uniquement dans le monde du langage, celui où évoluent actuellement les LLM.
Une lecture très intéressante.