Alors que l’IA générative se démocratise, la part de l’inférence, c’est-à-dire celle des puces informatiques nécessaires pour faire fonctionner ces grands modèles d’IA dans un environnement de travail, va prendre davantage d’ampleur par rapport à celle des puces utilisées pour l’entrainement. Quels acteurs sont les plus susceptibles d’en tirer les bénéfices?

À mesure que l’adoption de l’intelligence artificielle (IA) générative se répand, la demande de puces électroniques permettant de faire fonctionner ces modèles augmente: c’est ce qui a fait la fortune de Nvidia, dont la valorisation a atteint le seuil stratosphérique de 2’000 milliards de dollars en mars: c’est quinze fois plus qu’il y a cinq ans! Mais avec la démocratisation de l’IA générative, les puces électroniques requises changent également de nature.

Dans un premier temps, l’industrie a eu besoin de microprocesseurs dédiés à l’entraînement des grands modèles linguistiques (LLMs), nécessaires au bon fonctionnement des algorithmes d’IA générative, dont les champions sont OpenAI, Google, Meta, Anthropic ou encore Mistral. Pour concevoir le modèle de langage qui alimente ChatGPT, plus de 10 000 cartes graphiques A100 de Nvidia ont ainsi dû être utilisées par OpenAI. Cependant, chaque entreprise qui va avoir recours à l’IA générative ne va pas entrainer son propre LLM, activité beaucoup trop complexe et coûteuse. Entraîner un modèle de fondation comme celui de ChatGPT peut coûter plus d’un milliard de dollars.

Le passage imminent à l’inférence

Les entreprises vont donc se contenter d’utiliser un modèle existant sur le marché, l’adapter légèrement afin qu’il soit calibré pour leur modèle d’affaires (on parle de «fine tuning») et l’utiliser pour répondre à des requêtes. Dans le jargon des technologies numériques, on parle «d’inférence» pour désigner le fonctionnement des modèles d’IA une fois qu’ils ont été entraînés et déployés dans les applications d’une entreprise. Or, si l’entraînement à jusqu’à présent tiré la demande de puces électroniques vers le haut, c’est l’inférence qui constituera bientôt le cœur du marché. «Tout le but de l’entraînement est l’inférence. Sinon, ce serait comme construire une voiture de course que personne ne conduit jamais», note Mike Demler, analyste indépendant spécialisé dans l’industrie des puces.

Ce basculement est d’ores et déjà en train de s’opérer. Colette Kress, directrice financière de Nvidia, a ainsi récemment annoncé que l’inférence a compté pour 40% des ventes de la division «centres de données» de la société, qui comprend notamment les puces puissantes dédiées à l’IA. «En matière de base installée, cette proportion doit se situer actuellement autour de 20%. Elle devrait dépasser 50% d’ici à 2027», affirme Antoine Chkaiban, analyste chez New Street Research, un cabinet d’intelligence de marché. AMD, une entreprise américaine spécialisée dans les semi-conducteurs, a également affirmé que l’inférence dépasserait l’entraînement sur le marché des puces dès 2027.

2024.05.29.Chips

Les entreprises les mieux positionnées sur l’inférence

Spécialiste des puces d’IA avec ses processeurs graphiques (GPUs), Nvidia est naturellement très avantageusement positionnée pour rafler une part importante du gâteau, l’inférence étant, au même titre que l’entraînement, un problème très complexe que les acteurs à la pointe du hardware en matière d’IA sont les mieux placés pour résoudre. «L’inférence requiert plusieurs dizaines de GPUs par requête pour les plus gros modèles tels que GPT-4, ce qui demande un gros travail d’optimisation. Or, pour optimiser, il faut avoir de l’expérience et apprendre de ses erreurs. Dans ce contexte, qui est mieux positionné que Nvidia?» résume Antoine Chkaiban.

Pour autant, Nvidia devra compter avec une rude concurrence. En décembre, AMD a ainsi sorti une puce d’IA que l’entreprise a présentée comme plus performante que celles de Nvidia pour faire de l’inférence, ce que l’entreprise a aussitôt contesté dans un article de blog. Intel, géant américain des microprocesseurs, compte également tirer son épingle du jeu. Son dirigeant, Pat Gelsinger, a ainsi affirmé en décembre que ses microprocesseurs constituaient une alternative séduisante aux GPUs de Nvidia pour l’inférence, car moins gourmands en énergie, moins chers et ne requérant pas d’investissements supplémentaires en infrastructures. En novembre dernier, Qualcomm a de son côté dévoilé sa puce Cloud AI 100, taillée pour l’inférence.

Outre les géants des microprocesseurs, de jeunes pousses se tiennent également en embuscade pour gagner des parts de marché. Groq, une start-up fondée par un ancien ingénieur spécialisé dans les puces d’IA chez Google, a récemment fait le buzz avec une démo montrant à quelle vitesse ses puces d’inférence pouvaient générer des réponses à partir d’un LLM. L’entreprise ambitionne de déployer jusqu’à 1,5 million de puces l’an prochain. Citons encore Rebellions, une jeune pousse sud-coréenne fondée en 2020 pour concevoir des puces spécialisée dans l’inférence. En janvier, elle a levé 124 millions de dollars pour développer des puces avec Samsung.

Comment les entreprises utilisent déjà l’IA générative

La bascule vers l’inférence augure un monde où les usages de l’IA générative seront beaucoup plus répandus dans les entreprises, ce qui va leur permettre de créer davantage de valeur et d’explorer de nouveaux modèles d’affaires. Cette tendance va concerner tous les secteurs de l’économie.

Netflix, qui recourt depuis déjà plusieurs années à l’IA pour analyser le comportement et les préférences de ses utilisateurs, et ainsi leur faire des recommandations personnalisées, a également commencé à expérimenter avec l’usage de l’IA générative afin d’aller un cran au-delà des simples recommandations. Dans un échange récent avec des investisseurs, le directeur-général de l’entreprise, Greg Peters, a ainsi évoqué l’usage de l’IA générative pour assister la création de films et séries.

La santé est un autre domaine qui pourrait grandement bénéficier des apports de l’IA générative. En partenariat avec AWS, la société pharmaceutique américaine Pfizer expérimente ainsi l’usage de cette technologie pour accélérer la découverte de nouveaux traitements, par exemple en étudiant des milliards de molécules et simulant leurs interactions afin d’identifier de nouvelles cibles oncologiques. Elle s’en sort aussi afin de rédiger automatiquement des premiers jets pour des demandes de brevets, sur lesquels les humains n’ont plus qu’à repasser, réduisant le time to market.

Un autre gros axe va être celui de la publicité en ligne, avec des bénéfices importants pour des entreprises comme Meta ou Google. «On va pouvoir réaliser un marketing de plus en plus ciblé, et ainsi augmenter la valeur de la publicité. Meta ont ainsi récemment expliqué comment ils étaient en train de passer d’une grande quantité de petits modèles pour analyser et comprendre le comportement de l’utilisateur, afin de lui montrer la vidéo la plus pertinente à l’instant T, à un seul gros modèle», décrypte Antoine Chkaiban.

Quelques exemples parmi tant d’autres qui montrent que l’inférence va aussi créer beaucoup de valeur côté utilisateurs.