Technologies · Intelligence Artificielle

Modèles de langage : la langue, nouvel enjeu de pouvoir

L'anglais représentait 93 % des données d'entraînement de GPT-3. Modèles souverains, langues oubliées, IA culturelle : la bataille linguistique de l'IA en 2026.

Par ISS10 décembre 2024, mis à jour le 4 juin 2026Lecture 5 min

Mots issus de multiples langues formant un réseau de neurones lumineux. (Image d'illustration IA © ISS 2024)

À retenir

L'anglais représentait environ 93 % des données d'entraînement de GPT-3 par nombre de mots.
Le Stanford HAI documente une « fracture numérique » : les grands modèles sous-performent pour les langues à faibles ressources.
Sur plus de 2 000 langues africaines, une quarantaine seulement est prise en charge par les modèles.
Les États bâtissent des modèles « souverains » — Mistral en France, BharatGen en Inde, SEA-LION à Singapour.
Inclure plus de langues ou maximiser la performance : les concepteurs affrontent un dilemme technique réel.

Demandez la même chose à un grand modèle de langage en anglais, puis en wolof ou en birman : la réponse sera brillante dans un cas, approximative ou absurde dans l’autre. Cette asymétrie n’est pas un détail technique. Elle décide qui peut apprendre, travailler et s’informer à l’ère de l’IA — et qui en est tenu à l’écart. La langue est devenue un terrain de pouvoir.

L’anglais, langue par défaut de la machine

Au commencement était la donnée. Les modèles de langage apprennent en avalant des montagnes de textes, et ces textes sont massivement anglophones. L’anglais représentait environ 93 % des données d’entraînement de GPT-3 par nombre de mots, les autres langues se partageant les miettes¹.

Cette domination se transmet aux performances. Le Stanford HAI le documente sans détour : la plupart des grands modèles sous-performent pour les langues autres que l’anglais — surtout les moins documentées —, ne sont pas attentifs aux contextes culturels pertinents et restent inaccessibles dans certaines régions du Sud global². Le déséquilibre des données crée un déséquilibre des capacités.

Les bénéfices, eux, sont réels là où la machine excelle : traduction instantanée, accès à des contenus jusque-là hors de portée, démocratisation du savoir. Mais ces gains profitent d’abord aux locuteurs des langues dominantes, creusant l’écart que nous analysons dans le rôle de l’IA dans l’éducation.

Les langues oubliées

Pour des milliers de langues, le problème n’est pas la médiocrité : c’est l’absence pure et simple. On les appelle « langues à faibles ressources » — swahili, birman et tant d’autres —, marquées par une double pénurie : rareté des données étiquetées et qualité insuffisante des corpus, peu représentatifs des contextes socioculturels².

Le cas africain est emblématique. Selon une étude publiée en juin 2025, sur plus de 2 000 langues du continent, environ 42 seulement bénéficient d’un support dans les modèles existants, et plus de 98 % restent ignorées³. Une vingtaine d’écritures actives sont purement négligées³. Pour ces communautés, l’IA n’est pas un outil imparfait : c’est un mur.

Les conséquences débordent la technique. Un locuteur exclu des outils numériques l’est aussi du débat public, de l’accès à l’information scientifique, parfois de la participation civique. La marginalisation linguistique nourrit la marginalisation sociale — un cercle vicieux que seule une action délibérée peut briser.

Le dilemme des bâtisseurs

Comment réparer ce déséquilibre ? Les ingénieurs affrontent un arbitrage cruel. Une voie consiste à bâtir des modèles « massivement multilingues », couvrant plus de 100 langues dans leurs données d’entraînement — démarche portée surtout par les grandes entreprises américaines². Le modèle ouvert Pangea, par exemple, couvre 39 langues¹.

Mais élargir la couverture a un coût. La recherche montre qu’un alignement multilingue peut trop insister sur les langues non dominantes lors de l’ajustement, au point de dégrader les performances en anglais¹. Inclure plus de langues ou concentrer les ressources sur quelques-unes : le compromis n’a rien d’évident.

Surtout, la couverture annoncée ne vaut pas qualité. Une publication de TechPolicy.Press avance une thèse provocante : le fossé multilingue de l’IA n’est pas en train de se combler, il est « rebaptisé » — habillé d’annonces de couverture qui masquent la persistance des écarts réels⁴. Cette tension culturelle rejoint notre dossier sur le développement des normes et de l’éthique de l’IA.

La riposte souveraine

Face à cette domination, les États ripostent. Le concept d’« IA souveraine » désigne une capacité contrôlée nationalement : poids des modèles, infrastructure de calcul, données, talents⁵. Toutes les grandes économies s’y sont mises.

La carte est éloquente : Mistral en France, valorisée autour de 6 milliards d’euros à la mi-2024 et adossée à l’État via la Banque publique d’investissement et la Banque européenne d’investissement ; G42 et Falcon aux Émirats ; HUMAIN en Arabie saoudite ; SEA-LION à Singapour ; BharatGen en Inde ; LLM-jp au Japon⁵. L’Europe a multiplié les projets bâtis de zéro — Apertus en Suisse, ALIA en Espagne, OpenEuroLLM dans l’Union⁵.

La logique est double : réduire la dépendance à une poignée de laboratoires américains et d’exportateurs de processeurs, et défendre une souveraineté des données où langue, culture et conformité réglementaire justifient un contrôle national⁵. Cette quête d’autonomie est indissociable de la maîtrise du matériel, comme le montre la course pour le développement de puces d’IA.

Une richesse à préserver

Au-delà de l’équité, il y a un enjeu de civilisation. Chaque langue porte une vision du monde, façonnée par sa culture et son histoire. Un modèle capable de saisir les idiomes et les nuances d’une langue offre une expérience plus authentique — et contribue à préserver des langues menacées d’extinction.

Intégrer ces langues dans la technologie, c’est encourager leur usage, valoriser les identités, inciter les jeunes générations à les parler. La diversité linguistique n’est pas un obstacle à contourner mais une ressource à cultiver. Cela suppose de collaborer avec les communautés locales pour documenter leurs langues et bâtir des jeux de données respectueux de leurs spécificités.

Ce pari de la diversité a aussi un revers de pouvoir : qui finance et contrôle ces modèles ? La concentration des moyens entre quelques entreprises — capables de mobiliser des données massives et des capacités de calcul colossales — façonne les langues prises en charge et les nuances retenues. C’est tout l’enjeu de notre dossier sur le pouvoir des grandes entreprises technologiques sur les modèles linguistiques, où se joue, derrière la technique, une bataille d’influence culturelle.

Qui parlera à la machine ?

Le développement des modèles de langage pose une question simple et vertigineuse : dans quelles langues l’humanité dialoguera-t-elle avec ses machines ? Si rien ne change, une poignée de langues dominantes confisquera l’avenir numérique, reléguant les autres au rang de curiosités. Mais la montée de l’IA souveraine et des projets communautaires montre qu’une autre voie existe. Le signal à surveiller : la capacité des modèles multilingues à offrir une qualité réelle — et non une couverture de façade — pour les langues aujourd’hui négligées.

Pour aller plus loin

Mind the (Language) Gap: Mapping the Challenges of LLM Development in Low-Resource Language Contexts, Stanford HAI (2025)
The State of Large Language Models for African Languages: Progress and Challenges, arXiv (2025)
Sovereign AI in 2025, Cambridge Core, Natural Language Processing (2025)

Questions fréquentes

Pourquoi les modèles de langage fonctionnent-ils mieux en anglais ?

Parce que leurs données d'entraînement sont massivement anglophones. L'anglais représentait environ 93 % du corpus de GPT-3 par nombre de mots. Le contenu en ligne reflète cette domination, si bien que les modèles apprennent surtout à partir de l'anglais et sous-performent pour les autres langues, surtout les moins documentées.

Qu'appelle-t-on une langue à faibles ressources ?

C'est une langue pour laquelle il existe peu de données numériques exploitables, comme le swahili ou le birman. Le manque de textes étiquetés et la faible qualité des corpus limitent l'entraînement des modèles. Résultat : des performances dégradées qui peuvent aggraver les fractures numériques, en particulier dans le Sud global.

Qu'est-ce que l'IA souveraine ?

C'est une capacité d'IA contrôlée nationalement : poids des modèles, infrastructure de calcul, données et talents. La France mise sur Mistral, l'Inde sur BharatGen, Singapour sur SEA-LION. L'objectif est double : réduire la dépendance à quelques laboratoires américains et bâtir des modèles reflétant la langue et la culture locales.

Le fossé linguistique de l'IA se réduit-il ?

Pas vraiment, selon certains analystes. Des modèles couvrent désormais plus de 100 langues, mais l'écart de performance entre langues riches et pauvres persiste. Une publication de TechPolicy.Press estime même que le fossé multilingue n'est pas comblé : il est « rebaptisé », masqué par des annonces de couverture sans qualité réelle.

ISS

Rédaction · Analyse stratégique

L'Institut des Sciences Stratégiques publie des analyses indépendantes sur la géopolitique, la défense et les transformations du pouvoir au XXIe siècle.

ThèmesIntelligence artificielle

Prem AI, « Multilingual LLMs: Progress, Challenges, and Future Directions », Prem AI Blog, 2025. https://blog.premai.io/multilingual-llms-progress-challenges-and-future-directions/ ↩ ↩² ↩³
Stanford HAI, « Mind the (Language) Gap: Mapping the Challenges of LLM Development in Low-Resource Language Contexts », Stanford Institute for Human-Centered AI, 2025. https://hai.stanford.edu/policy/mind-the-language-gap-mapping-the-challenges-of-llm-development-in-low-resource-language-contexts ↩ ↩² ↩³
Yusuf et al., « The State of Large Language Models for African Languages: Progress and Challenges », arXiv, juin 2025. https://arxiv.org/abs/2506.02280 ↩ ↩²
TechPolicy.Press, « The Multilingual AI Gap Is Not Closing. It Is Being Rebranded », Tech Policy Press, 2025. https://www.techpolicy.press/the-multilingual-ai-gap-is-not-closing-it-is-being-rebranded/ ↩
Cambridge Core, « Sovereign AI in 2025 », Natural Language Processing, 2025. https://www.cambridge.org/core/journals/natural-language-processing/article/sovereign-ai-in-2025/C51560626AF518BDF280891C406E9553 ↩ ↩² ↩³ ↩⁴

La lettre de l'Institut

Recevez nos analyses chaque mercredi.

Une synthèse hebdomadaire des dynamiques géopolitiques, technologiques et de défense.

À retenir

L’anglais, langue par défaut de la machine

Les langues oubliées

Le dilemme des bâtisseurs

La riposte souveraine

Une richesse à préserver

Qui parlera à la machine ?

Pour aller plus loin

Questions fréquentes

Sources

À lire également

Modèles de langage : le pouvoir démesuré des géants du Web

IA et éducation : la fracture qui sépare les nations

Éthique de l'IA : pourquoi le monde ne parle pas la même langue morale

Recevez nos analyses chaque mercredi.