LLM : comment fonctionnent les modèles de langage de l’IA ?

Par Jérémy Nusa

30 octobre 2025

Les Large Language Models (LLM) révolutionnent notre façon d’interagir avec l’intelligence artificielle. Analyste documentaire, assistant de rédaction, moteur de recherche 2.0 ou même enseignant personnel, ces modèles sont capables de produire du contenu fluide et cohérent, donnant parfois l’illusion d’une véritable compréhension du langage humain.

Mais comment fonctionnent-ils réellement ? Sur quels principes reposent-ils pour prédire les mots avec une telle précision ?

Plongeons au cœur des LLM, afin de comprendre leur mécanisme d’apprentissage, explorer leur capacité à anticiper le langage, anticiper leurs forces et leurs faiblesses et analyser les enjeux éthiques liés à leur utilisation.

Une créature mignonne ; Une créature mignonne et bleue ; Une créature mignonne, bleue et poilue
Une créature mignonne ; Une créature mignonne et bleue ; Une créature mignonne, bleue et poilue

Machine Learning, LLM… de quoi parle-t-on exactement ?


L’intelligence artificielle est une façon un peu cool de parler de Machine Learning (ML) ou « Apprentissage Machine », une approche qui permet aux algorithmes d’apprendre à effectuer une tâche spécifique en explorant et évaluant différentes façons de la réaliser parmi un ensemble de recettes de cuisines définies par des humains. Le résultat de cet apprentissage, c’est un « modèle ».

L’approche la plus directe pour faire apprendre un modèle est l’apprentissage supervisé celui-ci fonctionne en fournissant à notre modèle des exemples déjà réalisés de la tâche. C’est comme fournir les ingrédients et le plat préparé et demander au modèle d’en déduire la recette. Cette « recette », il la trouve en ajustant progressivement ses paramètres internes pour minimiser l’erreur entre ses prédictions et la réalité, un peu comme s’il goutait son plat à la fin de chaque fin de recette pour le comparer au plat de référence. Ces paramètres, aussi appelés poids, définissent la recette qui aura été la plus performante parmi l’immensité des recettes de cuisine que le modèle peut explorer. Certains modèles peuvent avoir un petit nombre de paramètres, mais certains sont mesurés en milliards dans les modèles les plus complexes.

Les Large Language Models (LLM) ou « grands modèles de langage », sont une application spécifique du Machine Learning supervisé, conçue pour prédire la probabilité du prochain mot (techniquement appelé « token ») dans un texte. Grâce à cette capacité, ce modèle peut ainsi compléter un texte, mot après mots et ainsi générer du texte de manière itérative, en prenant une entrée initiale et en produisant un mot après l’autre. C’est cette mécanique qui leur permet de produire du texte intelligible, donnant parfois l’impression d’une intelligence linguistique avancée.

 

Pour faire un LLM il nous faut …


Un alphabet de tokens

Comme avec les enfants, avant d’apprendre à écrire du texte, un LLM doit d’abord savoir épeler les mots, pour cela il faut établir une base linguistique en définissant un alphabet de référence. Cet alphabet, ou dictionnaire est une collection de tokens, un token ce n’est ni un mot, ni une lettre, mais quelque chose entre les deux, suffisamment grand pour simplifier l’apprentissage, et suffisamment petit pour pouvoir s’adapter à plusieurs situations. Cet alphabet constitue la liste des unités linguistiques que le modèle peut utiliser. Et contrairement aux humains, il n’en changera pas durant toute sa vie.

Avec cet alphabet il nous est maintenant possible de créer des mots, en agglutinant des tokens afin de former des mots, comme les enfants peuvent créer des mots avec des lettres. Mais savoir écrire des mots n’est pas suffisant pour comprendre ou écrire une phrase, pour cela il faut prêter attention au contexte.

Un sens aux mots

Pour qu’un LLM puisse manipuler le langage, il doit d’abord le traduire dans un monde qu’il comprend : celui des mathématiques. Chaque mot ou fragment de mot (token) est converti en un vecteur numérique, une suite de nombres qui représente sa position dans un vaste espace conceptuel.

Ces vecteurs sont calculés de manière à ce que des mots partageant un sens proche soient regroupés, et ceux aux significations éloignées restent distants. C’est grâce à cet « encodage » que les LLM peuvent établir des liens logiques entre les concepts. Le « sens » des mots peut alors être représenté par des relations mathématiques. Si l’on combine par exemple les mots désert et arbre, on peut aboutir au mot « oasis » (désert + arbre ≈ oasis).

Cependant, un mot seul a rarement un sens fixe. Sa véritable signification dépend des mots qui l’entourent.

Une attention dynamique

Un mot peut avoir plusieurs sens, et seule la phrase nous permet de décider. C’est là qu’intervient le mécanisme clé des LLM modernes : l’attention. Pour ce faire, le modèle pousse chaque mot à poser une série de questions implicites aux autres. Un verbe comme « voler » pourrait interroger : « Est-ce que je décris le déplacement d’un oiseau, ou le fait de dérober un objet ? Le mot « banque » ou « ciel » est-il dans la phrase ? ». Ce processus mathématique, qui consiste à poser des questions et évaluer les réponses, permet de peser l’importance de chaque mot pour comprendre le contexte précis.

Plutôt que d’attribuer un sens figé à un mot, le modèle analyse donc les « réponses » à cette question pour ajuster son interprétation. Prenons pour exemple ces deux phrases :

  • « Il sort de son lit. »
  • « La rivière sort de son lit. »

 

Grâce à l’attention, le modèle détecte que le mot « rivière » est crucial pour interpréter le second « lit » non pas comme un meuble, mais comme le fond d’un cours d’eau. Le sens du mot devient donc dynamique et s’adapte à la volée.

Ce contexte ne fait pas que définir le sens d’un mot, il l’enrichit au fur et à mesure. Un exemple plus visuel :

  • « Une créature mignonne »
  • « Une créature mignonne bleue »
  • « Une créature mignonne bleue et poilue »

 

À chaque ajout, l’image mentale se précise. C’est exactement ce que fait un LLM grâce à l’attention : il accumule et raffine le contexte tout au long de la phrase, créant une compréhension de plus en plus riche de la situation.

Une évaluation

Une fois que le modèle a capté l’ensemble de ce contexte dynamique, il applique une dernière étape. Il compare le sens global qu’il a emmagasiné à tous les autres mots de son dictionnaire et attribue une probabilité à chaque possibilité pour la suite. Il peut alors choisir soit :

  • Le mot avec la probabilité la plus élevée (option la plus prévisible).
  • Un mot au hasard en pondérant par cette probabilité (introduisant de la variété et de la créativité).

 

Ce choix est l’unique espace de « liberté » du modèle. En tirant un nombre aléatoire, il peut s’affranchir du mot le plus probable et générer ainsi un semblant de créativité. La « chaleur » du modèle est un paramètre qui représente à quel point celui-ci est autorisé à s’écarter du choix le plus sûr.

Ce processus est répété encore et encore, permettant au LLM de produire du texte de manière fluide et contextuellement cohérente.

Les Large Language Models ont révolutionné notre manière d’interagir avec l’intelligence artificielle, en simulant une compréhension du langage à travers des prédictions basées sur des probabilités. Grâce à des mécanismes avancés comme l’attention et la représentation numérique du sens des mots, ils sont capables de produire des textes de plus en plus naturels.

Il est crucial de garder à l’esprit que ces modèles, malgré leur sophistication, restent des outils statistiques. Ils simulent une forme de compréhension en se basant sur des corrélations mathématiques, sans pour autant accéder au sens profond des mots comme le ferait un humain, qui le relie à des expériences vécues. Par conséquent, la pertinence et la fiabilité de leurs réponses sont directement dépendantes de la qualité des données d’entraînement et de la finesse de leurs réglages.

Par ailleurs, leur développement soulève des questions éthiques cruciales, notamment en ce qui concerne la transparence et la protection des données personnelles. Le souci ne vient pas tant des modèles eux-mêmes, qui peuvent fonctionner sans conserver d’historique des conversations, mais plutôt des entreprises qui les exploitent. Pour améliorer leurs performances, ces acteurs collectent d’énormes volumes de données, parfois sans une vigilance suffisante sur les enjeux de confidentialité.

Pour approfondir le sujet passionnant des LLM au sein des entreprises, nos experts ont rédigé un article intitulé « Les LLM : une révolution pour la communication d’entreprise » que nous vous invitons à lire !

Jérémy Nusa
Jérémy Nusa
Jérémy assume le rôle de Consultant Data chez Hub One Datatrust, la filiale du groupe Hub One spécialisée dans l'échange de données professionnelles. Son rôle consiste à guider les clients dans leurs projets d'exploitation des données aéroportuaires. Il détient un doctorat en mathématiques, renforçant ainsi son expertise dans le domaine. Passionné par tout ce qui peut l'aider à « brûler des calories », Jérémy, avec une pointe d'humour, explore des jeux de rôle, s'adonne à la musculation et s'immerge dans l'ambiance électrisante des festivals de musique électronique. Au-delà de ses passions, sa formation le conduit également à s'intéresser vivement à la technologie et aux sciences. Ainsi, il n'est guère étonnant de découvrir que son gadget préféré est le James Webb Space Telescope (JWST). Son seul regret ? Que le JWST ne puisse tenir dans sa poche.
Pour garder une longueur d'avance, abonnez-vous

Besoin de plus d'informations


Contactez-nous