IA & Automatisation 05/11/2024 · 7 min de lecture

Les LLM expliqués : comment fonctionnent les grands modèles de langage

Les LLM expliqués : comment fonctionnent les grands modèles de langage

Les modèles de langage de grande taille — LLM pour Large Language Models — sont devenus en quelques années le cœur de la révolution IA grand public. ChatGPT, Claude, Gemini, Mistral : autant de produits construits sur cette technologie. Pourtant, rares sont ceux qui comprennent réellement ce que ces modèles font, comment ils apprennent, et pourquoi ils produisent les résultats qu'on leur connaît — y compris leurs erreurs. Démystifier le fonctionnement des LLM, c'est se donner les moyens de les utiliser intelligemment.

Un modèle de langage : qu'est-ce que cela signifie ?

Un modèle de langage est, à sa base, un système statistique qui apprend à prédire le prochain token dans une séquence de texte. Un token est une unité de texte — généralement un mot, une portion de mot ou un signe de ponctuation. Quand un LLM génère une réponse, il ne "raisonne" pas au sens humain du terme : il calcule, à chaque étape, quel token est le plus probable compte tenu du contexte précédent, puis recommence jusqu'à produire une réponse complète.

Cette mécanique de prédiction en chaîne, appliquée à une échelle colossale — des milliards de paramètres entraînés sur des centaines de milliards de tokens — produit un comportement qui ressemble étonnamment au raisonnement et à la compréhension. Ce n'est pas de la magie : c'est de la statistique à très grande échelle.

L'architecture Transformer : le moteur des LLM modernes

Tous les grands modèles de langage actuels reposent sur l'architecture Transformer, introduite par des chercheurs de Google en 2017 dans l'article fondateur "Attention Is All You Need". Cette architecture a remplacé les réseaux récurrents (LSTM, RNN) qui dominaient auparavant le traitement du langage naturel.

Le Transformer est structuré autour de deux mécanismes clés :

L'attention (self-attention)

Le mécanisme d'attention permet au modèle de peser l'importance relative de chaque token du contexte par rapport aux autres, quelle que soit leur distance dans la séquence. Quand vous écrivez "Le président a signé la loi qu'il avait promis de faire voter", le modèle doit comprendre que "il" réfère à "président" et non à "loi" — l'attention lui permet de créer cette connexion, même si les deux mots sont séparés par plusieurs tokens.

L'attention multi-têtes (multi-head attention) parallélise ce mécanisme : plusieurs "têtes" d'attention analysent simultanément différents types de relations dans la séquence, capturant à la fois la syntaxe, la sémantique et le contexte pragmatique.

Les couches Feed-Forward

Alternées avec les couches d'attention, les couches Feed-Forward appliquent des transformations non-linéaires qui permettent au modèle de "stocker" des connaissances factuelles. C'est dans ces couches que résident, de façon encodée et distribuée, les millions de faits que le modèle a absorbés pendant l'entraînement.

Les trois phases de construction d'un LLM

1. Le pré-entraînement

C'est la phase la plus coûteuse en calcul et en données. Le modèle est entraîné sur des centaines de milliards de tokens issus du Web, de livres, de code, d'articles scientifiques. L'objectif est simple : prédire le token suivant aussi bien que possible. En optimisant cet objectif sur une masse de données gigantesque, le modèle apprend implicitement la grammaire, la sémantique, les faits du monde, les structures de raisonnement, et bien plus encore.

Cette phase nécessite des milliers de GPU pendant des semaines ou des mois, et représente des dizaines à des centaines de millions de dollars pour les modèles de pointe (GPT-4, Gemini Ultra, Llama 3 405B).

2. Le fine-tuning supervisé (SFT)

Un modèle pré-entraîné est capable de compléter du texte — mais pas nécessairement de répondre à des instructions de façon utile. Le fine-tuning supervisé consiste à entraîner le modèle sur des paires (instruction, réponse idéale) rédigées par des humains. C'est cette phase qui transforme un moteur de complétion de texte en assistant conversationnel.

3. Le RLHF (Reinforcement Learning from Human Feedback)

La phase finale affine le comportement du modèle en utilisant les préférences humaines comme signal de récompense. Des annotateurs comparent des paires de réponses générées par le modèle et indiquent laquelle est préférable. Un modèle de récompense est entraîné sur ces préférences, puis utilisé pour optimiser le LLM via l'apprentissage par renforcement. C'est ce qui donne aux modèles modernes leur tendance à produire des réponses bien structurées, nuancées et adaptées au contexte.

Les paramètres : de quoi parle-t-on ?

On parle souvent de modèles à "7 milliards de paramètres" ou "70 milliards de paramètres". Ces paramètres sont les poids du réseau de neurones — des nombres réels qui encodent, de façon distribuée et non interprétable directement, l'ensemble de ce que le modèle a appris. Plus un modèle a de paramètres, plus il peut théoriquement capturer de nuances et de connaissances — mais plus il consomme de mémoire et de calcul à l'inférence.

La quantification est une technique qui réduit la précision de ces poids (de 32 bits à 4 ou 8 bits, par exemple) pour diminuer l'empreinte mémoire, au prix d'une légère perte de qualité. C'est ce qui permet à Ollama de faire tourner un modèle 7B sur un ordinateur de bureau.

La fenêtre de contexte : la mémoire de travail du modèle

Un LLM n'a pas de mémoire persistante entre les conversations. À chaque inférence, il reçoit un contexte — la totalité de la conversation en cours, le système de prompt, et éventuellement des documents injectés — et génère sa réponse en fonction de ce contexte seul.

La fenêtre de contexte désigne la quantité maximale de tokens que le modèle peut traiter simultanément. Les premiers modèles avaient des fenêtres de 2 000 à 4 000 tokens. Les modèles récents atteignent 128 000 tokens (Claude, GPT-4 Turbo) voire plus de 1 million (Gemini 1.5 Pro). Cette expansion a un coût : la complexité de l'attention croît quadratiquement avec la taille du contexte.

Pourquoi les LLM hallucinent

Les LLM produisent parfois des affirmations fausses, présentées avec la même assurance que les vraies. Ce phénomène — l'hallucination — est une conséquence directe de leur mode de fonctionnement : le modèle génère le token le plus probable, pas le token le plus exact. Lorsqu'il ne dispose pas des informations nécessaires pour répondre correctement, il "invente" une réponse plausible syntaxiquement et sémantiquement, même si elle est factuellement incorrecte.

Les approches pour réduire ce phénomène incluent le RAG (Retrieval-Augmented Generation — injection de sources vérifiées dans le contexte), les mécanismes de citation, et l'entraînement à reconnaître et exprimer l'incertitude.

RAG : connecter les LLM à vos données

L'architecture RAG est devenue le pattern standard pour déployer des LLM sur des corpus de documents internes. Le principe :

  1. Les documents de l'organisation sont découpés en fragments et convertis en vecteurs d'embedding par un modèle d'embedding, puis stockés dans une base de données vectorielle.
  2. À chaque requête utilisateur, les fragments les plus sémantiquement proches de la question sont récupérés.
  3. Ces fragments sont injectés dans le contexte du LLM, qui génère sa réponse en s'appuyant sur ces sources vérifiées.

Le résultat : un assistant qui répond à partir de vos procédures internes, de votre documentation technique, ou de vos archives — sans que ces données aient à sortir de votre infrastructure si vous utilisez un modèle local.

Ce que les LLM ne sont pas

Comprendre les LLM, c'est aussi comprendre leurs limites structurelles :

  • Ils ne raisonnent pas au sens logique strict — ils produisent des sorties statistiquement plausibles. Les erreurs de raisonnement sur des problèmes mathématiques ou logiques en sont la manifestation.
  • Ils ne se souviennent pas d'une conversation à l'autre, sauf si un système de mémoire externe est explicitement mis en place.
  • Leurs connaissances sont figées à la date de coupure de l'entraînement. Un modèle entraîné en 2023 ne connaît pas les événements de 2024 sans injection de contexte.
  • Ils sont sensibles au prompt : la façon dont une question est formulée influence significativement la qualité de la réponse. L'ingénierie de prompt est une compétence réelle.

Maîtriser ces fondamentaux ne demande pas d'être chercheur en IA. Mais cela change profondément la façon dont on utilise ces outils — en sachant quand leur faire confiance, quand vérifier, et comment les intégrer de façon pertinente dans des processus professionnels.

Parlons de votre projet

Besoin d'un expert Smart City ?

De la stratégie à la mise en œuvre, je vous accompagne en toute indépendance vis-à-vis des éditeurs.