DébutantRAG
20 min de lecture57 vues

Comprendre le RAG : Donner une Mémoire à l'IA

Découvrez le Retrieval Augmented Generation : pourquoi les LLMs hallucinent, comment le RAG résout ce problème et les concepts clés (embeddings, vector search, chunking).

Le Problème : les LLMs Hallucinent

Les Large Language Models (GPT-4, Claude, Llama) sont entraînés sur des données figées dans le temps. Ils ont deux limites majeures :

1. Knowledge Cutoff

Le modèle ne connaît rien après sa date d''entraînement. Si vous demandez les résultats d''un match d''hier, il ne peut pas répondre.

2. Pas d''accès à vos données privées

Le modèle n''a aucune idée du contenu de votre documentation interne, de vos contrats ou de votre base de connaissances.

3. Les hallucinations

Quand un LLM ne sait pas, il invente une réponse plausible au lieu de dire "je ne sais pas".

Question : "Quel est le protocole de sécurité interne de notre entreprise ?"
LLM seul : "Le protocole de sécurité standard inclut..."  ← inventé
LLM + RAG : "Selon votre document 'Politique-Sécurité-2024.pdf', article 3.2..."  ← sourcé

Les hallucinations sont le problème n°1 des LLMs en entreprise. Un chatbot qui invente des réponses sur vos produits, vos contrats ou vos procédures peut avoir des conséquences graves.


La Solution : le RAG

RAG (Retrieval Augmented Generation) = Récupération + Génération Augmentée.

L''idée est simple : avant de répondre, on cherche les documents pertinents dans votre base de données, puis on les donne au LLM comme contexte.

Analogie simple

Imaginez un examen :

  • LLM seul = examen à livre fermé (le modèle répond de mémoire, risque d''erreurs)
  • LLM + RAG = examen à livre ouvert (le modèle consulte les documents avant de répondre)

Les Briques du RAG

1. Les Embeddings (Vecteurs)

Un embedding est une liste de nombres (vecteur) qui représente le sens d''un texte. Deux phrases au sens similaire auront des vecteurs proches dans l''espace.

"Le chat dort sur le tapis"  →  [0.12, -0.45, 0.78, ...]  (1536 nombres)
"Le félin sommeille sur le sol"  →  [0.11, -0.44, 0.79, ...]  (très proche !)
"Le prix du Bitcoin monte"  →  [0.89, 0.23, -0.56, ...]  (très différent)

Modèles d''embedding populaires :

ModèleCréateurDimensionsUsage
text-embedding-3-smallOpenAI1536Bon rapport qualité/prix
text-embedding-3-largeOpenAI3072Meilleure qualité
embed-v4.0Cohere1024Multilingue excellent
all-MiniLM-L6-v2HuggingFace384Gratuit, local

2. La Vector Database

Une base de données spécialisée pour stocker et chercher des vecteurs efficacement. Au lieu de chercher par mots-clés exacts, elle trouve les documents sémantiquement proches de votre question.

Question : "Comment résilier mon abonnement ?"
Recherche classique : cherche les mots "résilier" et "abonnement"
Recherche vectorielle : trouve aussi "annuler mon contrat", "mettre fin à ma souscription"

Vector databases populaires :

BaseTypeIdéal pour
LanceDBEmbarquée (fichier)Prototypage, applications légères
PgVectorExtension PostgreSQLProduction (si vous avez déjà Postgres)
PineconeCloud managéProduction sans infra à gérer
ChromaDBEmbarquéePrototypage Python
WeaviateSelf-hosted / CloudRecherche hybride avancée

3. Le Chunking (Découpage)

Les documents sont souvent trop longs pour être envoyés entièrement au LLM. On les découpe en chunks (morceaux) de taille raisonnable.

Document de 50 pages
       ↓ Chunking
Chunk 1 : "Introduction... paragraphe 1-3"  (500 tokens)
Chunk 2 : "Chapitre 1... paragraphe 4-6"    (500 tokens)
Chunk 3 : "Chapitre 1... paragraphe 7-9"    (500 tokens)
...

Stratégies de chunking :

StratégiePrincipeQuand l''utiliser
Fixed SizeBlocs de N caractèresSimple, rapide
RecursiveDécoupe par paragraphes, puis phrasesTexte structuré
SemanticRegroupe par similarité de sensQualité maximale
MarkdownDécoupe par titres/sectionsDocumentation technique

La taille du chunk est cruciale. Trop petit : on perd le contexte. Trop grand : on noie l''information pertinente. 500-1000 tokens est un bon point de départ.


Le Pipeline RAG en 5 Étapes

Étape 1 : Ingestion

Charger vos documents (PDF, texte, pages web, bases de données).

Étape 2 : Chunking

Découper les documents en morceaux de taille raisonnable.

Étape 3 : Embedding

Transformer chaque chunk en vecteur via un modèle d''embedding.

Étape 4 : Stockage

Stocker les vecteurs et les chunks originaux dans une vector database.

Étape 5 : Requête (au moment où l''utilisateur pose une question)

  1. Embed la question de l''utilisateur
  2. Chercher les K chunks les plus proches dans la vector database
  3. Construire le prompt : "Voici des documents pertinents : [chunks]. Réponds à cette question : [question]"
  4. Envoyer au LLM qui génère une réponse basée sur les documents

Types de Recherche

Recherche Sémantique (Dense)

Basée uniquement sur les embeddings. Trouve les documents au sens proche.

  • Force : comprend les synonymes, les reformulations
  • Faiblesse : peut rater des mots-clés exacts importants

Recherche par Mots-clés (Sparse)

Recherche classique par correspondance de mots (BM25, TF-IDF).

  • Force : excellente pour les noms propres, codes produit, termes techniques
  • Faiblesse : ne comprend pas les synonymes

Recherche Hybride (Recommandée)

Combine les deux approches pour le meilleur des deux mondes.

Score final = α × score_sémantique + (1-α) × score_keywords

La recherche hybride est le standard recommandé pour la plupart des applications RAG. Elle est plus robuste que chaque méthode seule.


RAG vs Fine-tuning : Quand Utiliser Quoi ?

CritèreRAGFine-tuning
Données changent souventRAG (mise à jour instantanée)Fine-tuning (réentraîner)
Besoin de sourcesRAG (documents citables)Fine-tuning (pas de source)
Coût initialFaibleÉlevé (GPU, données)
HallucinationsRéduites (documents réels)Toujours possible
Style/ton spécifiqueLimitéExcellent
Données confidentiellesContrôlable (local)Risque de mémorisation

En pratique, 80% des cas d''usage en entreprise sont mieux servis par le RAG que par le fine-tuning. Le fine-tuning est plutôt réservé aux cas où vous voulez changer le comportement fondamental du modèle.


Les Métriques du RAG

Comment savoir si votre RAG fonctionne bien ?

MétriqueCe qu''elle mesureBon score
Recall@K% de documents pertinents trouvés dans les K résultats> 80%
Precision@K% de résultats qui sont réellement pertinents> 70%
FaithfulnessLa réponse est-elle fidèle aux documents ?> 90%
Answer RelevancyLa réponse répond-elle à la question ?> 85%
Context RelevancyLes chunks récupérés sont-ils pertinents ?> 75%

Pour Aller Plus Loin

Specialiste IA — Master Intelligence Artificielle

Diplome d'un Master en Intelligence Artificielle, je travaille au quotidien sur des projets IA en entreprise. J'ai cree IwanttolearnAI pour rendre l'apprentissage de l'IA accessible a tous, gratuitement.