Agents RAG en production

Objectifs :

  • Comprendre l'architecture d'un système RAG et identifier ses cas d'usage en entreprise
  • Construire un pipeline RAG complet : embeddings, chunking, vector store et génération
  • Mettre en œuvre des techniques de retrieval avancées : recherche hybride, reranking, HyDE
  • Concevoir des architectures RAG agentiques et multimodales (PDF, tableaux, images)
  • Évaluer la qualité d'un système RAG avec RAGAS et mettre en place l'observabilité
  • Déployer un RAG en production en maîtrisant sécurité, coûts et latence
Tarif inter / participant
2 500 € HT
📄 Programme (PDF) 📅 Voir les dates

Public visé

  • Développeurs Python souhaitant maîtriser la conception de systèmes RAG en production
  • Data scientists et ML engineers chargés de mettre en œuvre des solutions IA documentaires
  • Tech leads et architectes logiciels intégrant des capacités IA dans leurs applications
  • Consultants et freelances accompagnant des entreprises sur leurs projets IA générative

Objectifs pédagogiques

  • Comprendre l'architecture d'un système RAG et identifier ses cas d'usage en entreprise
  • Choisir et implémenter une stratégie d'embedding et de chunking adaptée au contexte
  • Sélectionner et configurer un vector store pertinent (Chroma, Qdrant, pgvector)
  • Mettre en œuvre des techniques de retrieval avancées : recherche hybride, reranking, HyDE
  • Concevoir des architectures RAG agentiques avec routing et raisonnement multi-étapes
  • Traiter des documents complexes : PDF, tableaux, images (RAG multimodal)
  • Évaluer objectivement la qualité d'un système RAG avec RAGAS et DeepEval
  • Mettre en place l'observabilité en production avec LangSmith ou Langfuse
  • Sécuriser un système RAG : prompt injection, gestion des PII, conformité RGPD
  • Optimiser la latence et les coûts : caching sémantique, batching, modèles hybrides
  • Déployer un RAG complet avec FastAPI et Docker dans une architecture scalable

Prérequis

  • Maîtrise de Python intermédiaire : fonctions, classes, gestion de dépendances
  • Expérience préalable avec au moins une API LLM (OpenAI, Anthropic Claude, Mistral)
  • Notions de base en NLP : tokenisation, embeddings, similarité sémantique
  • Connaissance d'un environnement de développement (VS Code, Git, terminal)
  • Anglais technique en lecture (documentation, articles de recherche)

Méthodes pédagogiques

  • Alternance de théorie (30%) et de pratique (70%)
  • Démonstrations live sur API réelles (Claude, OpenAI, Cohere) et frameworks de production
  • Pédagogie par la comparaison : chaque concept démontré sur plusieurs approches
  • Projet fil rouge sur les 4 jours avec un dataset métier représentatif
  • Soutenance individuelle du projet final avec retour personnalisé du formateur
  • Code source, notebooks et template RAG production-ready remis aux stagiaires

Programme détaillé

JOUR 1 — Fondamentaux du RAG et premier pipeline

  • Pourquoi le RAG : limites des LLM, hallucinations, knowledge cutoff
  • RAG vs fine-tuning : coûts, maintenance, cas d'usage en entreprise
  • Typologie des cas d'usage : Q&A documentaire, support client, copilote métier
  • Architecture d'un pipeline RAG : ingestion, indexation, retrieval, génération
  • Panorama des embeddings : OpenAI, Cohere, BGE, E5, modèles open source
  • Critères de choix : dimension, langue, coût, latence, performance MTEB
  • Comparatif des vector stores : Chroma, Qdrant, Pinecone, pgvector, Weaviate
  • Critères de sélection : self-hosted vs managed, scalabilité, filtres métier
  • Stratégies de chunking : fixe, récursif, sémantique, par structure de document
  • Pièges du chunking : perte de contexte, overlap, granularité optimale
  • Construction d'un pipeline avec LangChain et LlamaIndex : comparaison

■ Travaux pratiques :
→ TP1 : Générer et comparer des embeddings (OpenAI vs modèle open source) sur un corpus métier
→ TP2 : Implémenter trois stratégies de chunking et mesurer leur impact qualitatif
→ TP3 (projet fil rouge) : Premier RAG fonctionnel sur un corpus de documents internes

JOUR 2 — Retrieval avancé : la différence POC / production

  • Limites de la recherche purement vectorielle : recall, entités, jargon métier
  • Recherche lexicale avec BM25 : principes et implémentation
  • Recherche hybride : fusion BM25 + dense, pondération, RRF (Reciprocal Rank Fusion)
  • Reranking avec cross-encoders : pourquoi et quand l'utiliser
  • Intégration de Cohere Rerank et de modèles open source (bge-reranker)
  • Mesure du gain : précision, MRR, NDCG
  • Query transformation : pourquoi réécrire la requête utilisateur
  • HyDE (Hypothetical Document Embeddings) : principe et mise en œuvre
  • Multi-query retrieval : générer plusieurs variantes et fusionner
  • Step-back prompting : remonter à la question générale
  • Contextual Retrieval (technique Anthropic) : enrichir chaque chunk de son contexte
  • Metadata filtering : combiner recherche sémantique et filtres structurés

■ Travaux pratiques :
→ TP1 : Implémenter une recherche hybride BM25 + dense et mesurer le gain
→ TP2 : Ajouter un reranker Cohere et comparer les résultats
→ TP3 (challenge) : Benchmarker 5 stratégies de retrieval sur un dataset annoté avec rapport de performance

JOUR 3 — RAG agentique et multimodal

  • Du RAG linéaire au RAG agentique : quand et pourquoi
  • Routers : diriger la requête vers la bonne source de données
  • Self-querying : l'agent génère ses propres filtres de metadata
  • Multi-step reasoning : décomposition de requêtes complexes
  • RAG conversationnel : gestion de la mémoire et du contexte multi-tours
  • Outils d'orchestration : LangGraph, LlamaIndex Workflows
  • Génération avec citations structurées et traçabilité
  • Documents complexes : PDF avec tableaux, images, schémas
  • Outils de parsing avancé : Unstructured, LlamaParse, Docling
  • RAG multimodal : embeddings d'images, description automatique par VLM
  • Introduction au Graph RAG : principes et cas d'usage
  • Knowledge graphs : extraction d'entités et de relations

■ Travaux pratiques :
→ TP1 : Construire un agent RAG avec routing entre plusieurs sources (documentation, base de données, FAQ)
→ TP2 : Traiter un corpus de PDF techniques contenant tableaux et schémas
→ TP3 (mini-projet) : Assembler un RAG conversationnel multi-tours avec mémoire et citations

JOUR 4 — Évaluation, production, sécurité et projet final

  • Pourquoi l'évaluation est critique : sans métriques, pas d'amélioration
  • Construire un dataset d'évaluation : annotation manuelle vs synthétique
  • RAGAS : faithfulness, answer relevancy, context precision, context recall
  • DeepEval et Phoenix : alternatives et spécificités
  • Évaluation LLM-as-a-judge : forces, limites, biais
  • Observabilité en production : LangSmith, Langfuse, Arize
  • Traces, spans, feedback utilisateur, détection de régression
  • Sécurité : prompt injection, jailbreaks, exfiltration de données sensibles
  • Gestion des PII : détection, anonymisation, conformité RGPD
  • Optimisation des coûts : caching sémantique, batching, modèles en cascade
  • Latence : streaming, parallélisation du retrieval, pré-calcul
  • Déploiement : FastAPI + Docker, architecture scalable, CI/CD

■ Travaux pratiques :
→ TP1 : Mettre en place un pipeline d'évaluation RAGAS reproductible
→ TP2 : Configurer l'observabilité et le monitoring avec LangSmith ou Langfuse
→ TP3 (Projet final) : RAG complet déployé en API FastAPI avec endpoint sécurisé, soutenance individuelle

Évaluation

  • Test de positionnement technique en début de formation
  • Évaluations formatives : exercices pratiques corrigés, benchmarks, QCM intermédiaires
  • QCM mi-parcours de 20 questions (Jour 2)
  • QCM final de 30 questions (Jour 4) — critère de réussite : 60%
  • Soutenance du projet final avec démonstration et analyse des choix techniques
  • Attestation de fin de formation délivrée

Retour en haut