Agents RAG en production
Objectifs :
- Comprendre l'architecture d'un système RAG et identifier ses cas d'usage en entreprise
- Construire un pipeline RAG complet : embeddings, chunking, vector store et génération
- Mettre en œuvre des techniques de retrieval avancées : recherche hybride, reranking, HyDE
- Concevoir des architectures RAG agentiques et multimodales (PDF, tableaux, images)
- Évaluer la qualité d'un système RAG avec RAGAS et mettre en place l'observabilité
- Déployer un RAG en production en maîtrisant sécurité, coûts et latence
Objectifs :
- Comprendre l'architecture d'un système RAG et identifier ses cas d'usage en entreprise
- Construire un pipeline RAG complet : embeddings, chunking, vector store et génération
- Mettre en œuvre des techniques de retrieval avancées : recherche hybride, reranking, HyDE
- Concevoir des architectures RAG agentiques et multimodales (PDF, tableaux, images)
- Évaluer la qualité d'un système RAG avec RAGAS et mettre en place l'observabilité
- Déployer un RAG en production en maîtrisant sécurité, coûts et latence
Public visé
- Développeurs Python souhaitant maîtriser la conception de systèmes RAG en production
- Data scientists et ML engineers chargés de mettre en œuvre des solutions IA documentaires
- Tech leads et architectes logiciels intégrant des capacités IA dans leurs applications
- Consultants et freelances accompagnant des entreprises sur leurs projets IA générative
Objectifs pédagogiques
- Comprendre l'architecture d'un système RAG et identifier ses cas d'usage en entreprise
- Choisir et implémenter une stratégie d'embedding et de chunking adaptée au contexte
- Sélectionner et configurer un vector store pertinent (Chroma, Qdrant, pgvector)
- Mettre en œuvre des techniques de retrieval avancées : recherche hybride, reranking, HyDE
- Concevoir des architectures RAG agentiques avec routing et raisonnement multi-étapes
- Traiter des documents complexes : PDF, tableaux, images (RAG multimodal)
- Évaluer objectivement la qualité d'un système RAG avec RAGAS et DeepEval
- Mettre en place l'observabilité en production avec LangSmith ou Langfuse
- Sécuriser un système RAG : prompt injection, gestion des PII, conformité RGPD
- Optimiser la latence et les coûts : caching sémantique, batching, modèles hybrides
- Déployer un RAG complet avec FastAPI et Docker dans une architecture scalable
Prérequis
- Maîtrise de Python intermédiaire : fonctions, classes, gestion de dépendances
- Expérience préalable avec au moins une API LLM (OpenAI, Anthropic Claude, Mistral)
- Notions de base en NLP : tokenisation, embeddings, similarité sémantique
- Connaissance d'un environnement de développement (VS Code, Git, terminal)
- Anglais technique en lecture (documentation, articles de recherche)
Méthodes pédagogiques
- Alternance de théorie (30%) et de pratique (70%)
- Démonstrations live sur API réelles (Claude, OpenAI, Cohere) et frameworks de production
- Pédagogie par la comparaison : chaque concept démontré sur plusieurs approches
- Projet fil rouge sur les 4 jours avec un dataset métier représentatif
- Soutenance individuelle du projet final avec retour personnalisé du formateur
- Code source, notebooks et template RAG production-ready remis aux stagiaires
Programme détaillé
JOUR 1 — Fondamentaux du RAG et premier pipeline
- Pourquoi le RAG : limites des LLM, hallucinations, knowledge cutoff
- RAG vs fine-tuning : coûts, maintenance, cas d'usage en entreprise
- Typologie des cas d'usage : Q&A documentaire, support client, copilote métier
- Architecture d'un pipeline RAG : ingestion, indexation, retrieval, génération
- Panorama des embeddings : OpenAI, Cohere, BGE, E5, modèles open source
- Critères de choix : dimension, langue, coût, latence, performance MTEB
- Comparatif des vector stores : Chroma, Qdrant, Pinecone, pgvector, Weaviate
- Critères de sélection : self-hosted vs managed, scalabilité, filtres métier
- Stratégies de chunking : fixe, récursif, sémantique, par structure de document
- Pièges du chunking : perte de contexte, overlap, granularité optimale
- Construction d'un pipeline avec LangChain et LlamaIndex : comparaison
■ Travaux pratiques :
→ TP1 : Générer et comparer des embeddings (OpenAI vs modèle open source) sur un corpus métier
→ TP2 : Implémenter trois stratégies de chunking et mesurer leur impact qualitatif
→ TP3 (projet fil rouge) : Premier RAG fonctionnel sur un corpus de documents internes
JOUR 2 — Retrieval avancé : la différence POC / production
- Limites de la recherche purement vectorielle : recall, entités, jargon métier
- Recherche lexicale avec BM25 : principes et implémentation
- Recherche hybride : fusion BM25 + dense, pondération, RRF (Reciprocal Rank Fusion)
- Reranking avec cross-encoders : pourquoi et quand l'utiliser
- Intégration de Cohere Rerank et de modèles open source (bge-reranker)
- Mesure du gain : précision, MRR, NDCG
- Query transformation : pourquoi réécrire la requête utilisateur
- HyDE (Hypothetical Document Embeddings) : principe et mise en œuvre
- Multi-query retrieval : générer plusieurs variantes et fusionner
- Step-back prompting : remonter à la question générale
- Contextual Retrieval (technique Anthropic) : enrichir chaque chunk de son contexte
- Metadata filtering : combiner recherche sémantique et filtres structurés
■ Travaux pratiques :
→ TP1 : Implémenter une recherche hybride BM25 + dense et mesurer le gain
→ TP2 : Ajouter un reranker Cohere et comparer les résultats
→ TP3 (challenge) : Benchmarker 5 stratégies de retrieval sur un dataset annoté avec rapport de performance
JOUR 3 — RAG agentique et multimodal
- Du RAG linéaire au RAG agentique : quand et pourquoi
- Routers : diriger la requête vers la bonne source de données
- Self-querying : l'agent génère ses propres filtres de metadata
- Multi-step reasoning : décomposition de requêtes complexes
- RAG conversationnel : gestion de la mémoire et du contexte multi-tours
- Outils d'orchestration : LangGraph, LlamaIndex Workflows
- Génération avec citations structurées et traçabilité
- Documents complexes : PDF avec tableaux, images, schémas
- Outils de parsing avancé : Unstructured, LlamaParse, Docling
- RAG multimodal : embeddings d'images, description automatique par VLM
- Introduction au Graph RAG : principes et cas d'usage
- Knowledge graphs : extraction d'entités et de relations
■ Travaux pratiques :
→ TP1 : Construire un agent RAG avec routing entre plusieurs sources (documentation, base de données, FAQ)
→ TP2 : Traiter un corpus de PDF techniques contenant tableaux et schémas
→ TP3 (mini-projet) : Assembler un RAG conversationnel multi-tours avec mémoire et citations
JOUR 4 — Évaluation, production, sécurité et projet final
- Pourquoi l'évaluation est critique : sans métriques, pas d'amélioration
- Construire un dataset d'évaluation : annotation manuelle vs synthétique
- RAGAS : faithfulness, answer relevancy, context precision, context recall
- DeepEval et Phoenix : alternatives et spécificités
- Évaluation LLM-as-a-judge : forces, limites, biais
- Observabilité en production : LangSmith, Langfuse, Arize
- Traces, spans, feedback utilisateur, détection de régression
- Sécurité : prompt injection, jailbreaks, exfiltration de données sensibles
- Gestion des PII : détection, anonymisation, conformité RGPD
- Optimisation des coûts : caching sémantique, batching, modèles en cascade
- Latence : streaming, parallélisation du retrieval, pré-calcul
- Déploiement : FastAPI + Docker, architecture scalable, CI/CD
■ Travaux pratiques :
→ TP1 : Mettre en place un pipeline d'évaluation RAGAS reproductible
→ TP2 : Configurer l'observabilité et le monitoring avec LangSmith ou Langfuse
→ TP3 (Projet final) : RAG complet déployé en API FastAPI avec endpoint sécurisé, soutenance individuelle
Évaluation
- Test de positionnement technique en début de formation
- Évaluations formatives : exercices pratiques corrigés, benchmarks, QCM intermédiaires
- QCM mi-parcours de 20 questions (Jour 2)
- QCM final de 30 questions (Jour 4) — critère de réussite : 60%
- Soutenance du projet final avec démonstration et analyse des choix techniques
- Attestation de fin de formation délivrée
Public visé
- Développeurs Python souhaitant maîtriser la conception de systèmes RAG en production
- Data scientists et ML engineers chargés de mettre en œuvre des solutions IA documentaires
- Tech leads et architectes logiciels intégrant des capacités IA dans leurs applications
- Consultants et freelances accompagnant des entreprises sur leurs projets IA générative
Objectifs pédagogiques
- Comprendre l'architecture d'un système RAG et identifier ses cas d'usage en entreprise
- Choisir et implémenter une stratégie d'embedding et de chunking adaptée au contexte
- Sélectionner et configurer un vector store pertinent (Chroma, Qdrant, pgvector)
- Mettre en œuvre des techniques de retrieval avancées : recherche hybride, reranking, HyDE
- Concevoir des architectures RAG agentiques avec routing et raisonnement multi-étapes
- Traiter des documents complexes : PDF, tableaux, images (RAG multimodal)
- Évaluer objectivement la qualité d'un système RAG avec RAGAS et DeepEval
- Mettre en place l'observabilité en production avec LangSmith ou Langfuse
- Sécuriser un système RAG : prompt injection, gestion des PII, conformité RGPD
- Optimiser la latence et les coûts : caching sémantique, batching, modèles hybrides
- Déployer un RAG complet avec FastAPI et Docker dans une architecture scalable
Prérequis
- Maîtrise de Python intermédiaire : fonctions, classes, gestion de dépendances
- Expérience préalable avec au moins une API LLM (OpenAI, Anthropic Claude, Mistral)
- Notions de base en NLP : tokenisation, embeddings, similarité sémantique
- Connaissance d'un environnement de développement (VS Code, Git, terminal)
- Anglais technique en lecture (documentation, articles de recherche)
Méthodes pédagogiques
- Alternance de théorie (30%) et de pratique (70%)
- Démonstrations live sur API réelles (Claude, OpenAI, Cohere) et frameworks de production
- Pédagogie par la comparaison : chaque concept démontré sur plusieurs approches
- Projet fil rouge sur les 4 jours avec un dataset métier représentatif
- Soutenance individuelle du projet final avec retour personnalisé du formateur
- Code source, notebooks et template RAG production-ready remis aux stagiaires
Programme détaillé
JOUR 1 — Fondamentaux du RAG et premier pipeline
- Pourquoi le RAG : limites des LLM, hallucinations, knowledge cutoff
- RAG vs fine-tuning : coûts, maintenance, cas d'usage en entreprise
- Typologie des cas d'usage : Q&A documentaire, support client, copilote métier
- Architecture d'un pipeline RAG : ingestion, indexation, retrieval, génération
- Panorama des embeddings : OpenAI, Cohere, BGE, E5, modèles open source
- Critères de choix : dimension, langue, coût, latence, performance MTEB
- Comparatif des vector stores : Chroma, Qdrant, Pinecone, pgvector, Weaviate
- Critères de sélection : self-hosted vs managed, scalabilité, filtres métier
- Stratégies de chunking : fixe, récursif, sémantique, par structure de document
- Pièges du chunking : perte de contexte, overlap, granularité optimale
- Construction d'un pipeline avec LangChain et LlamaIndex : comparaison
■ Travaux pratiques :
→ TP1 : Générer et comparer des embeddings (OpenAI vs modèle open source) sur un corpus métier
→ TP2 : Implémenter trois stratégies de chunking et mesurer leur impact qualitatif
→ TP3 (projet fil rouge) : Premier RAG fonctionnel sur un corpus de documents internes
JOUR 2 — Retrieval avancé : la différence POC / production
- Limites de la recherche purement vectorielle : recall, entités, jargon métier
- Recherche lexicale avec BM25 : principes et implémentation
- Recherche hybride : fusion BM25 + dense, pondération, RRF (Reciprocal Rank Fusion)
- Reranking avec cross-encoders : pourquoi et quand l'utiliser
- Intégration de Cohere Rerank et de modèles open source (bge-reranker)
- Mesure du gain : précision, MRR, NDCG
- Query transformation : pourquoi réécrire la requête utilisateur
- HyDE (Hypothetical Document Embeddings) : principe et mise en œuvre
- Multi-query retrieval : générer plusieurs variantes et fusionner
- Step-back prompting : remonter à la question générale
- Contextual Retrieval (technique Anthropic) : enrichir chaque chunk de son contexte
- Metadata filtering : combiner recherche sémantique et filtres structurés
■ Travaux pratiques :
→ TP1 : Implémenter une recherche hybride BM25 + dense et mesurer le gain
→ TP2 : Ajouter un reranker Cohere et comparer les résultats
→ TP3 (challenge) : Benchmarker 5 stratégies de retrieval sur un dataset annoté avec rapport de performance
JOUR 3 — RAG agentique et multimodal
- Du RAG linéaire au RAG agentique : quand et pourquoi
- Routers : diriger la requête vers la bonne source de données
- Self-querying : l'agent génère ses propres filtres de metadata
- Multi-step reasoning : décomposition de requêtes complexes
- RAG conversationnel : gestion de la mémoire et du contexte multi-tours
- Outils d'orchestration : LangGraph, LlamaIndex Workflows
- Génération avec citations structurées et traçabilité
- Documents complexes : PDF avec tableaux, images, schémas
- Outils de parsing avancé : Unstructured, LlamaParse, Docling
- RAG multimodal : embeddings d'images, description automatique par VLM
- Introduction au Graph RAG : principes et cas d'usage
- Knowledge graphs : extraction d'entités et de relations
■ Travaux pratiques :
→ TP1 : Construire un agent RAG avec routing entre plusieurs sources (documentation, base de données, FAQ)
→ TP2 : Traiter un corpus de PDF techniques contenant tableaux et schémas
→ TP3 (mini-projet) : Assembler un RAG conversationnel multi-tours avec mémoire et citations
JOUR 4 — Évaluation, production, sécurité et projet final
- Pourquoi l'évaluation est critique : sans métriques, pas d'amélioration
- Construire un dataset d'évaluation : annotation manuelle vs synthétique
- RAGAS : faithfulness, answer relevancy, context precision, context recall
- DeepEval et Phoenix : alternatives et spécificités
- Évaluation LLM-as-a-judge : forces, limites, biais
- Observabilité en production : LangSmith, Langfuse, Arize
- Traces, spans, feedback utilisateur, détection de régression
- Sécurité : prompt injection, jailbreaks, exfiltration de données sensibles
- Gestion des PII : détection, anonymisation, conformité RGPD
- Optimisation des coûts : caching sémantique, batching, modèles en cascade
- Latence : streaming, parallélisation du retrieval, pré-calcul
- Déploiement : FastAPI + Docker, architecture scalable, CI/CD
■ Travaux pratiques :
→ TP1 : Mettre en place un pipeline d'évaluation RAGAS reproductible
→ TP2 : Configurer l'observabilité et le monitoring avec LangSmith ou Langfuse
→ TP3 (Projet final) : RAG complet déployé en API FastAPI avec endpoint sécurisé, soutenance individuelle
Évaluation
- Test de positionnement technique en début de formation
- Évaluations formatives : exercices pratiques corrigés, benchmarks, QCM intermédiaires
- QCM mi-parcours de 20 questions (Jour 2)
- QCM final de 30 questions (Jour 4) — critère de réussite : 60%
- Soutenance du projet final avec démonstration et analyse des choix techniques
- Attestation de fin de formation délivrée