RAG en prodi – PythonIA

Agents RAG en production

Objectifs :

Comprendre l'architecture d'un système RAG et identifier ses cas d'usage en entreprise

Construire un pipeline RAG complet : embeddings, chunking, vector store et génération

Mettre en œuvre des techniques de retrieval avancées : recherche hybride, reranking, HyDE

Concevoir des architectures RAG agentiques et multimodales (PDF, tableaux, images)

Évaluer la qualité d'un système RAG avec RAGAS et mettre en place l'observabilité

Déployer un RAG en production en maîtrisant sécurité, coûts et latence

Tarif inter / participant
2 500 € HT

📄 Programme (PDF) 📅 Voir les dates

Public visé

Développeurs Python souhaitant maîtriser la conception de systèmes RAG en production

Data scientists et ML engineers chargés de mettre en œuvre des solutions IA documentaires

Tech leads et architectes logiciels intégrant des capacités IA dans leurs applications

Consultants et freelances accompagnant des entreprises sur leurs projets IA générative

Objectifs pédagogiques

Comprendre l'architecture d'un système RAG et identifier ses cas d'usage en entreprise

Choisir et implémenter une stratégie d'embedding et de chunking adaptée au contexte

Sélectionner et configurer un vector store pertinent (Chroma, Qdrant, pgvector)

Mettre en œuvre des techniques de retrieval avancées : recherche hybride, reranking, HyDE

Concevoir des architectures RAG agentiques avec routing et raisonnement multi-étapes

Traiter des documents complexes : PDF, tableaux, images (RAG multimodal)

Évaluer objectivement la qualité d'un système RAG avec RAGAS et DeepEval

Mettre en place l'observabilité en production avec LangSmith ou Langfuse

Sécuriser un système RAG : prompt injection, gestion des PII, conformité RGPD

Optimiser la latence et les coûts : caching sémantique, batching, modèles hybrides

Déployer un RAG complet avec FastAPI et Docker dans une architecture scalable

Prérequis

Maîtrise de Python intermédiaire : fonctions, classes, gestion de dépendances

Expérience préalable avec au moins une API LLM (OpenAI, Anthropic Claude, Mistral)

Notions de base en NLP : tokenisation, embeddings, similarité sémantique

Connaissance d'un environnement de développement (VS Code, Git, terminal)

Anglais technique en lecture (documentation, articles de recherche)

Méthodes pédagogiques

Alternance de théorie (30%) et de pratique (70%)

Démonstrations live sur API réelles (Claude, OpenAI, Cohere) et frameworks de production

Pédagogie par la comparaison : chaque concept démontré sur plusieurs approches

Projet fil rouge sur les 4 jours avec un dataset métier représentatif

Soutenance individuelle du projet final avec retour personnalisé du formateur

Code source, notebooks et template RAG production-ready remis aux stagiaires

Programme détaillé

JOUR 1 — Fondamentaux du RAG et premier pipeline

Pourquoi le RAG : limites des LLM, hallucinations, knowledge cutoff

RAG vs fine-tuning : coûts, maintenance, cas d'usage en entreprise

Typologie des cas d'usage : Q&A documentaire, support client, copilote métier

Architecture d'un pipeline RAG : ingestion, indexation, retrieval, génération

Panorama des embeddings : OpenAI, Cohere, BGE, E5, modèles open source

Critères de choix : dimension, langue, coût, latence, performance MTEB

Comparatif des vector stores : Chroma, Qdrant, Pinecone, pgvector, Weaviate

Critères de sélection : self-hosted vs managed, scalabilité, filtres métier

Stratégies de chunking : fixe, récursif, sémantique, par structure de document

Pièges du chunking : perte de contexte, overlap, granularité optimale

Construction d'un pipeline avec LangChain et LlamaIndex : comparaison

■ Travaux pratiques :
→ TP1 : Générer et comparer des embeddings (OpenAI vs modèle open source) sur un corpus métier
→ TP2 : Implémenter trois stratégies de chunking et mesurer leur impact qualitatif
→ TP3 (projet fil rouge) : Premier RAG fonctionnel sur un corpus de documents internes

JOUR 2 — Retrieval avancé : la différence POC / production

Limites de la recherche purement vectorielle : recall, entités, jargon métier

Recherche lexicale avec BM25 : principes et implémentation

Recherche hybride : fusion BM25 + dense, pondération, RRF (Reciprocal Rank Fusion)

Reranking avec cross-encoders : pourquoi et quand l'utiliser

Intégration de Cohere Rerank et de modèles open source (bge-reranker)

Mesure du gain : précision, MRR, NDCG

Query transformation : pourquoi réécrire la requête utilisateur

HyDE (Hypothetical Document Embeddings) : principe et mise en œuvre

Multi-query retrieval : générer plusieurs variantes et fusionner

Step-back prompting : remonter à la question générale

Contextual Retrieval (technique Anthropic) : enrichir chaque chunk de son contexte

Metadata filtering : combiner recherche sémantique et filtres structurés

■ Travaux pratiques :
→ TP1 : Implémenter une recherche hybride BM25 + dense et mesurer le gain
→ TP2 : Ajouter un reranker Cohere et comparer les résultats
→ TP3 (challenge) : Benchmarker 5 stratégies de retrieval sur un dataset annoté avec rapport de performance

JOUR 3 — RAG agentique et multimodal

Du RAG linéaire au RAG agentique : quand et pourquoi

Routers : diriger la requête vers la bonne source de données

Self-querying : l'agent génère ses propres filtres de metadata

Multi-step reasoning : décomposition de requêtes complexes

RAG conversationnel : gestion de la mémoire et du contexte multi-tours

Outils d'orchestration : LangGraph, LlamaIndex Workflows

Génération avec citations structurées et traçabilité

Documents complexes : PDF avec tableaux, images, schémas

Outils de parsing avancé : Unstructured, LlamaParse, Docling

RAG multimodal : embeddings d'images, description automatique par VLM

Introduction au Graph RAG : principes et cas d'usage

Knowledge graphs : extraction d'entités et de relations

■ Travaux pratiques :
→ TP1 : Construire un agent RAG avec routing entre plusieurs sources (documentation, base de données, FAQ)
→ TP2 : Traiter un corpus de PDF techniques contenant tableaux et schémas
→ TP3 (mini-projet) : Assembler un RAG conversationnel multi-tours avec mémoire et citations

JOUR 4 — Évaluation, production, sécurité et projet final

Pourquoi l'évaluation est critique : sans métriques, pas d'amélioration

Construire un dataset d'évaluation : annotation manuelle vs synthétique

RAGAS : faithfulness, answer relevancy, context precision, context recall

DeepEval et Phoenix : alternatives et spécificités

Évaluation LLM-as-a-judge : forces, limites, biais

Observabilité en production : LangSmith, Langfuse, Arize

Traces, spans, feedback utilisateur, détection de régression

Sécurité : prompt injection, jailbreaks, exfiltration de données sensibles

Gestion des PII : détection, anonymisation, conformité RGPD

Optimisation des coûts : caching sémantique, batching, modèles en cascade

Latence : streaming, parallélisation du retrieval, pré-calcul

Déploiement : FastAPI + Docker, architecture scalable, CI/CD

■ Travaux pratiques :
→ TP1 : Mettre en place un pipeline d'évaluation RAGAS reproductible
→ TP2 : Configurer l'observabilité et le monitoring avec LangSmith ou Langfuse
→ TP3 (Projet final) : RAG complet déployé en API FastAPI avec endpoint sécurisé, soutenance individuelle

Évaluation

Test de positionnement technique en début de formation

Évaluations formatives : exercices pratiques corrigés, benchmarks, QCM intermédiaires

QCM mi-parcours de 20 questions (Jour 2)

QCM final de 30 questions (Jour 4) — critère de réussite : 60%

Soutenance du projet final avec démonstration et analyse des choix techniques

Attestation de fin de formation délivrée