FORMATION IA

Génération Augmentée par Récupération (RAG) en Production

Construisez, évaluez et opérez des pipelines RAG en production, rapides, précis et rentables.

Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit

Format: programme
Durée: 24-40h
Niveau: practitioner
Taille de groupe: 6-16
Prix / participant: €3K-€5K
Prix groupe: €18K-€40K
Public: Ingénieurs logiciel et ML qui construisent ou déploient des applications alimentées par des LLM
Prérequis: Solides compétences en Python, connaissance pratique des API REST et familiarité avec les concepts fondamentaux des LLM (prompting, tokens, embeddings)

Ce qu'elle couvre

Ce programme de niveau praticien accompagne les ingénieurs du RAG fondamental jusqu'au déploiement en production : stratégies d'ingestion de documents, choix de chunking et d'embeddings, architectures de retrievers et rerankers, et frameworks d'évaluation. Les participants implémentent des pipelines bout-en-bout sur des données réelles, les instrumentent pour l'observabilité, et appliquent des techniques de mise en cache et de maîtrise des coûts. Le format associe sessions de live coding, revues d'architecture et ateliers pratiques avec des outils open source (LangChain, LlamaIndex, Weaviate, RAGAS). À l'issue du programme, les participants sont capables de livrer et de surveiller un système RAG respectant les exigences de latence, de qualité et de budget.

À l'issue, vous saurez

Concevoir et implémenter un pipeline RAG multi-étages avec chunking, embedding, retrieval et reranking accordés à un dataset réel
Sélectionner et justifier le bon vector store et l'architecture de retriever pour un trade-off donné entre latence et précision
Évaluer la qualité du pipeline RAG avec les métriques RAGAS (faithfulness, context precision, answer relevancy) et itérer systématiquement
Instrumenter un système RAG avec distributed tracing et mettre en place des alertes en cas de dégradation de la qualité du retrieval en production
Appliquer le semantic caching et le routing de requêtes pour réduire les coûts des API LLM d'au moins 30% sans sacrifier la qualité des réponses

Sujets abordés

Pipelines d'ingestion de documents et stratégies de prétraitement
Stratégies de chunking : fixed, sémantique, récursif et late chunking
Sélection de modèles d'embedding et fine-tuning pour la recherche spécifique au domaine
Vector stores, hybrid search et architectures de retriever
Reranking avec cross-encoders et rerankers basés sur LLM
Cadres d'évaluation RAG (RAGAS, TruLens, LangSmith)
Patterns de caching, routing de requêtes et contrôle des coûts
Observabilité, tracing et monitoring en production pour les systèmes RAG

Modalité

Délivré en format blended sur 3 à 5 jours (présentiel ou distanciel), avec environ 60% de labs pratiques et 40% de sessions d'architecture animées par un instructeur. Les participants travaillent en petites équipes sur un projet capstone utilisant leurs propres datasets ou des datasets fournis. Tous les labs s'exécutent dans des environnements cloud préconfigurés ; aucun GPU local requis. Des fiches d'architecture imprimées et un dépôt GitHub privé contenant tout le code des labs sont inclus. La livraison à distance utilise les breakout rooms Zoom avec un assistant lab par groupe de quatre.

Ce qui fait que ça marche

Établir un dataset d'évaluation offline avec des paires QA de vérité de base avant d'écrire tout code de pipeline
Instrumenter les étapes de retrieval et génération dès le jour un avec un outil de tracing tel que LangSmith ou Arize Phoenix
Exécuter des ablations de chunking et embedding sur un échantillon représentatif de documents réels de production avant de s'engager sur une architecture
Traiter les templates de prompt et les paramètres de retrieval comme des artefacts versionnés soumis à la même discipline CI/CD que le code applicatif

Erreurs fréquentes

Utiliser le chunking de taille fixe pour tous les types de documents sans considérer les limites sémantiques, ce qui aboutit à une faible précision de retrieval
Sauter l'évaluation systématique et s'en tenir à des vérifications anecdotiques, si bien que les régressions de qualité passent inaperçues en production
Ignorer complètement le reranking et supposer que le top-k dense retrieval suffit pour les questions complexes et multi-hop
Traiter RAG comme une construction unique plutôt que comme un système observable, laissant les pics de latence et les dépassements de coûts indétectés

Quand NE PAS suivre cette formation

Ce programme n'est pas adapté aux équipes qui n'ont pas encore livré une seule fonctionnalité LLM aux utilisateurs, les organisations qui évaluent encore si l'IA doit être utilisée trouveront la profondeur des opérations en production décourageante et devraient commencer par un atelier littératie IA ou prompt engineering à la place.

Fournisseurs à considérer

Sources

Cas d'usage que cette formation débloque

Autres formations à ce niveau

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.

Lancer le diagnostic Réserver un appel