FORMATION IA
Génération Augmentée par Récupération (RAG) en Production
Construisez, évaluez et opérez des pipelines RAG en production, rapides, précis et rentables.
Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit
Lancer le diagnostic →Ce qu'elle couvre
Ce programme de niveau praticien accompagne les ingénieurs du RAG fondamental jusqu'au déploiement en production : stratégies d'ingestion de documents, choix de chunking et d'embeddings, architectures de retrievers et rerankers, et frameworks d'évaluation. Les participants implémentent des pipelines bout-en-bout sur des données réelles, les instrumentent pour l'observabilité, et appliquent des techniques de mise en cache et de maîtrise des coûts. Le format associe sessions de live coding, revues d'architecture et ateliers pratiques avec des outils open source (LangChain, LlamaIndex, Weaviate, RAGAS). À l'issue du programme, les participants sont capables de livrer et de surveiller un système RAG respectant les exigences de latence, de qualité et de budget.
À l'issue, vous saurez
- Concevoir et implémenter un pipeline RAG multi-étages avec chunking, embedding, retrieval et reranking accordés à un dataset réel
- Sélectionner et justifier le bon vector store et l'architecture de retriever pour un trade-off donné entre latence et précision
- Évaluer la qualité du pipeline RAG avec les métriques RAGAS (faithfulness, context precision, answer relevancy) et itérer systématiquement
- Instrumenter un système RAG avec distributed tracing et mettre en place des alertes en cas de dégradation de la qualité du retrieval en production
- Appliquer le semantic caching et le routing de requêtes pour réduire les coûts des API LLM d'au moins 30% sans sacrifier la qualité des réponses
Sujets abordés
- Pipelines d'ingestion de documents et stratégies de prétraitement
- Stratégies de chunking : fixed, sémantique, récursif et late chunking
- Sélection de modèles d'embedding et fine-tuning pour la recherche spécifique au domaine
- Vector stores, hybrid search et architectures de retriever
- Reranking avec cross-encoders et rerankers basés sur LLM
- Cadres d'évaluation RAG (RAGAS, TruLens, LangSmith)
- Patterns de caching, routing de requêtes et contrôle des coûts
- Observabilité, tracing et monitoring en production pour les systèmes RAG
Modalité
Délivré en format blended sur 3 à 5 jours (présentiel ou distanciel), avec environ 60% de labs pratiques et 40% de sessions d'architecture animées par un instructeur. Les participants travaillent en petites équipes sur un projet capstone utilisant leurs propres datasets ou des datasets fournis. Tous les labs s'exécutent dans des environnements cloud préconfigurés ; aucun GPU local requis. Des fiches d'architecture imprimées et un dépôt GitHub privé contenant tout le code des labs sont inclus. La livraison à distance utilise les breakout rooms Zoom avec un assistant lab par groupe de quatre.
Ce qui fait que ça marche
- Établir un dataset d'évaluation offline avec des paires QA de vérité de base avant d'écrire tout code de pipeline
- Instrumenter les étapes de retrieval et génération dès le jour un avec un outil de tracing tel que LangSmith ou Arize Phoenix
- Exécuter des ablations de chunking et embedding sur un échantillon représentatif de documents réels de production avant de s'engager sur une architecture
- Traiter les templates de prompt et les paramètres de retrieval comme des artefacts versionnés soumis à la même discipline CI/CD que le code applicatif
Erreurs fréquentes
- Utiliser le chunking de taille fixe pour tous les types de documents sans considérer les limites sémantiques, ce qui aboutit à une faible précision de retrieval
- Sauter l'évaluation systématique et s'en tenir à des vérifications anecdotiques, si bien que les régressions de qualité passent inaperçues en production
- Ignorer complètement le reranking et supposer que le top-k dense retrieval suffit pour les questions complexes et multi-hop
- Traiter RAG comme une construction unique plutôt que comme un système observable, laissant les pics de latence et les dépassements de coûts indétectés
Quand NE PAS suivre cette formation
Ce programme n'est pas adapté aux équipes qui n'ont pas encore livré une seule fonctionnalité LLM aux utilisateurs, les organisations qui évaluent encore si l'IA doit être utilisée trouveront la profondeur des opérations en production décourageante et devraient commencer par un atelier littératie IA ou prompt engineering à la place.
Fournisseurs à considérer
Sources
Cas d'usage que cette formation débloque
- Assistant de Recherche Juridique par IAAccélérez la recherche juridique en faisant remonter instantanément jurisprudences, textes de loi et citations pertinentes.
- Graphe de Connaissances et Recherche Sémantique d'EntrepriseConnectez documents, code et conversations dans un graphe de connaissances interrogeable pour vos équipes.
- Recherche et Analyse Automatisées par IAAccélérez la recherche et la rédaction d'analyses en synthétisant plusieurs sources grâce à la GenAI.
- Chatbot Conseiller en Assurance par IAAidez vos assurés à comprendre leurs garanties, déclarer un sinistre et obtenir des recommandations produit instantanément.
- Agent IA de Service Client OmnicanalAutomatisez les demandes clients sur le chat, l'e-mail et la voix pour les équipes support retail.
- Assistant Virtuel Bancaire IntelligentAutomatisez les demandes bancaires courantes pour les clients particuliers grâce à un assistant conversationnel IA.
Autres formations à ce niveau
Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.