Altitud
Édition · 25 mai 2026
Toutes les formations

FORMATION IA

Génération Augmentée par Récupération (RAG) en Production

Construisez, évaluez et opérez des pipelines RAG en production, rapides, précis et rentables.

Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit

Lancer le diagnostic
Format
programme
Durée
24-40h
Niveau
practitioner
Taille de groupe
6-16
Prix / participant
€3K-€5K
Prix groupe
€18K-€40K
Public
Ingénieurs logiciel et ML qui construisent ou déploient des applications alimentées par des LLM
Prérequis
Solides compétences en Python, connaissance pratique des API REST et familiarité avec les concepts fondamentaux des LLM (prompting, tokens, embeddings)

Ce qu'elle couvre

Ce programme de niveau praticien accompagne les ingénieurs du RAG fondamental jusqu'au déploiement en production : stratégies d'ingestion de documents, choix de chunking et d'embeddings, architectures de retrievers et rerankers, et frameworks d'évaluation. Les participants implémentent des pipelines bout-en-bout sur des données réelles, les instrumentent pour l'observabilité, et appliquent des techniques de mise en cache et de maîtrise des coûts. Le format associe sessions de live coding, revues d'architecture et ateliers pratiques avec des outils open source (LangChain, LlamaIndex, Weaviate, RAGAS). À l'issue du programme, les participants sont capables de livrer et de surveiller un système RAG respectant les exigences de latence, de qualité et de budget.

À l'issue, vous saurez

  • Concevoir et implémenter un pipeline RAG multi-étages avec chunking, embedding, retrieval et reranking accordés à un dataset réel
  • Sélectionner et justifier le bon vector store et l'architecture de retriever pour un trade-off donné entre latence et précision
  • Évaluer la qualité du pipeline RAG avec les métriques RAGAS (faithfulness, context precision, answer relevancy) et itérer systématiquement
  • Instrumenter un système RAG avec distributed tracing et mettre en place des alertes en cas de dégradation de la qualité du retrieval en production
  • Appliquer le semantic caching et le routing de requêtes pour réduire les coûts des API LLM d'au moins 30% sans sacrifier la qualité des réponses

Sujets abordés

  • Pipelines d'ingestion de documents et stratégies de prétraitement
  • Stratégies de chunking : fixed, sémantique, récursif et late chunking
  • Sélection de modèles d'embedding et fine-tuning pour la recherche spécifique au domaine
  • Vector stores, hybrid search et architectures de retriever
  • Reranking avec cross-encoders et rerankers basés sur LLM
  • Cadres d'évaluation RAG (RAGAS, TruLens, LangSmith)
  • Patterns de caching, routing de requêtes et contrôle des coûts
  • Observabilité, tracing et monitoring en production pour les systèmes RAG

Modalité

Délivré en format blended sur 3 à 5 jours (présentiel ou distanciel), avec environ 60% de labs pratiques et 40% de sessions d'architecture animées par un instructeur. Les participants travaillent en petites équipes sur un projet capstone utilisant leurs propres datasets ou des datasets fournis. Tous les labs s'exécutent dans des environnements cloud préconfigurés ; aucun GPU local requis. Des fiches d'architecture imprimées et un dépôt GitHub privé contenant tout le code des labs sont inclus. La livraison à distance utilise les breakout rooms Zoom avec un assistant lab par groupe de quatre.

Ce qui fait que ça marche

  • Établir un dataset d'évaluation offline avec des paires QA de vérité de base avant d'écrire tout code de pipeline
  • Instrumenter les étapes de retrieval et génération dès le jour un avec un outil de tracing tel que LangSmith ou Arize Phoenix
  • Exécuter des ablations de chunking et embedding sur un échantillon représentatif de documents réels de production avant de s'engager sur une architecture
  • Traiter les templates de prompt et les paramètres de retrieval comme des artefacts versionnés soumis à la même discipline CI/CD que le code applicatif

Erreurs fréquentes

  • Utiliser le chunking de taille fixe pour tous les types de documents sans considérer les limites sémantiques, ce qui aboutit à une faible précision de retrieval
  • Sauter l'évaluation systématique et s'en tenir à des vérifications anecdotiques, si bien que les régressions de qualité passent inaperçues en production
  • Ignorer complètement le reranking et supposer que le top-k dense retrieval suffit pour les questions complexes et multi-hop
  • Traiter RAG comme une construction unique plutôt que comme un système observable, laissant les pics de latence et les dépassements de coûts indétectés

Quand NE PAS suivre cette formation

Ce programme n'est pas adapté aux équipes qui n'ont pas encore livré une seule fonctionnalité LLM aux utilisateurs, les organisations qui évaluent encore si l'IA doit être utilisée trouveront la profondeur des opérations en production décourageante et devraient commencer par un atelier littératie IA ou prompt engineering à la place.

Fournisseurs à considérer

Sources

Cas d'usage que cette formation débloque

Autres formations à ce niveau

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.