Altitud
Édition · 25 mai 2026
Toutes les formations

FORMATION IA

Déploiement et Scalabilité des Modèles ML en Production

Construisez et opérez une infrastructure d'inférence ML performante, économique et prête pour la production.

Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit

Lancer le diagnostic
Format
bootcamp
Durée
24-40h
Niveau
practitioner
Taille de groupe
6-16
Prix / participant
€2K-€4K
Prix groupe
€20K-€45K
Public
Ingénieurs plateforme ML, ingénieurs MLOps et ingénieurs ML seniors responsables du déploiement de modèles en production
Prérequis
Solides compétences en Python, familiarité avec PyTorch ou TensorFlow, expérience antérieure du déploiement d'au moins un modèle ML dans un environnement cloud ou on-premise

Ce qu'elle couvre

Ce programme de niveau praticien couvre le cycle complet de déploiement et de mise à l'échelle de modèles de machine learning en environnement de production. Les participants acquièrent une expérience pratique avec les principaux moteurs d'inférence (vLLM, TGI, Triton Inference Server), les stratégies de batching, les techniques de quantisation et la sélection GPU/matériel. La formation allie fondements théoriques et exercices en laboratoire, et se conclut par le benchmarking et l'optimisation d'une stack d'inférence complète. Le format combine sessions magistrales, labs guidés et revues de code entre pairs.

À l'issue, vous saurez

  • Déployer et configurer vLLM et Triton Inference Server pour servir un grand modèle de langage avec des SLO de latence définis
  • Appliquer les techniques de quantisation INT8 et INT4 et mesurer leurs compromis exactitude/débit sur un modèle réel
  • Concevoir une stratégie de batching qui maximise l'utilisation GPU tout en respectant les cibles de latence p95
  • Sélectionner et justifier le hardware GPU (A10G, A100, H100) en fonction de la taille du modèle, des exigences de débit et des contraintes de coûts
  • Instrumenter un service d'inférence avec des métriques Prometheus et créer un tableau de bord suivi l'utilisation GPU, le débit en tokens et les taux d'erreur

Sujets abordés

  • Analyse approfondie des moteurs d'inférence : vLLM, TGI et Triton Inference Server
  • Batching continu, batching dynamique et ordonnancement de requêtes
  • Quantisation de modèles : INT8, INT4, GPTQ, AWQ et bitsandbytes
  • Sélection de GPU, parallélisme multi-GPU (tensor, pipeline, data)
  • Compromis latence/débit et conception de SLO
  • API de serveur de modèles : REST, gRPC et réponses en streaming
  • Monitoring d'inférence : percentiles de latence, utilisation GPU, coût par token
  • Stratégies d'autoscaling et optimisation du KV-cache

Modalité

Livré sous forme de bootcamp intensif de 3 à 5 jours, soit sur site dans les locaux du client, soit entièrement en distanciel via un environnement de laboratoire cloud (des instances GPU AWS, GCP ou Azure sont provisionnées pour les participants). Environ 60 % du temps est consacré aux laboratoires pratiques ; 40 % aux sessions conceptuelles animées par un instructeur. Les participants travaillent par paires pendant les exercices de laboratoire. Tout le code de laboratoire, les scripts de benchmark et les configurations de référence sont fournis et conservés par les participants après le programme. Un bac à sable cloud compatibles GPU est inclus dans le tarif groupe ; les participants utilisant des comptes cloud personnels ou d'entreprise doivent budgétiser séparément.

Ce qui fait que ça marche

  • Définir les SLO de latence et de débit avant de benchmarker afin que les décisions hardware et batching soient basées sur des exigences réelles
  • Exécuter les évaluations d'exactitude de quantisation sur un ensemble de données représentatif spécifique à la tâche, pas seulement des benchmarks génériques
  • Instrumenter l'inférence dès le premier jour, les équipes qui ajoutent l'observabilité tôt itèrent beaucoup plus rapidement sur l'optimisation des performances
  • Traiter les configurations de serveur de modèles comme du code (versionné, examiné, testé) pour éviter une dérive de configuration entre les environnements

Erreurs fréquentes

  • Utiliser par défaut un serveur REST synchrone simple sans considérer le batching continu, ce qui entraîne une sous-utilisation sévère du GPU à grande échelle
  • Appliquer une quantisation agressive (INT4) sans valider la dégradation d'exactitude sur la tâche spécifique, causant des régressions de qualité silencieuses en production
  • Sur-provisionner les instances GPU en fonction de la charge de pointe sans implémenter l'autoscaling, entraînant des coûts d'infrastructure excessifs
  • Ignorer le dimensionnement du KV-cache et les politiques d'éviction, causant des pics de latence imprévisibles sous charge concurrente

Quand NE PAS suivre cette formation

Cette formation n'est pas appropriée pour les équipes qui n'ont pas encore entraîné ou fine-tuné un modèle et évaluent toujours si le ML est la bonne solution, elles ont besoin d'un programme de stratégie ou de littératie IA d'abord, pas d'une profondeur d'infrastructure.

Fournisseurs à considérer

Sources

Cas d'usage que cette formation débloque

Autres formations à ce niveau

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.