Altitud
Édition · 25 mai 2026
Toutes les formations

FORMATION IA

Déploiement de l'IA en périphérie pour les équipes embarquées et IoT

Déployez des modèles IA optimisés directement sur les appareils, en équilibrant précision, latence, consommation et contraintes thermiques.

Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit

Lancer le diagnostic
Format
bootcamp
Durée
24-40h
Niveau
practitioner
Taille de groupe
4-14
Prix / participant
€2K-€4K
Prix groupe
€18K-€45K
Public
Ingénieurs logiciels embarqués, développeurs firmware et architectes de plateformes IoT déployant l'inférence ML sur appareil
Prérequis
Compétences solides en programmation Python ou C/C++ ; connaissance pratique des concepts ML fondamentaux (entraînement, inférence) ; familiarité avec au moins une plateforme embarquée ou IoT (Raspberry Pi, STM32, ESP32, mobile, ou similaire)

Ce qu'elle couvre

Ce programme de niveau praticien donne aux ingénieurs embarqués et IoT toutes les compétences nécessaires pour mettre en production des inférences IA sur du matériel contraint. Les participants travaillent en pratique avec ONNX, TensorFlow Lite, Core ML et des runtimes LLM edge comme Llama.cpp et llamafile, en couvrant la quantisation, l'élagage et les optimisations spécifiques au matériel. Les sessions abordent les contraintes réelles : budget batterie, limitation thermique, mémoire restreinte et mises à jour de modèles en OTA. Le format combine des modules conceptuels courts avec des exercices de laboratoire sur des appareils physiques ou émulés.

À l'issue, vous saurez

  • Convertir un modèle PyTorch ou TensorFlow entraîné en formats ONNX, TFLite et Core ML, et valider la parité entre runtimes
  • Appliquer la quantification post-entraînement INT8 et mesurer les compromis précision-latence sur un appareil cible
  • Exécuter un LLM quantifié (Llama.cpp ou llamafile) sur un appareil edge et profiler les tokens-par-seconde par rapport aux budgets thermique et batterie
  • Concevoir et implémenter un pipeline d'inférence économe en énergie respectant les contraintes de cycle de travail sur matériel alimenté par batterie
  • Construire et exécuter un workflow de mise à jour de modèle OTA avec sécurité de rollback sur un appareil IoT représentatif

Sujets abordés

  • Conversion de modèles et interopérabilité : ONNX, TensorFlow Lite, Core ML
  • Quantification (INT8, FP16) et élagage structuré pour cibles edge
  • Runtimes LLM edge : Llama.cpp, llamafile, MLC LLM
  • Accélérateurs matériels : NPUs, DSPs, microcontrôleurs GPU (ARM Ethos, Apple Neural Engine)
  • Analyse de budget batterie et ordonnancement d'inférence économe en énergie
  • Gestion thermique et stratégies de limitation
  • Mises à jour de modèles OTA et versioning sur appareils contraints
  • Benchmarking de la latence, débit et empreinte mémoire sur matériel réel

Modalité

Livré sous forme d'un bootcamp intensif de 3 à 5 jours, sur site ou à distance avec kits matériels expédiés aux participants à l'avance. Environ 60 % de travaux pratiques en laboratoire, 40 % d'instruction guidée. Les participants reçoivent une carte de référence (p. ex. Raspberry Pi 5 ou kit de développement STM32) ou utilisent leur propre plateforme cible. Les labos utilisent des chaînes d'outils basées sur Docker pour minimiser les frictions de configuration. La livraison à distance utilise le matériel cloud partagé via SSH lorsque l'expédition physique n'est pas possible.

Ce qui fait que ça marche

  • Commencer par un benchmark hardware-in-the-loop au début du projet pour fixer les contraintes réalistes avant la sélection du modèle
  • Adopter une discipline de fiche de modèle enregistrant la précision, la latence, la consommation d'énergie et le comportement thermique pour chaque modèle candidat
  • Impliquer les ingénieurs firmware et ML dans des revues de conception conjointes afin que les budgets énergétiques soient convenus avant l'entraînement
  • Utiliser des tests de régression automatisés qui exécutent le pipeline d'inférence sur l'appareil cible en CI/CD, détectant les régressions avant la release

Erreurs fréquentes

  • Tenter de déployer des modèles en précision complète FP32 sans quantification, puis découvrir que l'appareil manque de budget mémoire et calcul au moment de l'intégration
  • Ignorer la limitation thermique lors d'inférence soutenue, entraînant des pics de latence imprévisibles en production
  • Traiter la précision du modèle sur benchmarks de bureau comme proxy pour la précision sur appareil sans re-validation après quantification
  • Ignorer la planification de mise à jour OTA jusqu'à tard dans le cycle de vie du produit, aboutissant à des processus de reflashing manuels fragiles

Quand NE PAS suivre cette formation

Si l'équipe expérimente encore avec l'architecture du modèle et n'a pas atteint une précision stable sur les benchmarks de bureau, l'optimisation du déploiement edge est prématurée, le modèle devra être réentraîné, invalidant tout le travail de quantification et conversion effectué pendant ce bootcamp.

Fournisseurs à considérer

Sources

Cas d'usage que cette formation débloque

Autres formations à ce niveau

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.