FORMATION IA

Fondamentaux de l'ingénierie des features pour le ML

Transformez vos données brutes en features de qualité pour améliorer significativement vos modèles de machine learning.

Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit

Format: bootcamp
Durée: 14-24h
Niveau: practitioner
Taille de groupe: 6-16
Prix / participant: €1K-€3K
Prix groupe: €8K-€18K
Public: Analystes de données et professionnels de l'informatique décisionnelle en transition vers des rôles d'apprentissage automatique
Prérequis: Connaissances pratiques de Python et pandas ; familiarité avec les concepts de base du ML supervisé (train/test split, métriques d'évaluation de modèle)

Ce qu'elle couvre

Cette formation de niveau praticien apprend aux analystes et professionnels de la donnée à construire des features de manière systématique à partir de données structurées et semi-structurées. Les participants maîtrisent les stratégies d'encodage catégoriel, la normalisation des variables numériques, la création de features d'interaction et temporelles, ainsi que la prévention des fuites de cible. La formation alterne théorie et ateliers pratiques en Python (pandas, scikit-learn) sur des jeux de données réels, et se conclut par une introduction aux feature stores pour les pipelines en production. Les participants repartent avec un guide de référence réutilisable applicable immédiatement à leurs projets.

À l'issue, vous saurez

Appliquer au moins cinq stratégies de codage catégorique et justifier laquelle utiliser pour un ensemble de données et un type de modèle donnés
Construire des caractéristiques temporelles incluant des variables de décalage, des agrégats glissants et des codages cycliques à partir de colonnes datetime brutes
Détecter et éliminer la fuite de cible dans un pipeline de caractéristiques en utilisant une division chronologique des ensembles de validation
Implémenter un pipeline de transformation de caractéristiques réutilisable en utilisant scikit-learn Pipeline et ColumnTransformer
Enregistrer et récupérer des caractéristiques à partir d'une configuration de feature store basique en utilisant Feast ou Hopsworks

Sujets abordés

Codage catégorique : ordinal, one-hot, target, et codage par fréquence
Mise à l'échelle numérique : min-max, standardisation, robust scaling, transformations logarithmiques
Caractéristiques d'interaction et construction de caractéristiques polynomiales
Extraction de caractéristiques temporelles et basées sur les dates (lag, fenêtres glissantes, saisonnalité)
Gestion des valeurs manquantes comme caractéristiques par rapport aux stratégies d'imputation
Détection et prévention de la fuite de cible (target leakage)
Méthodes de sélection de caractéristiques : approches filter, wrapper et embedded
Introduction aux feature stores (Feast, Hopsworks) pour la réutilisation en production

Modalité

Livrée sur deux à trois jours soit en personne soit en direct virtuel (Zoom/Teams). Environ 40 % d'instruction conceptuelle et 60 % de travaux pratiques. Chaque module associe une courte conférence à un exercice Jupyter notebook sur un ensemble de données réel (e-commerce ou financier). Les participants reçoivent un dépôt GitHub contenant tous les matériels, une checklist d'ingénierie de caractéristiques et un modèle de pipeline sklearn réutilisable. La livraison à distance nécessite que les participants disposent de Python 3.10+ et d'un environnement conda configuré (guide de configuration fourni à l'avance).

Ce qui fait que ça marche

Ancrer chaque exercice à un ensemble de données commerciales réelles que les participants reconnaissent, augmentant la pertinence et la rétention
Introduire les feature stores tôt pour que les participants voient comment les caractéristiques construites sont réutilisées en production plutôt que recréées par modèle
Associer la formation en ingénierie de caractéristiques à un module d'évaluation de modèle afin que les participants puissent mesurer l'impact de chaque transformation
Encourager les participants à apporter leur propre ensemble de données pour un exercice capstone lors de la dernière session

Erreurs fréquentes

Encoder la variable cible avant de diviser les données, causant une fuite qui gonfle les scores de validation
Appliquer la mise à l'échelle ou le codage ajusté sur l'ensemble complet des données plutôt que uniquement sur les replis d'entraînement
Créer des dizaines de caractéristiques d'interaction sans étape de sélection, menant à la malédiction de la dimensionnalité
Traiter l'ingénierie de caractéristiques comme une étape ponctuelle plutôt que de construire des pipelines de transformation reproductibles et versionnés

Quand NE PAS suivre cette formation

Cette formation ne convient pas aux équipes qui n'ont pas encore établi un flux de travail ML de base, si les participants n'ont jamais formé et évalué un modèle de bout en bout, un cours de ML fundamentals plus large devrait être suivi en premier.

Fournisseurs à considérer

Sources

Autres formations à ce niveau

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.

Lancer le diagnostic Réserver un appel