Machine Learning avec Python
Objectifs:
- Comprendre les principes fondamentaux du Machine Learning (supervisé, non supervisé, renforcement)
- Préparer et transformer des données pour l'entraînement de modèles avec scikit-learn
- Entraîner et évaluer des modèles de classification, régression et clustering
- Découvrir les bases du Deep Learning avec TensorFlow/Keras
Objectifs:
- Comprendre les principes fondamentaux du Machine Learning (supervisé, non supervisé, renforcement)
- Préparer et transformer des données pour l'entraînement de modèles avec scikit-learn
- Entraîner et évaluer des modèles de classification, régression et clustering
- Découvrir les bases du Deep Learning avec TensorFlow/Keras
Public visé
- Professionnels en reconversion avancée vers la data science
- analystes souhaitant comprendre les principes et la mise en œuvre du Machine Learning avec Python, afin d’intégrer des projets d’ingénierie ML ou d’analyse prédictive de données (immobilier, finance).
Objectifs pédagogiques
- Comprendre les principes fondamentaux du Machine Learning (supervisé, non supervisé, renforcement)
- Préparer et transformer des données pour l'entraînement de modèles avec scikit-learn
- Entraîner et évaluer des modèles de régression (linéaire, polynomiale, régularisation)
- Entraîner et évaluer des modèles de classification (logistique, arbres de décision, Random Forest)
- Appliquer des techniques de clustering (K-Means, DBSCAN, hiérarchique)
- Découvrir les bases du Deep Learning avec TensorFlow/Keras
- Réaliser un pipeline ML complet de bout en bout sur des données réelles
Prérequis
- Connaissances de base en Python (variables, fonctions, boucles, structures de données)
- Notions élémentaires de mathématiques (statistiques descriptives, algèbre de base)
- Avoir suivi la formation Python Débutant ou justifier d'un niveau équivalent
- Disposer d'un ordinateur avec Python 3.x et accès internet
Méthodes pédagogiques
- Alternance de théorie (40%) et de pratique (60%)
- Exposés interactifs, démonstrations de modèles ML en direct
- TP individuels et en équipe avec scikit-learn, TensorFlow/Keras, Jupyter Notebook
- Pédagogie active : résolution de problèmes collaboratifs, analyse de résultats en groupe
- Supports de cours numériques et fichiers d'exercices (accès pérenne)
Certification visée : RS6763 – Manipuler, analyser et visualiser des données grâce aux modules Python de Data Science
Programme détaillé
JOUR 1 — Fondamentaux du Machine Learning
- Introduction au ML : définition, types d'apprentissage, applications
- Apprentissage supervisé vs non supervisé vs par renforcement
- Pipeline ML : données → préparation → entraînement → évaluation → déploiement
- Concepts clés : features, labels, modèle, prédiction
- Biais et variance : underfitting, overfitting, compromis
- Train/test split : importance, stratification, validation croisée
- Introduction à scikit-learn : installation, conventions, API
■ Travaux pratiques :
→ TP1 : Exploration d'un dataset classique (Iris, Titanic)
→ TP2 : Premier modèle de classification avec scikit-learn
→ TP3 : Analyse de l'impact du train/test split sur les performances
JOUR 2 — Préparation des données et régression
- Feature engineering : création, sélection, importance des features
- Gestion des valeurs manquantes : stratégies d'imputation
- Encodage des variables catégorielles : OneHot, Label, Target encoding
- Normalisation et standardisation : MinMaxScaler, StandardScaler
- Régression linéaire : principe, équation, interprétation
- Régression polynomiale et régularisation (Ridge, Lasso)
- Métriques de régression : MSE, RMSE, MAE, R²
■ Travaux pratiques :
→ TP1 : Pipeline de préparation de données complet
→ TP2 : Prédiction de prix immobiliers (régression linéaire)
→ TP3 : Comparaison des techniques de régularisation
JOUR 3 — Classification et clustering
- Régression logistique : principe, fonction sigmoïde, seuil
- Arbres de décision : construction, critères, visualisation
- Random Forest : ensemble learning, bagging, feature importance
- Métriques de classification : accuracy, precision, recall, F1-score
- Matrice de confusion et courbe ROC
- K-Means clustering : principe, choix de k, méthode du coude
- DBSCAN et clustering hiérarchique : comparaison
■ Travaux pratiques :
→ TP1 : Classification de spam (emails) avec Random Forest
→ TP2 : Segmentation clients par clustering K-Means
→ TP3 : Comparaison de modèles de classification sur un même dataset
JOUR 4 — Introduction au Deep Learning et projet final
- Réseaux de neurones : perceptron, couches, activation
- Architecture MLP : couches denses, forward propagation
- Introduction à TensorFlow/Keras : installation, Sequential API
- Entraînement : epochs, batch size, loss, optimizers
- Réduction de dimension : PCA, t-SNE pour visualisation
- Transfer learning : concept et cas d'usage
- Sauvegarde et chargement de modèles
■ Travaux pratiques :
→ TP1 : Classification d'images MNIST avec réseau de neurones
→ TP2 : Visualisation de données haute dimension avec PCA/t-SNE
→ TP3 (Projet final) : Pipeline ML complet de bout en bout sur données réelles
Évaluation
- Test de positionnement en début de formation
- Évaluations formatives : exercices pratiques corrigés, analyse de résultats en groupe, QCM intermédiaires
- QCM final de 30 questions (Jour 4) — critère de réussite : 60%
- Attestation de fin de formation délivrée
Public visé
- Professionnels en reconversion avancée vers la data science
- analystes souhaitant comprendre les principes et la mise en œuvre du Machine Learning avec Python, afin d’intégrer des projets d’ingénierie ML ou d’analyse prédictive de données (immobilier, finance).
Objectifs pédagogiques
- Comprendre les principes fondamentaux du Machine Learning (supervisé, non supervisé, renforcement)
- Préparer et transformer des données pour l'entraînement de modèles avec scikit-learn
- Entraîner et évaluer des modèles de régression (linéaire, polynomiale, régularisation)
- Entraîner et évaluer des modèles de classification (logistique, arbres de décision, Random Forest)
- Appliquer des techniques de clustering (K-Means, DBSCAN, hiérarchique)
- Découvrir les bases du Deep Learning avec TensorFlow/Keras
- Réaliser un pipeline ML complet de bout en bout sur des données réelles
Prérequis
- Connaissances de base en Python (variables, fonctions, boucles, structures de données)
- Notions élémentaires de mathématiques (statistiques descriptives, algèbre de base)
- Avoir suivi la formation Python Débutant ou justifier d'un niveau équivalent
- Disposer d'un ordinateur avec Python 3.x et accès internet
Méthodes pédagogiques
- Alternance de théorie (40%) et de pratique (60%)
- Exposés interactifs, démonstrations de modèles ML en direct
- TP individuels et en équipe avec scikit-learn, TensorFlow/Keras, Jupyter Notebook
- Pédagogie active : résolution de problèmes collaboratifs, analyse de résultats en groupe
- Supports de cours numériques et fichiers d'exercices (accès pérenne)
Certification visée : RS6763 – Manipuler, analyser et visualiser des données grâce aux modules Python de Data Science
Programme détaillé
JOUR 1 — Fondamentaux du Machine Learning
- Introduction au ML : définition, types d'apprentissage, applications
- Apprentissage supervisé vs non supervisé vs par renforcement
- Pipeline ML : données → préparation → entraînement → évaluation → déploiement
- Concepts clés : features, labels, modèle, prédiction
- Biais et variance : underfitting, overfitting, compromis
- Train/test split : importance, stratification, validation croisée
- Introduction à scikit-learn : installation, conventions, API
■ Travaux pratiques :
→ TP1 : Exploration d'un dataset classique (Iris, Titanic)
→ TP2 : Premier modèle de classification avec scikit-learn
→ TP3 : Analyse de l'impact du train/test split sur les performances
JOUR 2 — Préparation des données et régression
- Feature engineering : création, sélection, importance des features
- Gestion des valeurs manquantes : stratégies d'imputation
- Encodage des variables catégorielles : OneHot, Label, Target encoding
- Normalisation et standardisation : MinMaxScaler, StandardScaler
- Régression linéaire : principe, équation, interprétation
- Régression polynomiale et régularisation (Ridge, Lasso)
- Métriques de régression : MSE, RMSE, MAE, R²
■ Travaux pratiques :
→ TP1 : Pipeline de préparation de données complet
→ TP2 : Prédiction de prix immobiliers (régression linéaire)
→ TP3 : Comparaison des techniques de régularisation
JOUR 3 — Classification et clustering
- Régression logistique : principe, fonction sigmoïde, seuil
- Arbres de décision : construction, critères, visualisation
- Random Forest : ensemble learning, bagging, feature importance
- Métriques de classification : accuracy, precision, recall, F1-score
- Matrice de confusion et courbe ROC
- K-Means clustering : principe, choix de k, méthode du coude
- DBSCAN et clustering hiérarchique : comparaison
■ Travaux pratiques :
→ TP1 : Classification de spam (emails) avec Random Forest
→ TP2 : Segmentation clients par clustering K-Means
→ TP3 : Comparaison de modèles de classification sur un même dataset
JOUR 4 — Introduction au Deep Learning et projet final
- Réseaux de neurones : perceptron, couches, activation
- Architecture MLP : couches denses, forward propagation
- Introduction à TensorFlow/Keras : installation, Sequential API
- Entraînement : epochs, batch size, loss, optimizers
- Réduction de dimension : PCA, t-SNE pour visualisation
- Transfer learning : concept et cas d'usage
- Sauvegarde et chargement de modèles
■ Travaux pratiques :
→ TP1 : Classification d'images MNIST avec réseau de neurones
→ TP2 : Visualisation de données haute dimension avec PCA/t-SNE
→ TP3 (Projet final) : Pipeline ML complet de bout en bout sur données réelles
Évaluation
- Test de positionnement en début de formation
- Évaluations formatives : exercices pratiques corrigés, analyse de résultats en groupe, QCM intermédiaires
- QCM final de 30 questions (Jour 4) — critère de réussite : 60%
- Attestation de fin de formation délivrée