Machine Learning avec Python – PythonIA

Machine Learning avec Python

Objectifs:

- Comprendre les principes fondamentaux du Machine Learning (supervisé, non supervisé, renforcement)

- Préparer et transformer des données pour l'entraînement de modèles avec scikit-learn

- Entraîner et évaluer des modèles de classification, régression et clustering

- Découvrir les bases du Deep Learning avec TensorFlow/Keras

Tarif inter / participant
2 500 € HT

📄 Programme (PDF) 📅 Voir les dates

Public visé

Professionnels en reconversion avancée vers la data science

analystes souhaitant comprendre les principes et la mise en œuvre du Machine Learning avec Python, afin d’intégrer des projets d’ingénierie ML ou d’analyse prédictive de données (immobilier, finance).

Objectifs pédagogiques

Comprendre les principes fondamentaux du Machine Learning (supervisé, non supervisé, renforcement)

Préparer et transformer des données pour l'entraînement de modèles avec scikit-learn

Entraîner et évaluer des modèles de régression (linéaire, polynomiale, régularisation)

Entraîner et évaluer des modèles de classification (logistique, arbres de décision, Random Forest)

Appliquer des techniques de clustering (K-Means, DBSCAN, hiérarchique)

Découvrir les bases du Deep Learning avec TensorFlow/Keras

Réaliser un pipeline ML complet de bout en bout sur des données réelles

Prérequis

Connaissances de base en Python (variables, fonctions, boucles, structures de données)

Notions élémentaires de mathématiques (statistiques descriptives, algèbre de base)

Avoir suivi la formation Python Débutant ou justifier d'un niveau équivalent

Disposer d'un ordinateur avec Python 3.x et accès internet

Méthodes pédagogiques

Alternance de théorie (40%) et de pratique (60%)

Exposés interactifs, démonstrations de modèles ML en direct

TP individuels et en équipe avec scikit-learn, TensorFlow/Keras, Jupyter Notebook

Pédagogie active : résolution de problèmes collaboratifs, analyse de résultats en groupe

Supports de cours numériques et fichiers d'exercices (accès pérenne)

Certification visée : RS6763 – Manipuler, analyser et visualiser des données grâce aux modules Python de Data Science

Programme détaillé

JOUR 1 — Fondamentaux du Machine Learning

Introduction au ML : définition, types d'apprentissage, applications

Apprentissage supervisé vs non supervisé vs par renforcement

Pipeline ML : données → préparation → entraînement → évaluation → déploiement

Concepts clés : features, labels, modèle, prédiction

Biais et variance : underfitting, overfitting, compromis

Train/test split : importance, stratification, validation croisée

Introduction à scikit-learn : installation, conventions, API

■ Travaux pratiques :
→ TP1 : Exploration d'un dataset classique (Iris, Titanic)
→ TP2 : Premier modèle de classification avec scikit-learn
→ TP3 : Analyse de l'impact du train/test split sur les performances

JOUR 2 — Préparation des données et régression

Feature engineering : création, sélection, importance des features

Gestion des valeurs manquantes : stratégies d'imputation

Encodage des variables catégorielles : OneHot, Label, Target encoding

Normalisation et standardisation : MinMaxScaler, StandardScaler

Régression linéaire : principe, équation, interprétation

Régression polynomiale et régularisation (Ridge, Lasso)

Métriques de régression : MSE, RMSE, MAE, R²

■ Travaux pratiques :
→ TP1 : Pipeline de préparation de données complet
→ TP2 : Prédiction de prix immobiliers (régression linéaire)
→ TP3 : Comparaison des techniques de régularisation

JOUR 3 — Classification et clustering

Régression logistique : principe, fonction sigmoïde, seuil

Arbres de décision : construction, critères, visualisation

Random Forest : ensemble learning, bagging, feature importance

Métriques de classification : accuracy, precision, recall, F1-score

Matrice de confusion et courbe ROC

K-Means clustering : principe, choix de k, méthode du coude

DBSCAN et clustering hiérarchique : comparaison

■ Travaux pratiques :
→ TP1 : Classification de spam (emails) avec Random Forest
→ TP2 : Segmentation clients par clustering K-Means
→ TP3 : Comparaison de modèles de classification sur un même dataset

JOUR 4 — Introduction au Deep Learning et projet final

Réseaux de neurones : perceptron, couches, activation

Architecture MLP : couches denses, forward propagation

Introduction à TensorFlow/Keras : installation, Sequential API

Entraînement : epochs, batch size, loss, optimizers

Réduction de dimension : PCA, t-SNE pour visualisation

Transfer learning : concept et cas d'usage

Sauvegarde et chargement de modèles

■ Travaux pratiques :
→ TP1 : Classification d'images MNIST avec réseau de neurones
→ TP2 : Visualisation de données haute dimension avec PCA/t-SNE
→ TP3 (Projet final) : Pipeline ML complet de bout en bout sur données réelles

Évaluation

Test de positionnement en début de formation

Évaluations formatives : exercices pratiques corrigés, analyse de résultats en groupe, QCM intermédiaires

QCM final de 30 questions (Jour 4) — critère de réussite : 60%

Attestation de fin de formation délivrée