Machine Learning
Publié le 14/10/2025
Extrait du document
«
mgzchm4nc
December 15, 2024
0.0.1
Qu’est-ce que le Machine Learning ?
Le machine learning (ou apprentissage automatique) est une manière pour les ordinateurs
d’apprendre à partir de données, un peu comme un humain qui apprend en observant des exemples.
Plutôt que de lui expliquer toutes les règles possibles, on donne à l’ordinateur des données
(entrées) et leurs résultats (sorties), et il apprend à les relier pour faire des prédictions ou prendre
des décisions.
0.0.2
Exemples concrets simples
1.
Prédiction des prix des maisons
Imaginez qu’on veuille prédire le prix d’une maison en fonction de sa taille.
On a des données comme :
• Maison de 50 m² → 100 000 $
• Maison de 100 m² → 200 000 $
• Maison de 150 m² → 300 000 $
L’ordinateur apprend que plus la maison est grande, plus le prix est élevé.
Cela revient à tracer
une ligne droite qui relie ces données.
Ensuite, si vous lui demandez : “Combien coûte une maison de 120 m² ?”, il utilise la règle qu’il a
apprise (la ligne) pour répondre environ 240 000 $.
2.
Reconnaissance d’images
Prenons un exemple avec des photos de chats et de chiens.
• Vous donnez à l’ordinateur 1 000 images de chats et 1 000 images de chiens, en précisant ce
qui est quoi.
• Il apprend à reconnaître les caractéristiques : les oreilles pointues des chats ou les museaux
des chiens.
• Plus tard, si vous lui montrez une nouvelle image, il pourra deviner si c’est un chat ou un
chien.
0.0.3
Pourquoi les mathématiques sont utilisées ?
Les mathématiques aident simplement à traduire ce processus en équations :
1.
Trouver des relations : Par exemple, “Plus la maison est grande, plus le prix est élevé”
1
devient une formule mathématique.
2.
Faire des choix : L’ordinateur compare plusieurs possibilités pour trouver la meilleure règle
qui colle aux données.
On n’a pas besoin d’entrer dans des calculs compliqués pour comprendre que l’objectif est simplement de trouver un modèle qui correspond le mieux aux données.
0.0.4
La régression multiple
La régression multiple est une méthode de machine learning (et de statistiques) utilisée lorsque
vous voulez prédire une valeur continue en fonction de plusieurs variables d’entrée.
Voici un
contenu structuré pour expliquer ce concept avec simplicité.
0.0.5
Qu’est-ce que la régression multiple ?
La régression multiple est une extension de la régression linéaire simple, où plusieurs variables
indépendantes (ou entrées) sont utilisées pour prédire une variable dépendante (ou sortie).
La relation est modélisée par une équation de la forme :
𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + ⋯ + 𝑤𝑛 𝑥𝑛 + 𝑏
où : - 𝑦 est la variable à prédire (par exemple, le prix d’une maison), - 𝑥1 , 𝑥2 , … , 𝑥𝑛 sont les
variables d’entrée (par exemple, la taille de la maison, le nombre de chambres, l’emplacement,
etc.), - 𝑤1 , 𝑤2 , … , 𝑤𝑛 sont les poids ou coefficients qui indiquent l’importance de chaque variable, 𝑏 est le biais ou l’ordonnée à l’origine.
0.0.6
Exemple concret
Prédire le prix d’une maison Vous voulez prédire le prix (y) d’une maison en fonction de trois
variables :
- 𝑥1 : la taille (en m²),
- 𝑥2 : le nombre de chambres,
- 𝑥3 : la distance du centre-ville (en km).
Si on a les données suivantes : | Taille (m²) | Chambres | Distance (km) | Prix (en $) | |————–
|———-|—————|————-| | 100 | 3 | 10 | 200 000 | | 150 | 4 | 8 | 300 000 | | 80 | 2 | 15 | 150
000 |
Le modèle essaiera de trouver une équation de la forme :
𝑦 = 𝑤1 ⋅ taille + 𝑤2 ⋅ chambres + 𝑤3 ⋅ distance + 𝑏
Supposons que le modèle détermine :
𝑦 = 1000 ⋅ taille + 10 000 ⋅ chambres − 5000 ⋅ distance + 50 000
Prédiction : Pour une maison de 120 m², avec 3 chambres, située à 12 km du centre :
𝑦 = 1000 ⋅ 120 + 10 000 ⋅ 3 − 5000 ⋅ 12 + 50 000
𝑦 = 120 000 + 30 000 − 60 000 + 50 000 = 140 000
2
0.0.7
Étapes de la régression multiple
• Collecter les données : Rassemblez des exemples avec les variables explicatives
(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) et la variable cible (𝑦).
• Prétraitement des données :
– Normalisez ou standardisez les variables (si elles ont des échelles différentes).
– Traitez les valeurs manquantes.
• Créer le modèle : Définissez la relation linéaire entre les entrées et la sortie.
0.0.8
Apprentissage : Trouvez les valeurs des coefficients (𝑤1 , 𝑤2 , … , 𝑤𝑛 ) en minimisant
l’erreur entre les valeurs prédites et les valeurs réelles.
La méthode la plus
courante est la descente de gradient ou les moindres carrés ordinaires (OLS).
Évaluation : Utilisez des métriques comme :
• Erreur quadratique moyenne (MSE) :
𝑀 𝑆𝐸 =
1 𝑛
∑(𝑦 − 𝑦𝑖̂ )2
𝑛 𝑖=1 𝑖
• Coefficient de détermination (𝑅2 ) : Mesure la proportion de la variance expliquée par le
modèle.
Prédiction : Appliquez le modèle pour prédire des valeurs pour de nouvelles données.
0.0.9
Applications courantes de la régression multiple
• Prédictions financières : Estimer les revenus en fonction de la publicité, du marché, etc.
• Santé : Prédire la pression artérielle en fonction de l’âge, du poids, du régime alimentaire.
• Immobilier : Estimer les prix des maisons ou des loyers.
• Environnement : Prédire les niveaux de pollution en fonction des activités humaines et des
conditions météorologiques.
0.0.10
Limites de la régression multiple
• Non-linéarité : Si la relation entre 𝑥 et 𝑦 est non linéaire, la régression multiple peut ne
pas bien fonctionner.
• Multicolinéarité : Si deux ou plusieurs variables d’entrée sont fortement corrélées, cela
peut fausser les coefficients.
• Données aberrantes : Les valeurs extrêmes peuvent influencer les résultats.
3
0.0.11
Codage d’une régression linéaire multiple en Python
0.0.12
Étapes clés et éléments impliqués
• Importation des bibliothèques :
– numpy pour les calculs numériques.
– pandas pour manipuler les données.
– sklearn pour les outils de machine learning.
• Préparation des données :
– Les variables indépendantes (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) représentent les caractéristiques utilisées
pour la prédiction.
– La variable dépendante (𝑦) est ce que vous voulez prédire.
• Division des données :
– Séparez les données en ensembles d’entraînement et de test pour évaluer les performances
du modèle.
• Création et entraînement du modèle :
– Utilisez une classe comme LinearRegression pour ajuster le modèle aux données
d’entraînement.
• Évaluation :
– Vérifiez la performance du modèle en utilisant des métriques comme 𝑅2 ou l’erreur
quadratique moyenne (MSE).
0.0.13
Code Python : Régression linéaire multiple
# 1.
Importation des bibliothèques
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
# 2.
Création d'un jeu de données fictif
# Exemple : Prédiction du prix d'une maison en fonction de plusieurs caractéristiques
data = {
'taille_m2': [50, 60, 70, 80, 100, 120],
'chambres': [2, 2, 3, 3, 4, 4],
'distance_km': [10, 8, 5, 7, 6, 3],
'prix': [150000, 180000, 200000, 240000, 300000, 350000] # Variable cible
}
# Conversion en DataFrame
df = pd.DataFrame(data)
# 3.
Définir les variables indépendantes (X) et dépendante (y)
X = df[['taille_m2', 'chambres', 'distance_km']] # Variables explicatives
y = df['prix'] # Variable cible
# 4.
Diviser les données en ensembles d'entraînement et de test
4
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 5.
Créer et entraîner le modèle de régression linéaire
model = LinearRegression()
model.fit(X_train, y_train)
# 6.
Faire des prédictions sur l'ensemble de test
y_pred = model.predict(X_test)
# 7.
Évaluer les performances
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("Évaluation du modèle :")
print(f"Erreur quadratique moyenne (MSE) : {mse:.2f}")
print(f"Coefficient de détermination (R²) : {r2:.2f}")
# 8.
Coefficients du modèle
print("\nCoefficients du modèle :")
print(f"Intercept (b) : {model.intercept_}")
print(f"Coefficients (w) : {model.coef_}")
# 9.
Prédiction pour une nouvelle maison
nouvelle_maison = np.array([[90, 3, 5]]) # Taille: 90m², 3 chambres, 5km du centre
prix_prevu = model.predict(nouvelle_maison)
print(f"\nPrix prédit pour une maison 90m², 3 chambres, 5km : {prix_prevu[0]:.2f} $")
0.0.14
Explication des éléments en jeu
1.
Les données :
• X (entrées) : Inclut des variables comme la taille de la maison, le nombre de chambres,
la distance, etc.
• y (sortie) : Représente le prix de la maison que l’on cherche à prédire.
2.
Le modèle :
• LinearRegression() ajuste une équation de la forme :
𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑤3 𝑥3 + 𝑏
où 𝑤1 , 𝑤2 , 𝑤3 sont les coefficients et 𝑏 est l’intercept.
3.
Entraînement :
• L’algorithme apprend les valeurs de 𝑤1 , 𝑤2 , 𝑤3 et 𝑏 qui minimisent l’erreur entre les
valeurs prédites et les valeurs réelles.
4.
Métriques d’évaluation :
• MSE (Mean Squared Error) : Mesure l’erreur moyenne des prédictions.
•....
»
↓↓↓ APERÇU DU DOCUMENT ↓↓↓
Liens utiles
- Vers une philosophie du Machine Learning
- La machine infernale prologue
- UN PEU DE SAVOIR [A Little Learning]. (résumé) Evelyn Waugh
- MACHINE INFERNALE (La). Jean Cocteau (résumé)
- HOMME MACHINE (L’). (résumé) de La Mettrie