Devoir de Philosophie

Machine Learning

Publié le 14/10/2025

Extrait du document

« mgzchm4nc December 15, 2024 0.0.1 Qu’est-ce que le Machine Learning ? Le machine learning (ou apprentissage automatique) est une manière pour les ordinateurs d’apprendre à partir de données, un peu comme un humain qui apprend en observant des exemples.

Plutôt que de lui expliquer toutes les règles possibles, on donne à l’ordinateur des données (entrées) et leurs résultats (sorties), et il apprend à les relier pour faire des prédictions ou prendre des décisions. 0.0.2 Exemples concrets simples 1.

Prédiction des prix des maisons Imaginez qu’on veuille prédire le prix d’une maison en fonction de sa taille. On a des données comme : • Maison de 50 m² → 100 000 $ • Maison de 100 m² → 200 000 $ • Maison de 150 m² → 300 000 $ L’ordinateur apprend que plus la maison est grande, plus le prix est élevé.

Cela revient à tracer une ligne droite qui relie ces données. Ensuite, si vous lui demandez : “Combien coûte une maison de 120 m² ?”, il utilise la règle qu’il a apprise (la ligne) pour répondre environ 240 000 $. 2.

Reconnaissance d’images Prenons un exemple avec des photos de chats et de chiens. • Vous donnez à l’ordinateur 1 000 images de chats et 1 000 images de chiens, en précisant ce qui est quoi. • Il apprend à reconnaître les caractéristiques : les oreilles pointues des chats ou les museaux des chiens. • Plus tard, si vous lui montrez une nouvelle image, il pourra deviner si c’est un chat ou un chien. 0.0.3 Pourquoi les mathématiques sont utilisées ? Les mathématiques aident simplement à traduire ce processus en équations : 1.

Trouver des relations : Par exemple, “Plus la maison est grande, plus le prix est élevé” 1 devient une formule mathématique. 2.

Faire des choix : L’ordinateur compare plusieurs possibilités pour trouver la meilleure règle qui colle aux données. On n’a pas besoin d’entrer dans des calculs compliqués pour comprendre que l’objectif est simplement de trouver un modèle qui correspond le mieux aux données. 0.0.4 La régression multiple La régression multiple est une méthode de machine learning (et de statistiques) utilisée lorsque vous voulez prédire une valeur continue en fonction de plusieurs variables d’entrée.

Voici un contenu structuré pour expliquer ce concept avec simplicité. 0.0.5 Qu’est-ce que la régression multiple ? La régression multiple est une extension de la régression linéaire simple, où plusieurs variables indépendantes (ou entrées) sont utilisées pour prédire une variable dépendante (ou sortie). La relation est modélisée par une équation de la forme : 𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + ⋯ + 𝑤𝑛 𝑥𝑛 + 𝑏 où : - 𝑦 est la variable à prédire (par exemple, le prix d’une maison), - 𝑥1 , 𝑥2 , … , 𝑥𝑛 sont les variables d’entrée (par exemple, la taille de la maison, le nombre de chambres, l’emplacement, etc.), - 𝑤1 , 𝑤2 , … , 𝑤𝑛 sont les poids ou coefficients qui indiquent l’importance de chaque variable, 𝑏 est le biais ou l’ordonnée à l’origine. 0.0.6 Exemple concret Prédire le prix d’une maison Vous voulez prédire le prix (y) d’une maison en fonction de trois variables : - 𝑥1 : la taille (en m²), - 𝑥2 : le nombre de chambres, - 𝑥3 : la distance du centre-ville (en km). Si on a les données suivantes : | Taille (m²) | Chambres | Distance (km) | Prix (en $) | |————– |———-|—————|————-| | 100 | 3 | 10 | 200 000 | | 150 | 4 | 8 | 300 000 | | 80 | 2 | 15 | 150 000 | Le modèle essaiera de trouver une équation de la forme : 𝑦 = 𝑤1 ⋅ taille + 𝑤2 ⋅ chambres + 𝑤3 ⋅ distance + 𝑏 Supposons que le modèle détermine : 𝑦 = 1000 ⋅ taille + 10 000 ⋅ chambres − 5000 ⋅ distance + 50 000 Prédiction : Pour une maison de 120 m², avec 3 chambres, située à 12 km du centre : 𝑦 = 1000 ⋅ 120 + 10 000 ⋅ 3 − 5000 ⋅ 12 + 50 000 𝑦 = 120 000 + 30 000 − 60 000 + 50 000 = 140 000 2 0.0.7 Étapes de la régression multiple • Collecter les données : Rassemblez des exemples avec les variables explicatives (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) et la variable cible (𝑦). • Prétraitement des données : – Normalisez ou standardisez les variables (si elles ont des échelles différentes). – Traitez les valeurs manquantes. • Créer le modèle : Définissez la relation linéaire entre les entrées et la sortie. 0.0.8 Apprentissage : Trouvez les valeurs des coefficients (𝑤1 , 𝑤2 , … , 𝑤𝑛 ) en minimisant l’erreur entre les valeurs prédites et les valeurs réelles.

La méthode la plus courante est la descente de gradient ou les moindres carrés ordinaires (OLS). Évaluation : Utilisez des métriques comme : • Erreur quadratique moyenne (MSE) : 𝑀 𝑆𝐸 = 1 𝑛 ∑(𝑦 − 𝑦𝑖̂ )2 𝑛 𝑖=1 𝑖 • Coefficient de détermination (𝑅2 ) : Mesure la proportion de la variance expliquée par le modèle. Prédiction : Appliquez le modèle pour prédire des valeurs pour de nouvelles données. 0.0.9 Applications courantes de la régression multiple • Prédictions financières : Estimer les revenus en fonction de la publicité, du marché, etc. • Santé : Prédire la pression artérielle en fonction de l’âge, du poids, du régime alimentaire. • Immobilier : Estimer les prix des maisons ou des loyers. • Environnement : Prédire les niveaux de pollution en fonction des activités humaines et des conditions météorologiques. 0.0.10 Limites de la régression multiple • Non-linéarité : Si la relation entre 𝑥 et 𝑦 est non linéaire, la régression multiple peut ne pas bien fonctionner. • Multicolinéarité : Si deux ou plusieurs variables d’entrée sont fortement corrélées, cela peut fausser les coefficients. • Données aberrantes : Les valeurs extrêmes peuvent influencer les résultats. 3 0.0.11 Codage d’une régression linéaire multiple en Python 0.0.12 Étapes clés et éléments impliqués • Importation des bibliothèques : – numpy pour les calculs numériques. – pandas pour manipuler les données. – sklearn pour les outils de machine learning. • Préparation des données : – Les variables indépendantes (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) représentent les caractéristiques utilisées pour la prédiction. – La variable dépendante (𝑦) est ce que vous voulez prédire. • Division des données : – Séparez les données en ensembles d’entraînement et de test pour évaluer les performances du modèle. • Création et entraînement du modèle : – Utilisez une classe comme LinearRegression pour ajuster le modèle aux données d’entraînement. • Évaluation : – Vérifiez la performance du modèle en utilisant des métriques comme 𝑅2 ou l’erreur quadratique moyenne (MSE). 0.0.13 Code Python : Régression linéaire multiple # 1.

Importation des bibliothèques import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, r2_score # 2.

Création d'un jeu de données fictif # Exemple : Prédiction du prix d'une maison en fonction de plusieurs caractéristiques data = { 'taille_m2': [50, 60, 70, 80, 100, 120], 'chambres': [2, 2, 3, 3, 4, 4], 'distance_km': [10, 8, 5, 7, 6, 3], 'prix': [150000, 180000, 200000, 240000, 300000, 350000] # Variable cible } # Conversion en DataFrame df = pd.DataFrame(data) # 3.

Définir les variables indépendantes (X) et dépendante (y) X = df[['taille_m2', 'chambres', 'distance_km']] # Variables explicatives y = df['prix'] # Variable cible # 4.

Diviser les données en ensembles d'entraînement et de test 4 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 5.

Créer et entraîner le modèle de régression linéaire model = LinearRegression() model.fit(X_train, y_train) # 6.

Faire des prédictions sur l'ensemble de test y_pred = model.predict(X_test) # 7.

Évaluer les performances mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print("Évaluation du modèle :") print(f"Erreur quadratique moyenne (MSE) : {mse:.2f}") print(f"Coefficient de détermination (R²) : {r2:.2f}") # 8.

Coefficients du modèle print("\nCoefficients du modèle :") print(f"Intercept (b) : {model.intercept_}") print(f"Coefficients (w) : {model.coef_}") # 9.

Prédiction pour une nouvelle maison nouvelle_maison = np.array([[90, 3, 5]]) # Taille: 90m², 3 chambres, 5km du centre prix_prevu = model.predict(nouvelle_maison) print(f"\nPrix prédit pour une maison 90m², 3 chambres, 5km : {prix_prevu[0]:.2f} $") 0.0.14 Explication des éléments en jeu 1.

Les données : • X (entrées) : Inclut des variables comme la taille de la maison, le nombre de chambres, la distance, etc. • y (sortie) : Représente le prix de la maison que l’on cherche à prédire. 2.

Le modèle : • LinearRegression() ajuste une équation de la forme : 𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑤3 𝑥3 + 𝑏 où 𝑤1 , 𝑤2 , 𝑤3 sont les coefficients et 𝑏 est l’intercept. 3.

Entraînement : • L’algorithme apprend les valeurs de 𝑤1 , 𝑤2 , 𝑤3 et 𝑏 qui minimisent l’erreur entre les valeurs prédites et les valeurs réelles. 4.

Métriques d’évaluation : • MSE (Mean Squared Error) : Mesure l’erreur moyenne des prédictions. •.... »

↓↓↓ APERÇU DU DOCUMENT ↓↓↓

Liens utiles