Devoir de Philosophie

Vers une philosophie du Machine Learning

Publié le 03/04/2018

Extrait du document

philosophie
Jean-Marie JOHN-MATHEWS M2 Lophisc Philosophie des mathématiques Vers une philosophie de l’explication en Machine Learning “The history of the philosophy of mathematics shows that a major conceptual role has been played by the opposition between proofs that convince but do not explain and proofs that in addition to providing the required conviction that the result is true also show why it is true” CITATION Man08 \l 1036 (Mancosu, 2008). Cette phrase issue du livre Philosophy of Mathematical Practice introduit la présentation de Mancosu de la littérature philosophique sur l’explication mathématique des résultats mathématique. Curieusement, bien au-delà de la philosophie des mathématiques, cette phrase est d’une actualité brûlante au sein de la littérature en Machine Learning (apprentissage statistique), la classe de méthodes utilisée la plus fréquemment en intelligence artificielle ces dernières années. En effet, les algorithmes de Machine Learning (ML) conçus pour prédire et détecter des évènements à partir d’une base de données d’apprentissage, semblent connaître actuellement une problématique qui préoccupe les chercheurs et les industriels comme en témoigne les importantes sommes investis en R&D dans la discipline. Cette problématique pourrait se résumer ainsi : la complexité croissante des algorithmes de Machine Learning (due au nombre important de données en entrée, paramètres d’estimation et la paraléllisation des tâches informatiques) rend de moins en moins intelligible la décision et le processus de fabrication des algorithmes. Autrement dit, il semblerait qu’il y ait actuellement une tendance des algorithmes de Machine Learning à tourner en boîte noire (« black box »). Cette tendance induit des problématiques opérationnelles importantes en termes de fluidité de l’interaction homme – machine, de confiance en la décision algorithmique, de droit à l’explication imposée par les juridictions contemporaines, de contrôle éthique des algorithmes, etc. Par conséquent, la littérature actuelle en Machine Learning a développé ces dernières années des méthodes d’explication des algorithmes que nous pourrions schématiser en deux classes : des méthodes d’explication globales par approximation des algorithmes et des méthodes d’explication locale par approximation ponctuelle des résultats. Cette approche duale de l’explication est également observée au sein de l’explication mathématique des résultats mathématiques en philosophie. En effet, selon Mancosu, l’explication intra-mathématique est, d’une part, marquée par un modèle d’explication globale, issu de la philosophie des sciences tel que les modèles de Friedmann et Kitcher. D’autre part, des modèles tels que ceux de Steiner en philosophie des mathématiques constitue selon Mancosu une approche locale de l’explication mathématiques des résultats mathématiques, un modèle d’explication qui sera étendu à l’explication mathématiques des phénomènes physiques en général par Steiner. Il semblerait donc que les modèles d’explication des algorithmes de Machine Learning dans la littérature en intelligence artificielle possède des analogies avec les modèles d’explication des démonstrations mathématiques en philosophie. L’analogie programme-preuve, ou autrement dit algorithme-démonstration, est une correspondance bien étudiée en philosophie des mathématiques, il s’agit de la correspondance de Curry-Howard, un isomorphisme reliant logique mathématique, informatique théorique et théorie de la calculabilité. L’idée de ce devoir est de présenter en quoi les réflexions initiées en philosophie des mathématiques pour réfléchir les démonstrations mathématiques peuvent être éclairantes pour réfléchir l’explication des algorithmes actuels de Machine Learning. Ainsi, nous verrons plus particulièrement comment le modèle global d’explication de Kitcher peut offrir des perspectives intéressantes pour une réflexion de l’explication en intelligence artificielle. Ce travail fait écho aux problématiques rencontrées dans mon ancien métier en tant qu’ingénieur en intelligence artificielle dans l’industrie ainsi qu’à mon travail actuel en philosophie avec Marco Panza, avec lequel nous pensons qu’une réflexion philosophique sur l’explicabilité des algorithmes en Machine Learning est nécessaire et manquante dans les débats actuels en intelligence artificielle. Brève présentation du Machine Learning et du problème de la compréhension Dans cette partie, nous tacherons de présenter très brièvement le fonctionnement des algorithmes d’apprentissage statistique (Machine Learning) et certains de ses concepts fondamentaux. Nous nous focaliserons plus particulièrement sur l’apprentissage supervisée qui est une des classes de méthodes les plus couramment utilisées en intelligence artificielle. Fonctionnement de l’apprentissage supervisé L’apprentissage supervisé est une famille de méthodes en Machine Learning consistant à inférer une fonction mathématique à partir de données d’apprentissage étiquetées, c’est-à-dire un ensemble d’exemples d’apprentissage (« training samples »). En apprentissage supervisé, chaque exemple est une paire (X, Y) d’un input représenté sous la forme d’un vecteur X, qu’on appelle vecteurs de features, et d’un output Y (souvent une variable binaire), le label, dont on cherche à estimer la probabilité. Ainsi, l’objectif de l’analyse supervisée est d’inférer une fonction f qui puisse modéliser la probabilité d’apparition d’Y en fonction du vecteur X afin de pouvoir appliquer la fonction f sur de nouveaux exemples dont on ne connaîtrait pas l’output. Un compromis se dessine immédiatement : il s’agit d’inférer une fonction f qui soit ni trop éloignée ni trop proche des données d’apprentissage afin de pouvoir être convenablement généralisée à de nouvelles données : c’est le compromis biais-variance (« bias-variance trade-off »). Plus formellement, pour N exemples d’apprentissage, x1,y1, …, xN, yN tels que xi est un vecteur de features correspondant au i-ème exemple et yi son label respectif, nous cherchons à estimer une fonction g :χ →Υ, où χ est l’espace contenant les inputs et Υ est l’espace des outputs. Sans rentrer dans les détails des classes de fonctions pour le choix de g, une manière de comprendre g est de la considérer comme la probabilité conditionnelle d’apparition de y sachant la configuration x, ainsi gx=Pyx. Pour estimer g à partir des données d’entrainement, on cherche à ce que g soit « le plus proche possible des labels y », ainsi nous cherchons à minimiser un risque empirique Rempg tel que Rempg= 1Ni=1NL(yi,gxi) avec L : Υ×Υ → R+, une fonction de perte souvent définie comme les moindres carrés, c’est-à-dire Lx,y=x-y2. L’idée des méthodes de Machine Learning récentes, notamment les réseaux de neurones artificiels à couches profondes, à savoir le Deep Learning, est de chercher g au sein d’une classe de fonctions définies comme les composés successifs de plusieurs sous-fonctions appartenant à des sous classes bien définies. Ainsi, g est cherchée telle que g=g1?g2?… ?gk avec k le nombre de couches du réseau de neurones. Ainsi le Deep Learning cherche à estimer une multitude de sous-fonctions gi appartenant à des familles de fonctions particulières, telles que les fonctions linéaires, les fonctions semi-linéaires, les fonctions sigmoïdes, etc. Le travail de l’ingénieur en réseau de neurones est alors de trouver la structure des composés de fonctions gi afin que le risque empirique Rempg soit minimisé. Ce travail s’effectue à l’aide d’heuristiques de programme d’optimisation de fonctions mathématiques dont le fonctionnement ne sera pas précisé ici (voir par exemple Bengio, 2017). Concernant notre travail, nous voyons dès à présent se dessiner, dans la manière dont la fonction g est modélisée, une analogie...
philosophie

« intra-mathématique est, d’une part, marquée par un modèle d’explication globale, issu de la philosophie des sciences tel que les modèles de Friedmann et Kitcher. D’autre part, des modèles tels que ceux de Steiner en philosophie des mathématiques constitue selon Mancosu une approche locale de l’explication mathématiques des résultats mathématiques, un modèle d’explication qui sera étendu à l’explication mathématiques des phénomènes physiques en général par Steiner.

Il semblerait donc que les modèles d’explication des algorithmes de Machine Learning dans la littérature en intelligence artificielle possède des analogies avec les modèles d’explication des démonstrations mathématiques en philosophie.

L’analogie programme-preuve, ou autrement dit algorithme-démonstration, est une correspondance bien étudiée en philosophie des mathématiques, il s’agit de la correspondance de Curry-Howard, un isomorphisme reliant logique mathématique, informatique théorique et théorie de la calculabilité. L’idée de ce devoir est de présenter en quoi les réflexions initiées en philosophie des mathématiques pour réfléchir les démonstrations mathématiques peuvent être éclairantes pour réfléchir l’explication des algorithmes actuels de Machine Learning. Ainsi, nous verrons plus particulièrement comment le modèle global d’explication de Kitcher peut offrir des perspectives intéressantes pour une réflexion de l’explication en intelligence artificielle.

Ce travail fait écho aux problématiques rencontrées dans mon ancien métier en tant qu’ingénieur en intelligence artificielle dans l’industrie ainsi qu’à mon travail actuel en philosophie avec Marco Panza, avec lequel nous pensons qu’une réflexion philosophique sur l’explicabilité des algorithmes en Machine Learning est nécessaire et manquante dans les débats actuels en intelligence artificielle. I) Brève présentation du Machine Learning et du problème de la compréhension Dans cette partie, nous tacherons de présenter très brièvement le fonctionnement des algorithmes d’apprentissage statistique (Machine Learning) et certains de ses concepts fondamentaux.

Nous nous focaliserons plus particulièrement sur l’apprentissage supervisée qui est une des classes de méthodes les plus couramment utilisées en intelligence artificielle.

a) Fonctionnement de l’apprentissage supervisé L’apprentissage supervisé est une famille de méthodes en Machine Learning consistant à inférer une fonction mathématique à partir de données d’apprentissage étiquetées, c’est-à-dire un ensemble d’exemples d’apprentissage (« training samples »).

En apprentissage supervisé, chaque exemple est une paire (X, Y) d’un input représenté sous la forme d’un vecteur X, qu’on appelle vecteurs de features , et d’un output Y (souvent une variable binaire), le label , dont on cherche à estimer la 2. »

↓↓↓ APERÇU DU DOCUMENT ↓↓↓

Liens utiles