Devoir de Philosophie

Maths

Publié le 03/05/2016

Extrait du document

1 ha pit re C c Introduction à la statistique descriptive Les méthodes de la statistique descriptive (statistique déductive) permettent de mener des études à partir de données exhaustives, c’est-à-dire concernant tous les individus de la population concernée par l’étude. Comme le rappelle André Vessereau (voir bibliographie), l’idée première et toujours fondamentale de la statistique descriptive est celle de dénombrement. Quand les données ne concernent qu’un échantillon de la population, comme dans le cas des sondages, on a recours à la statistique inférentielle (statistique inductive), qui utilise la théorie des probabilités. Globalement, la statistique reste très liée à la science du hasard, puisque les recensements nous fournissent des fréquences d’apparition auxquelles on fait jouer le même rôle qu’à la probabilité. Déjà, les manuscrits de Gottfried Leibniz, rédigés au début des années 1680, se situaient, à partir des travaux de John Graunt, dans la perspective d’une « synthèse entre science de la population et calcul des probabilités ». Ce premier chapitre présente les principales clés de lecture de la statistique. La terminologie usuelle y est exposée, ainsi que la forme et le contenu des tableaux de données. Deux annexes, proposées en fin de chapitre, sont consacrées à la prise en main d’Excel (annexe 1.1), ou de tout autre tableur équivalent, et de deux calculatrices graphiques, Texas Instrument et Casio (annexe 1.2) ou de toute autre calculatrice approchante. L’utilisation de ces outils facilitera la compréhension et la résolution de tous les exemples numériques des parties théoriques et des problèmes et exercices qui suivent. 1 © 2010 Pearson France – Statistique descriptive, 2e éd. – Étienne Bressoud, Jean-Claude Kahané 7494_Book.indb 1 21/10/10 15:54:02 Statistique descriptive 1. Terminologie T Comme toute science, la statistique a son vocabulaire, qu’il est primordial de définir de façon rigoureuse afin d’indiquer le groupe sur lequel porte l’étude, les caractères ou variables relevés sur chacun des individus et les différents types de caractères. 1.1. La population Le terme de population statistique est antérieur à la démographie et s’appliquait à l’origine à des catégories d’humains. Les populations n’étaient en effet pas pensées en bloc, leurs membres n’étant pas considérés comme égaux. Par exemple, on comptait les hommes en état de porter des armes, les individus soumis à l’impôt, etc. La démographie est venue plus tard, avec l’idée d’égalité des individus, qui a mené à la notion de recensement. En statistique, le terme de population est plus général et peut désigner des humains, mais aussi des objets, des villes, des pays, des entreprises, des logements, etc., l’essentiel étant, comme pour la définition d’un ensemble en mathématiques, que l’on puisse dire clairement de tout élément qu’il appartient ou n’appartient pas à la population. Les villes européennes de plus de 100 000 habitants, les voitures immatriculées en France, les départements français d’outre-mer sont autant d’exemples de population. Définition La population statistique est l’ensemble des éléments sur lesquels porte l’étude. Les éléments de la population sont appelés individus statistiques ou unités statistiques. La population constitue l’univers de référence de l’étude. Si la population comporte N individus, on notera Ω = {ω1 … ; ωN}, ωi désignant pour i variant de 1 à N les individus qui la composent. Un échantillon de taille n est un sous-ensemble formé de n individus de la population (n ≤ N). La notion d’échantillon est fondamentale, car, en règle générale, la population entière n’est pas disponible ou observable. Dans ce cas, seul un échantillon est étudié et les résultats obtenus sont extrapolés à la population (voir P. Roger, chapitre 5). Par exemple, lorsqu’un magazine souhaite connaître la personnalité préférée des Français, il interroge seulement un échantillon de Français, généralement 1 000 individus, et non toute la population résidant en France métropolitaine, soit plus de 60 millions d’individus. 1.2. Notion de caractère ou variable statistique Chaque individu d’une population peut être décrit relativement à un ou plusieurs caractères ou variables statistiques. Définition 2 Une variable statistique (on parle aussi de caractère statistique), notée X, est une application définie sur une population statistique et à valeurs dans un ensemble M, appelé ensemble des modalités. Les modalités correspondent aux valeurs possibles de la variable statistique. Une variable statistique définit une partition sur une population, chaque individu appartenant à une et une seule modalité. Si le nombre de modalités est noté r, l’ensemble des modalités de la variable X sera noté : M = {x1 ; x2 ; … ; xr}. © 2010 Pearson France – Statistique descriptive, 2e éd. – Étienne Bressoud, Jean-Claude Kahané 7494_Book.indb 2 21/10/10 15:54:03 Une population statistique Considérons les données suivantes concernant le nombre de femmes et d’hommes dans la population résidant en France métropolitaine en 2006 (en milliers) : Femmes Hommes 31 444 29 722 Source : Insee, recensement de la population, 2007 (champ : France métropolitaine) La population étudiée est la population résidant en France métropolitaine recensée en 2006 et la variable étudiée est le sexe. Cette variable peut prendre deux valeurs possibles appelées modalités : féminin ou masculin. Ces modalités sont en général numérotées : si la variable étudiée, ici le sexe, est notée X, les deux modalités seront respectivement notées x1 (pour féminin) et x2 (pour masculin). Une des premières opérations de la statistique consiste à recenser le nombre et/ou le pourcentage d’individus qui présentent une modalité déterminée d’une variable. C’est ainsi qu’à chaque modalité est associé un effectif et/ou une fréquence. Chapitre 1 Introduction à la statistique descriptive Exemple 1.1 Définitions L’effectif (aussi appelé fréquence absolue) de la modalité xi est noté ni et désigne le nombre d’individus de la population présentant la modalité xi. L’effectif total de la population n est alors : r n = n1 + n2 + … + nr, soit n = ∑n i (la somme des ni pour i variant de 1 à r, et la lettre grecque i=1 sigma, ∑ , désignant la somme). La fréquence (par défaut fréquence relative) de la modalité xi est notée fi et est définie par : fi = ni / N ; la fréquence exprime la proportion d’individus présentant une modalité donnée. Elle peut s’exprimer sous la forme d’un nombre décimal (en général avec une précision de quatre chiffres après la virgule) ou sous la forme d’un pourcentage. Propriété Soit X une variable à r modalités : 0 ≤ fi ≤ 1 r r ∑ f = 1 (ou, en pourcentage : ∑ f = 100 ) i i i=1 i=1 Exemple 1.2 Effectifs et fréquences Reprenons l’exemple précédent sur le sexe des individus de la population résidant en France métropolitaine. Les effectifs respectifs de ces modalités sont notés n1 = 31 444 et n2 = 29 722, avec n = n1 + n2 = 61 166 milliers, effectif total de la population. Les fréquences sont telles que f1 = n1 / n = 31 444 / 61 166 = 0,5141 et f2 = n2 / N = 29 722 / 61 166 = 0,4859, soit 51,41 % de femmes et 48,59 % d’hommes. L’exemple 1.1 a mis en évidence une des deux natures des variables statistiques : la variable qualitative. Le sexe est une variable qualitative, car ses modalités ne sont pas des nombres. Une variable quantitative est une variable dont les modalités sont numériques. 3 © 2010 Pearson France – Statistique descriptive, 2e éd. – Étienne Bressoud, Jean-Claude Kahané 7494_Book.indb 3 21/10/10 15:54:04 Statistique descriptive Le poids d’un individu, l’âge, le nombre d’enfants par ménage, le salaire constituent des exemples de variables quantitatives. 1.3. Les variables qualitatives Définition Une variable statistique est dite de nature qualitative si ses modalités ne sont pas mesurables. Les modalités d’une variable qualitative sont les différentes catégories d’une nomenclature. Ces catégories doivent être exhaustives (chaque individu est affecté à une modalité) et incompatibles (un individu ne peut être affecté à plusieurs modalités) de façon à créer une partition. Le sexe, la profession, l’état matrimonial sont quelques exemples de variables qualitatives. Pour ses enquêtes auprès des ménages, l’Insee utilise la nomenclature des Professions et catégories socioprofessionnelles (PCS-2003). Les modalités d’une variable qualitative peuvent être classées sur deux types d’échelle : nominale ou ordinale. À ces deux types d’échelle correspondent deux types de variables qualitatives. Variables qualitatives nominales Les variables qualitatives nominales ne se mesurent pas. Cependant, leurs modalités peuvent être codées. L’ordre et l’origine de la codification sont arbitraires, cette codification pouvant être numérique, alphabétique ou alphanumérique. Les individus d’une même catégorie sont réputés « équivalents » pour la variable étudiée. Définition Une variable statistique qualitative est dite définie sur une échelle nominale si ses modalités ne sont pas naturellement ordonnées. Exemple 1.3 Codage d’une variable qualitative nominale Le tableau suivant indique les différentes catégories de la variable nominale Professions et catégories socioprofessionnelles (CSP) : Code Catégorie 1 Agriculteurs exploitants 2 Artisans, commerçants et chefs d’entreprise 3 Cadres et professions intellectuelles supérieures 4 Professions intermédiaires 5 Employés 6 Ouvriers 7 Retraités 8 Autres personnes sans activité professionnelle Source : Insee, PCS-2003 (niveau 1 de la nomenclature) Dans cet exemple, il n’y a pas d’ordre naturel entre les huit catégories, ou modalités, qui sont de simples étiquettes ; la variable qualitative « CSP » est définie sur une échelle nominale. 4 © 2010 Pearson France – Statistique descriptive, 2e éd. – Étienne Bressoud, Jean-Claude Kahané 7494_Book.indb 4 21/10/10 15:54:05 Une échelle ordinale suppose l’existence d’une relation d’ordre total entre les catégories, c’est-à-dire que l’on peut opérer un classement de l’ensemble des catégories, de la plus petite à la plus grande (ou, inversement, de la plus grande à la plus petite). Contrairement à ce qui se passe avec une échelle nominale, les expressions telles que « plus grand que », « précède », « se place après », etc. prennent un sens dans une échelle ordinale. La codification peut être numérique, alphabétique ou alphanumérique, en association avec un sens de lecture. En cas de codage numérique, les opérations mathématiques sont dénuées de sens et l’écart entre les valeurs ne revêt aucune signification. Définition Une variable statistique qualitative est dite définie sur une échelle ordinale si l’ensemble de ses modalités peut être doté d’une relation d’ordre. Chapitre 1 Introduction à la statistique descriptive Variables qualitatives ordinales 1.4. Les variables quantitatives Toute variable qui n’est pas qualitative ne peut être que quantitative. Les différentes modalités d’une variable quantitative constituent l’ensemble des valeurs numériques que peut prendre la variable. Définition Une variable statistique est dite de nature quantitative si ses modalités sont mesurables. Les modalités d’une variable quantitative sont des nombres liés à l’unité choisie, qui doit toujours être précisée. Il existe deux types de variables quantitatives : les variables discrètes et les variables continues. Ces variables ont en commun des modalités clairement ordonnées, pour lesquelles l’écart entre les valeurs possède une signification, et sur lesquelles il est possible de réaliser des opérations mathématiques telles que des calculs de moyennes, etc. Néanmoins, elles ont des propriétés et des traitements spécifiques qui nécessitent une étude séparée. Variables quantitatives discrètes Lorsque les modalités sont des valeurs numériques isolées, comme le nombre d’enfants par ménage, on parle de variable discrète1. Définition Une variable statistique quantitative est dite discrète si l’ensemble de ses modalités est un ensemble fini ou dénombrable. Ainsi, l’ensemble des modalités peut être donné sous la forme d’une liste de nombres, M = {x1 ; x2 ; … ; xi ; …}, finie ou infinie. Le plus souvent, les modalités appartiennent à l’ensemble N des entiers naturels (N = {0 ; 1 ; 2 ; …}). Cependant, une variable discrète peut prendre des valeurs non entières. 1. Du latin discretus, qui signi?e « séparé » ; dans un ensemble discret, on peut séparer les éléments. 5 © 2010 Pearson France – Statistique descriptive, 2e éd. – Étienne Bressoud, Jean-Claude Kahané 7494_Book.indb 5 21/10/10 15:54:05 Statistique descriptive Variables quantitatives continues Lorsque la variable, par exemple la taille d’un individu, peut prendre toutes les valeurs d’un intervalle, ces valeurs peuvent alors être regroupées en classes, et on parle dans ce cas de variable continue. Définitions Une variable statistique quantitative est dite continue si l’ensemble de ses modalités n’est pas dénombrable. Ainsi, une variable continue peut prendre toutes les valeurs d’un intervalle. Pour étudier une variable statistique continue, on définit des classes ou intervalles de valeurs possibles. On peut ainsi discrétiser une variable continue (voir section 2.1). Les classes retenues constituent les modalités de la variable. On appelle amplitude de la classe [ai ; bi[ le réel noté Ai représentant la longueur de l’intervalle et défini par : Ai = bi – ai. ai et bi sont respectivement les bornes inférieure et supérieure de la classe ni. Le centre de classe de la classe [ai ; bi[ est le réel noté xi représentant le milieu de l’intervalle et donné par : xi = (ai + bi) / 2 ; c’est la moyenne arithmétique des bornes de la classe. Le centre de classe est appelé à jouer un grand rôle dans les calculs, car le regroupement en classes constitue une perte d’information importante ; nous prendrons l’hypothèse de répartition uniforme à l’intérieur d’une classe, c’est-à-dire de concentration au centre des classes (voir chapitre 2). Exemple 1.4 Calculs d’amplitudes et centres de classes Le tableau suivant indique la structure par âges de la population féminine en France métropolitaine : Âge fi (%) Moins de 15 ans 17,5 15-24 ans 12,3 25-34 ans 12,7 35-44 ans 14,0 45-54 ans 13,6 55-64 ans 11,1 ...

Liens utiles