Devoir de Philosophie

statistique (linguistique) - Langues et Linguistique.

Publié le 07/05/2013

Extrait du document

statistique (linguistique) - Langues et Linguistique. 1 PRÉSENTATION statistique (linguistique), ensemble des données numériques qui concernent une unité linguistique quelconque (phonème, morphème, mot, etc.). 2 D'UNE TRADITION À L'AUTRE Si les linguistes français éprouvent, en général, une certaine méfiance à l'égard des données statistiques, qu'ils n'utilisent que très partiellement, et dans des domaines spécifiques, comme en lexicologie et en stylistique, d'autres traditions linguistiques, notamment dans les pays nordiques, affectionnent les données quantitatives, auxquelles elles font appel d'une manière quasi systématique, dans tous les domaines de la linguistique. On peut, par exemple, citer les travaux du linguiste Harald Weinrich sur le système temporel du français (voir H. Weinrich, le Temps, Paris, Seuil, 1973). En se fondant sur des données statistiques, ce linguiste a proposé un traitement du système temporel du français qui, bien que se rapprochant du traitement d'Émile Benveniste, demeure original. Weinrich distingue deux types de formes temporelles : les temps commentatifs et les temps narratifs. Les premiers (qui contiennent le présent, le passé composé et le futur) se rencontrent principalement dans les textes commentatifs, alors que les temps narratifs (qui comportent le passé simple, l'imparfait, le plus-que-parfait et le conditionnel) se rencontrent plutôt dans les récits. Ainsi, le traitement de Weinrich se fonde de manière cruciale sur des données quantitatives caractérisant chacun des deux registres. Depuis le milieu des années quatre-vingt, les linguistes disposent en France d'une base de données assez conséquente (contenant quelque deux cents millions de mots-occurrences), permettant toutes sortes de recherches statistiques, et interrogeable en ligne : il s'agit de FRANTEXT, corpus mis au point par l'Institut national de la langue française (INaLF). 3 LA STATISTIQUE DANS LES DIFFÉRENTS DOMAINES DE LA LINGUISTIQUE La quantification des données linguistiques peut intéresser tous les aspects du langage. Ainsi, la statistique lexicale -- définie comme l'application de méthodes statistiques à la description du vocabulaire -- s'intéresse notamment à la fréquence des unités lexicales, c'est-à-dire le nombre d'occurrences d'une unité linguistique dans un corpus donné. Ces données quantitatives peuvent avoir des utilités diverses, comme par exemple l'étude stylistique des textes (les oppositions stylistiques à l'intérieur d'un même texte, ou entre des textes d'auteurs différents), la datation des productions textuelles, ou encore la détermination du vocabulaire de base d'une langue donnée (voir plus bas « Le français fondamental «). En phonologie, par exemple, on peut étudier le nombre et la fréquence des phonèmes dans une langue donnée. Mais c'est surtout dans le domaine de la théorie de l'information que les données statistiques sont considérées comme particulièrement pertinentes. En effet, le message linguistique est perçu comme contenant une certaine quantité d'informations, qui varie selon la probabilité de l'apparition de chacun des éléments qu'il comporte. Or, la probabilité de l'apparition d'un élément linguistique est liée à sa fréquence. Aussi, plus un élément est fréquent -- donc probable --, moins il est informatif. 4 LE FRANÇAIS FONDAMENTAL On peut s'appuyer sur les données statistiques pour assurer une large diffusion au vocabulaire fondamental d'une langue donnée. Ainsi, contrairement à son homologue britannique -- le basic english --, déterminé sur la base de raisonnements logiques, le français fondamental a été déterminé sur la base de considérations statistiques. Il s'est avéré nécessaire de définir les mots les plus employés par les locuteurs, pour les enseigner aux étrangers. Diverses listes ont ainsi été établies (le français élémentaire, le français fondamental), fondées sur des enquêtes concernant la fréquence des unités lexicales et leur probabilité d'occurrence -- celle-ci étant sujette à des variations en fonction de la situation de la communication. Microsoft ® Encarta ® 2009. © 1993-2008 Microsoft Corporation. Tous droits réservés.

Liens utiles