Statistiques descriptives
Distributions et représentations graphiques (graphes)
Mesures
- Tendances centrales: moyenne, médiane, mode, ...
- Dispersion: écart-type, étallement)
- Dépendance
- Qualitatif x Qualitatif : Test de khi-deux
- Qualitatif x Quantitatif : Analyse de variance
- Quantitatif x Quantitatif : Régression linéaire ou multiple.
Définition
- Unités statistiques
- Unité, objet, individu ou group susceptible d'être interrogé.
- Population
- Ensemble des unités statistiques {}
- Échantillon
- Sous-ensemble de la population. (échantillon ⊆ population)
- Variables
- Questions posées (peut être aléatoire). Exemple: # de personnes, # d'enfants, revenu, langue.
- Classement des variables
- Qualitative (mot, qualité, adjectif).
- Quantitative discrète
- Quantitative continue
Variables discrètes
Diagramme à batôns (peut avoir plusieurs variables)
xi | ni | xini | ni↑ |
---|---|---|---|
Somme | 20 | 29 | 29 |
0 | 2 | 0 | 2 |
1 | 10 | 10 | 12 |
2 | 5 | 10 | 17 |
3 | 3 | 9 | 20 |
x | n | f |
---|---|---|
Somme | 770 | 100,00% |
1 | 125 | 16,23% |
2 | 200 | 25,97% |
3 | 295 | 38,32% |
4 | 100 | 12,99% |
5 | 50 | 6,49% |
6 | 0 | 0,00% |
- xi
- valeur
- ni
- effectifs (frequency)
- ∑ni
- Effectif total (Somme des effectifs)
- =n
- ni↑
- Effectif cumulatif
- fi
- Fréquence (relative frequency)
- = ni/n
- ∑fi
- = 1
Mesure de tendance centrale
Moyenne
Vrac: x : ∑(xi)/n
Tableau: x : ∑(xini)/n
Avantage: simple à calculer et à interpréter.
Défauts: Inutile si les données sont qualitatives. Les côtés extrêmes (extravagantes) faussent l'interprétation. Voir la médiane.
Médiane
Au moins 50% des données sont plus petite ou égales (≤) à la valeur médiane. Au moins 50% des données sont plus grandes ou égales (≥) à la médiane. Lorsque la médiane est entre deux xi, on fait, par convention, la moyenne des deux xi. Toutefois, on peut aussi dire que les deux xi sont des médianes. Pour calculer la médiane, les données doivent être préalablement triées en ordre.
Mode
Données qui revient le plus souvent, les plus fréquentes. Il peut y avoir plusieurs modes dans un échantillon. Exemple: {1,1,1,1,2,3,4,5,5,5,5} : le mode est 1 et 5. On dit qu'une courbe est bi-modale si elle possède deux modes.
Avantage: utile avec les données qualitatives.
Quartile
Q1: 25% ≤ xi ≤ 75%. Q2: médiane. Q3: 75% ≤ xi ≤ 25%.
Biais et symétrie
Une distribution est symétrique si la moyenne est égale à la médiane.
Asymétrie positive (biaisé positivement ou à droite): si la moyenne est plus grande que la médiane.
Asymétrie négative (biaisé négativement ou à gauche): si la moyenne est plus petite que la médiane.
Boites à moustaches
Possède le premier quartile, le troisième quartile, la médiane et la moyenne.
Permet de répérer certaines données extravagantes (en dehors des limites).
Limite inférieure (Li): Q1 - 1.5 (Q3-Q1) ou le minimum des xi s'il est plus grand.
Limite supérieure (Ls): Q1 + 1.5 (Q3-Q1) ou le maximum des xi s'il est plus petit.
Défaut: ne sert à rien pour les données qualitatives. Extrêmes des 2 côtés.
Mesures de dispersion
- Plage (étendue ou range)
- maximum - minimum
- Écart-type (standard deviation)
- s = racine carrée de la variance.
- Variance
- Vrac: s2 = (∑(xi - x)2)/(n-1)
- Vrac: s2 = (∑(xi2) - ((∑Xi)/n)2)/(n-1)
- Tableau: s2 = (∑(xi - x)2*ni)/(n-1)
- Tableau: s2 = (∑(xi2*ni) - ((∑Xi*ni)/n)2)/(n-1)
Note: le "-1" vient qu'en moyenne, on tombe sur la valeur moyenne de la population en augmentant la réponse.
Variables continues
Histogramme
Le nombre doit être proportionnel à la surface (aire).
On peut aussi représenter graphiquement les variables continues selon le pourcentage.
Note: peut aussi représenter les variables discrètes avec un grand nombre de valeurs.
- Classes
- [ai, bi[. Ex: [10,15[ ou 10 inclusivement à 15 exclusivement ou 10 ≤ x < 15.
- Centre de classe
- xi = (ai + bi)/2.
- Amplitude
- bi - ai. Ex. [10,15[ 15-10 = 5.
Les interprétations du théorème de Tchebychev
Selon Techbychev, la quantité de données situées au delà de k * l'écart-type de la moyenne x est d'au plus 1/(k2). k > 1.
On utilise généralement la constante k = 2.
k | 1/(k2) (externe) | 1-1/(k2) (interne) | normale (interne)* |
---|---|---|---|
2 | 25% | 75% | 95,4% |
2,5 | 16% | 84% | 98,8% |
3 | 11% | 89% | 99,7% |
* calculé à l'aide de la calculatrice TI-92 Plus avec la fonction normcdf(-k,k)
Exercice: faire un intervalle qui contient au moins 80% des données. 1-80% = 1/(k2). 1/5 = 1/(k2). k = √(5). Intervalle: moyenne ± √(5) * ecart-type.
Combinaison de la moyenne et de l'écart-type
1. Pour situer un groupe: coefficient de variation. CV = s/x. Le coefficient de variation est égale à l'écart-type divisé par la moyenne. Il est habituellement écrit sous forme de pourcentage.
2. Situer un objet ou un individu. On utilise la côte Z d'un nombre. Zx = (x - x)/s
3. Asymétrie (skewness): ∑(xi-x)3/(n-1)/(s3).
- > 0: biais positif (à droite). La moyenne est plus grande que la médiane.
- = 0: symétrie. La moyenne est égale à la médiane.
- < 0: biais négatif (à gauche). La moyenne est plus petite que la médiane.
4. Coefficient d'aplatissement: Kurtosis. ∑(xi-x)4/(n-1)/(s4)-3. On peut l'interprété seulement si le biais est peu prononcé (plus petit que 1).
- > 0: courbe étirée, leptocurtique
- = 0 : courbe normale
- < 0: courbe aplatie.
moment | Géométrie | Formule | Mesure |
---|---|---|---|
1er moment | ∑(xi) | ∑(xi)/n | moyenne |
2e moment | ∑(xi-x)2 | ∑(xi-x)2/(n-1) | variance |
3e moment | ∑(xi-x)3 | ∑(xi-x)3/(n-1)/(s3) | skewness |
4e moment | ∑(xi-x)4 | ∑(xi-x)4/(n-1)/(s4)-3 | kurtosis |
Autre
Paretaux: diagrammes (bâtonnet) en ordre. Intéressant lorsque que les bâtonnets se détachent.
Tranformation linéaire
y' = ax' + b (y' et x' sont les moyennes)
sy = |a|sx (sy et sx sont les écart-types)
Si l'on multiplie toutes les valeurs par un facteur a, la moyenne est multipliée par un facteur a. Si on augmente chaque nombre de b, la moyenne augmente de b.
Si l'on multiplie toutes les valeurs par un facteur a, l'écart-type est multiplié par un facteur |a|. Si on augmente chaque nombre de b, l'écart-type ne bouge pas.
Exemple:
Échantillon de x. Moyenne x' de 40000 Écart-type sx de 2000 CV = sx/x' = 2000/40000 = 5% Augmentation de 10% pour chaque x. Puis, suppression de 800 pour chacun des x. y' = (100%+10%) * x' - 800 = 43200 sy = (100%+10%) * sx = 2200 Nouveau CV: sy/y' = 2200/43200 = 5,1%
Dernière modification: 2004-10-04 22:47:29 par Yan Morin
Hébergé par ProgYSM