Statistiques descriptives

Distributions et représentations graphiques (graphes)

Mesures

  • Tendances centrales: moyenne, médiane, mode, ...
  • Dispersion: écart-type, étallement)
  • Dépendance
    • Qualitatif x Qualitatif : Test de khi-deux
    • Qualitatif x Quantitatif : Analyse de variance
    • Quantitatif x Quantitatif : Régression linéaire ou multiple.

Définition

Unités statistiques
Unité, objet, individu ou group susceptible d'être interrogé.
Population
Ensemble des unités statistiques {}
Échantillon
Sous-ensemble de la population. (échantillon ⊆ population)
Variables
Questions posées (peut être aléatoire). Exemple: # de personnes, # d'enfants, revenu, langue.
Classement des variables
Qualitative (mot, qualité, adjectif).
Quantitative discrète
Quantitative continue

Variables discrètes

Diagramme à batôns (peut avoir plusieurs variables)

xinixinini
Somme202929
0 2 0 2
1101012
2 51017
3 3 920
xnf
Somme770100,00%
112516,23%
220025,97%
329538,32%
410012,99%
5506,49%
600,00%
xi
valeur
ni
effectifs (frequency)
∑ni
Effectif total (Somme des effectifs)
=n
ni
Effectif cumulatif
fi
Fréquence (relative frequency)
= ni/n
∑fi
= 1

Mesure de tendance centrale

Moyenne

Vrac: x : ∑(xi)/n

Tableau: x : ∑(xini)/n

Avantage: simple à calculer et à interpréter.

Défauts: Inutile si les données sont qualitatives. Les côtés extrêmes (extravagantes) faussent l'interprétation. Voir la médiane.

Médiane

Au moins 50% des données sont plus petite ou égales (≤) à la valeur médiane. Au moins 50% des données sont plus grandes ou égales (≥) à la médiane. Lorsque la médiane est entre deux xi, on fait, par convention, la moyenne des deux xi. Toutefois, on peut aussi dire que les deux xi sont des médianes. Pour calculer la médiane, les données doivent être préalablement triées en ordre.

Mode

Données qui revient le plus souvent, les plus fréquentes. Il peut y avoir plusieurs modes dans un échantillon. Exemple: {1,1,1,1,2,3,4,5,5,5,5} : le mode est 1 et 5. On dit qu'une courbe est bi-modale si elle possède deux modes.

Avantage: utile avec les données qualitatives.

Quartile

Q1: 25% ≤ xi ≤ 75%. Q2: médiane. Q3: 75% ≤ xi ≤ 25%.

Biais et symétrie

Une distribution est symétrique si la moyenne est égale à la médiane.

Asymétrie positive (biaisé positivement ou à droite): si la moyenne est plus grande que la médiane.

Asymétrie négative (biaisé négativement ou à gauche): si la moyenne est plus petite que la médiane.

Boites à moustaches

Possède le premier quartile, le troisième quartile, la médiane et la moyenne.

Permet de répérer certaines données extravagantes (en dehors des limites).

Limite inférieure (Li): Q1 - 1.5 (Q3-Q1) ou le minimum des xi s'il est plus grand.

Limite supérieure (Ls): Q1 + 1.5 (Q3-Q1) ou le maximum des xi s'il est plus petit.

Défaut: ne sert à rien pour les données qualitatives. Extrêmes des 2 côtés.

Mesures de dispersion

Plage (étendue ou range)
maximum - minimum
Écart-type (standard deviation)
s = racine carrée de la variance.
Variance
Vrac: s2 = (∑(xi - x)2)/(n-1)
Vrac: s2 = (∑(xi2) - ((∑Xi)/n)2)/(n-1)
Tableau: s2 = (∑(xi - x)2*ni)/(n-1)
Tableau: s2 = (∑(xi2*ni) - ((∑Xi*ni)/n)2)/(n-1)

Note: le "-1" vient qu'en moyenne, on tombe sur la valeur moyenne de la population en augmentant la réponse.

Variables continues

Histogramme

Le nombre doit être proportionnel à la surface (aire).

On peut aussi représenter graphiquement les variables continues selon le pourcentage.

Note: peut aussi représenter les variables discrètes avec un grand nombre de valeurs.

Classes
[ai, bi[. Ex: [10,15[ ou 10 inclusivement à 15 exclusivement ou 10 ≤ x < 15.
Centre de classe
xi = (ai + bi)/2.
Amplitude
bi - ai. Ex. [10,15[   15-10 = 5.

Les interprétations du théorème de Tchebychev

Selon Techbychev, la quantité de données situées au delà de k * l'écart-type de la moyenne x est d'au plus 1/(k2). k > 1.

On utilise généralement la constante k = 2.

k1/(k2) (externe)1-1/(k2) (interne)normale (interne)*
2 25%75%95,4%
2,516%84%98,8%
3 11%89%99,7%

* calculé à l'aide de la calculatrice TI-92 Plus avec la fonction normcdf(-k,k)

Exercice: faire un intervalle qui contient au moins 80% des données. 1-80% = 1/(k2). 1/5 = 1/(k2). k = √(5). Intervalle: moyenne ± √(5) * ecart-type.

Combinaison de la moyenne et de l'écart-type

1. Pour situer un groupe: coefficient de variation. CV = s/x. Le coefficient de variation est égale à l'écart-type divisé par la moyenne. Il est habituellement écrit sous forme de pourcentage.

2. Situer un objet ou un individu. On utilise la côte Z d'un nombre. Zx = (x - x)/s

3. Asymétrie (skewness): ∑(xi-x)3/(n-1)/(s3).

  • > 0: biais positif (à droite). La moyenne est plus grande que la médiane.
  • = 0: symétrie. La moyenne est égale à la médiane.
  • < 0: biais négatif (à gauche). La moyenne est plus petite que la médiane.

4. Coefficient d'aplatissement: Kurtosis. ∑(xi-x)4/(n-1)/(s4)-3. On peut l'interprété seulement si le biais est peu prononcé (plus petit que 1).

  • > 0: courbe étirée, leptocurtique
  • = 0 : courbe normale
  • < 0: courbe aplatie.
Lien entre les mesures et les transformées de Laplace
momentGéométrieFormuleMesure
1er moment∑(xi)∑(xi)/nmoyenne
2e moment∑(xi-x)2∑(xi-x)2/(n-1)variance
3e moment∑(xi-x)3∑(xi-x)3/(n-1)/(s3)skewness
4e moment∑(xi-x)4∑(xi-x)4/(n-1)/(s4)-3kurtosis

Autre

Paretaux: diagrammes (bâtonnet) en ordre. Intéressant lorsque que les bâtonnets se détachent.

Tranformation linéaire

y' = ax' + b (y' et x' sont les moyennes)

sy = |a|sx (sy et sx sont les écart-types)

Si l'on multiplie toutes les valeurs par un facteur a, la moyenne est multipliée par un facteur a. Si on augmente chaque nombre de b, la moyenne augmente de b.

Si l'on multiplie toutes les valeurs par un facteur a, l'écart-type est multiplié par un facteur |a|. Si on augmente chaque nombre de b, l'écart-type ne bouge pas.

Exemple:

Échantillon de x.
Moyenne x' de 40000 
Écart-type sx de 2000
CV = sx/x' = 2000/40000 = 5%

Augmentation de 10% pour chaque x. Puis, suppression de 800 pour chacun des x.
y' = (100%+10%) * x' - 800 = 43200
sy = (100%+10%) * sx = 2200
Nouveau CV: sy/y' = 2200/43200 = 5,1%