Statistiques descriptives (univariables)

Tendance centrale

Moyenne

Médiane

Mode

Moyenne, médiane ou mode

Moyenne pondérée

Plutôt que la moyenne, on peut également choisir d’utiliser

Moyenne ajustée

Moyenne géométrique


Performance

Percentile

Quartile

p-quantile


Dispersion

Intervalle

Intervalle inter-quartile


Variation

Déviation moyenne absolue

Variance

Écart-type

Coefficient de variation

Écart-réduit


Valeurs extrêmes


Distribution

Une distribution est une fonction qui, pour chaque valeur ou intervalle de valeurs possibles, donne le nombre d’occurences associé.

Une distribution de probabilité donne non pas le nombre d’occurences associé mais la probabilité d’obtenir la valeur (donc le nombre d’occurences divisé par la taille de l’échantillon).

Visualiser

Pour visualiser la distribution des données, on utilise typiquement

Modalité

Lorsqu’une distribution contient un seul pic, la distribution dite unimodale. Lorsqu’elle en contient deux, elle est dite bimodale.

Typiquement, la bimodalité se produit lorsque deux populations distinctes sont présentes dans l’échantillon, ce qui donne un mélange de distributions.
Ex: si on trace l’histogramme des temps de course d’une population, on constate une bimodalité entre hommes et femmes.

Moments

On appelle moments les mesures quantitatives liées à la forme graphique d’une fonction.
On utilise généralement 4 moments pour décrire numériquement la forme d’une distribution:

Coefficient d’assymétrie

(skewness en anglais)

\[\begin{aligned} S &= \frac{\mu_3}{\sigma^3} \\ \\ &= \sum_{i=1}^n \left(\frac{\displaystyle X_i - \mu}{\sigma}\right)^3 \\ \\ &= \frac{ \left(\frac{X_1 - \mu}{\sigma}\right)^3 + \ldots + \left(\frac{X_n - \mu}{\sigma}\right)^3}{n} \\ \\ &= \frac{ \left(X_1 - \mu\right)^3 + \ldots + \left(X_n - \mu\right)^3}{n} \div \sigma^3 \end{aligned}\]

Pour chaque valeur, soustraire la moyenne, diviser par l’écart-type et porter le résultat au cube.
Finalement, calculer la moyenne des valeurs obtenues.

python
from scipy.stats import skew
skew(X)
def power(x, n):
  '''
  Raise to a power using
  Exponentiation by square
  '''
  result = 1
  while n != 0:
    if n % 2:
      result *= x
      n -= 1

    x *= x
    n /= 2
  return result

m3 = np.mean(power(X - np.mean(X), 3))
m3 /= np.std(X)**3
m3
m3 = np.mean(power(X - np.mean(X), 3))
m3 /= np.var(X)**(3/2)
m3
m3 = np.mean(power(X - np.mean(X), 3))
m3 /= np.mean(power(X - np.mean(X), 2))**(3/2)
m3

Coefficient d’aplatissement

(kurtosis en anglais)

\[\begin{aligned} K &= \frac{\mu_4}{\sigma^4} \\ \\ &= \sum_{i=1}^n \left(\frac{\displaystyle X_i - \mu}{\sigma}\right)^4 \\ \\ &= \frac{ \left(\frac{X_1 - \mu}{\sigma}\right)^4 + \ldots + \left(\frac{X_n - \mu}{\sigma}\right)^4}{n} \\ \\ &= \frac{ \left(X_1 - \mu\right)^4 + \ldots + \left(X_n - \mu\right)^4}{n} \div \sigma^4 \end{aligned}\]
python
from scipy.stats import kurtosis
kurtosis(X)
m4 = np.mean(power(X - np.mean(X), 4))
m4 /= np.std(X)**4
m4 - 3
m4 = np.mean(power(X - np.mean(X), 4))
m4 /= np.var(X)**2
m4 - 3
m4 = np.mean(power(X - np.mean(X), 4))
m4 /= np.mean(power(X - np.mean(X), 2))**2
m4 - 3

L’excès de kurtosis est défini comme kurtosis - 3.