Statistiques

Population vs échantillon

Paramètre vs statistique

Les données d’une population est ce qu’on appelle un paramètre tandis que les données d’un échantillon est une statistique. Une statistique est une information imparfaite mais qui nous permet d’estimer le paramètre d’une population.

Côté notation, on représente généralement les paramètres d’une population avec des lettres grecques:

Et les statistiques d’un échantillon avec des lettres latines:


Statistiques descriptives

Le but des statistiques descriptives est de fournir une synthèse des données. Si on a récolté 3000 données via un sondage, difficile de tout lire et d’en déduire quoi que ce soit en l’état. Pour essayer de comprendre les données, on va chercher à résumer les données soit

Lorsqu’on regarde une seule variable, on parle de statistique descriptive univariée (ou analyse univariable). Lorsqu’on regarde simultanément deux variables, on parle de statistique descriptive bivariée (ou analyse bivariable). Et lorsqu’on regarde plus de 2 variables, on parle de statistique descriptive multivariée (ou analyse des données).


Statistiques inférentielles

Les statistiques inférentielles consistent à comparer des moyennes, proportions, variances ou distributions entre deux échantillons (ou plus).

Si on prend deux échantillons différents, il faut s’attendre à ce que les données ne soient pas parfaitement identiques et donc qu’il y ait une différence dans les mesures. Mais quelle différence doit-on considérer comme une variation entre les échantillons ou comme une différence significative? Les tests statistiques vont nous permettre de calculer la probabilité que les variations des données soient dû au hasard. S’il est improbable que les variations soient un simple hasard, on en déduira qu’il existe une vraie différence entre les échantillons. Ça va nous permettre