Statistiques descriptives (bivariables)

Covariance

Matrice de covariance

Coefficient de Corrélation (R)

Coefficient de Détermination (R²)

Corrélation vs Causation

Une corrélation signifie que deux variables bougent dans la même direction.
Une causation signifie que l’une des variables fait changer l’autre.

Une corrélation n’implique pas un lien de causalilté. On peut notamment citer 4 cas où causation et corrélation sont souvent mélangées:

  1. Causalité inversée
    On veut connaître la relation entre le temps d’extraction du café et la quantité de cafféine obtenue. On constate une forte relation linéaire (corrélation) entre les deux:

    On conclut que le taux en cafféine des grains de café influence le temps d’extraction. Cette conclusion est bien sûr erronée: la bonne conclusion est que le temps d’extraction influence le taux en cafféine du café.

    On a inversé le sens de la causalité: que la variable X cause Y, alors qu’en réalité la Y cause X. Il faut toujours être prudent lorsqu’on tire des conclusions avec des statistiques car les statistiques à elles seules ne peuvent rien dire sur les relations de causalité.

  2. Temporalité
    On a reccueilli des données sur la part de marché d’Internet Explorer ainsi que sur les meurtres aux États-Unis pour 100 000 habitants. On constate une relation linéaire positive — plus la part de marché d’Internet Explorer augmente, plus le nombre de meutres augmente:

    Pourtant la variable X (les parts de marché d’Internet Explorer) n’est pas du tout liée à la variable Y (les meurtres par habitants): toutes deux évoluent au fil du temps pour des raisons différentes.

  3. Troisième variable
    On cherche à réduire les dommages causés par les incendies domestiques et on trouve une relation linéaire: plus le nombre de pompiers présents sur place est important, plus les dégats sont importants.

    Pourtant les pompiers ne sont pas à l’origine des dégats mais une troisième variable, qui est à l’origine des deux autres: la taille du feu.

    Un peu dans la même veine, on constate que différentes machines sensées decafféiner les grains de café n’ont pas toutes eut les mêmes résultats. On pourrait penser que le problème vient de la machine mais en regardant les configurations des machines, on constate qu’il existe un facteur sous-jacent à l’origine des résultats constatés: le temps d’extraction configuré n’était pas le même.

Il peut être difficile de prouver une relation de causalité. Pour appuyer nos conclusions, on peut

  1. Effectuer une expérience contrôlée
    Dans une expérience contrôlée, on fait varier la variable X en gardant tous les autres facteurs constants et on regarde ce qui arrive à Y.
    Mais il n’est pas toujours possible ou éthique de modifier une variable X et garder tout le reste constant. C’est souvent le cas dans le secteur médical et les sciences sociales.

  2. Étudier la littérature
    Chercher des arguments pour ou contre le fait qu’une relation est causale ou non.

  3. Utiliser la logique et l’ordre chronologique de la variable — laquelle vient en premier.

Corrélation partielle

Ordre 1

Analyse de Correlation

Ordre 2

On appelle ordre le nombre de variable contrôlées.

Ajustement