On ne cherche pas à avoir un modèle avec une précision à 100%, puisque les données dont on dispose ne nous le permet pas toujours — ex les points dans un nuage de points ne sont généralement pas parfaitement alignés, ils ne font que suivre une tendance; ou dans le cas d’une classification, tous les points ne sont pas toujours séparables. Ce qu’on veut, c’est limiter les erreurs du modèle aux erreurs irréductibles.
La fonction coût (error, cost, loss, objective) permet de mesurer la quantité d’erreurs commises. C’est cette valeur qu’on cherchera à minimiser.
La fonction MSE pénalise les erreurs importantes en les mettant au carré: les petites erreurs (entre 0 et 1) deviennent encore plus petites tandis que les grandes erreurs deviennent encore plus grandes. Les grandes erreurs sont donc amplifiées tandis que les petites sont ignorées. Cette propriété rend MSE sensible aux valeurs extrêmes.
C’est généralement la fonction coût utilisée pour une régression linéaire.
La fonction MAE n’a pas de prédilection pour les grandes ou petites erreurs: une erreur de 100$ est deux fois pire qu’une erreur de 50$. Cela rend MAE plus robuste face aux valeurs extrêmes.
\[MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \bar{y}_i|\]Huber combine les propriétés de MSE et MAE:
le coût est quadratique pour les petites erreurs et linéaire pour les grandes erreurs.
On peut ajuster la valeur de δ pour désigner le seuil à partir duquel les erreurs doivent être pénalisées.
Vise à réduire l’entropie de la distribution de probabilité prédite.
C’est généralement la fonction coût utilisée pour une régression logistique.
Pénalise les misclassifications.
Elle est notamment utilisée par SVM.
Il s’agit d’une généralisation de la fonction cross-entropy pour K classes.
\[H(p,q) = - \sum_{c=1}^K y \times log(\bar{y})\]Cross-entropy for classification
Mesure la dissimilarisé entre deux distributions.
Plus p(y) se rapproche de q(y), plus la divergence est réduite.