Bag-of-words [BoW] (sac de mots en français), aussi appelé modèle unigramme, est un modèle linguistique basé sur le comptage des mots — le nombre de fois qu’ils apparaissent. Il est donc très simple mais a de nombreux cas d’utilisation, comme
Il y a deux manières d’implémenter un BoW:
Utiliser un dictionnaire
Chaque mot du document est associé au nombre de fois qu’il apparaît.
Utiliser un vecteur
Créer un dictionnaire des caractéristiques (feature dictionary) à partir de l’ensemble des documents. Chaque mot est assigné à un index. Puis pour chaque document, créer un vecteur qui enregistre le nombre d’occurences des mots du document à l’index du dictionnaire des caractéristiques.
On peut ensuite comparer les vecteurs BoW avec d’autres vecteurs BoW pour les classifier — par exemple avec un algorithme de Naive Bayes.
Et on peut représenter une phrase comme la somme des vecteurs one-hot encodés.