Là où Bag-of-words et TF-IDF vectorisent les phrases des documents, et les mots sont des entiers, one-hot-encoding (aussi appelé count vectorizing) vectorise les mots.
Pour vectoriser un mot en utilisant l’approche one-hot encoding:
Si on a 10 000 mots uniques, chaque mot prend prend un vecteur de dimension 1×10 000, et contient 9 999 zéros.