Я читаю этот документ, чтобы получить представление о наивном байесовском подходе. Должна быть ссылка на 35 страницу.
https://web.stanford.edu/class/cs124/lec/naivebayes.pdf#page=35
при наличии двух документов «a b b» и «c d d» словарный запас будет следующим:
{a,b,b,c,d,d}, |Словарь| == 6
или: {a,b,c,d}, |Словарь| == 4
просто нужна проверка на вменяемость, спасибо