давайте начнем с tf-idf.

tf-idf означает частоту термина — обратную частоту документа. это мощная техника, позволяющая понять, о чем документ. это используется в области интеллектуального анализа текста и поиска информации.

что такое частота терминов (TF) — измеряет, сколько раз слово встречается в документе. иногда слово может появляться много раз в более длинном документе и мало раз в маленьком документе, поэтому оно делится на длину документа.

TF =количество раз, когда слово встречается в документе / общее количество слов в документе

обратная частота документа-

что у нас есть весь комплект документов? мы также можем назвать это корпусом.

используя это, мы можем определить, сколько раз слово появляется в разных документах в корпусе, и можем дать нам, насколько распространены слова в целом.

поэтому, если мы видим, что «то» и «это» чаще всего встречаются во многих документах, мы можем сделать вывод и считать их менее важными в любом конкретном документе.

с другой стороны, слова, встречающиеся реже, лучше представляют наш документ. это называется периодичностью документа. количество раз слово появляется в документе в корпусе в конкретном документе.

поскольку мы хотим придать больший вес редким словам, мы вычисляем обратную частоту документа.

Нет документов в корпусе / нет документа появляется слово

собираем все вместе

когда у нас есть частота термина и обратная частота документа для определенного слова, мы можем вычислить вес tf-idf как -

tf_idf = термин-частота * обратная-частота-документа

если вы хотите получить самое важное слово в конкретном документе, вы можете просто рассчитать оценку tf-idf для каждого слова и использовать высшую оценку. Вот и все.