давайте начнем с tf-idf.
tf-idf означает частоту термина — обратную частоту документа. это мощная техника, позволяющая понять, о чем документ. это используется в области интеллектуального анализа текста и поиска информации.
что такое частота терминов (TF) — измеряет, сколько раз слово встречается в документе. иногда слово может появляться много раз в более длинном документе и мало раз в маленьком документе, поэтому оно делится на длину документа.
TF =количество раз, когда слово встречается в документе / общее количество слов в документе
обратная частота документа-
что у нас есть весь комплект документов? мы также можем назвать это корпусом.
используя это, мы можем определить, сколько раз слово появляется в разных документах в корпусе, и можем дать нам, насколько распространены слова в целом.
поэтому, если мы видим, что «то» и «это» чаще всего встречаются во многих документах, мы можем сделать вывод и считать их менее важными в любом конкретном документе.
с другой стороны, слова, встречающиеся реже, лучше представляют наш документ. это называется периодичностью документа. количество раз слово появляется в документе в корпусе в конкретном документе.
поскольку мы хотим придать больший вес редким словам, мы вычисляем обратную частоту документа.
Нет документов в корпусе / нет документа появляется слово
собираем все вместе
когда у нас есть частота термина и обратная частота документа для определенного слова, мы можем вычислить вес tf-idf как -
tf_idf = термин-частота * обратная-частота-документа
если вы хотите получить самое важное слово в конкретном документе, вы можете просто рассчитать оценку tf-idf для каждого слова и использовать высшую оценку. Вот и все.