Разделите документы на значимую информацию

В наших предыдущих блогах мы видели векторизацию, то есть создание машины для чтения осмысленной информации из группы текстов.

Здесь нашей целью является разделение документов на разные категории, то есть классификация, для этого существуют различные подходы.

Контролируемое обучение: когда у нас есть документы с меткой, доступной для каждого документа, мы следуем этому подходу.

Неконтролируемое обучение: классифицировать документы без каких-либо предварительных знаний о типах и способах классификации.

1. Без присмотра:

i) Кластеризация K-средних

Это один из лучших и популярных методов для начала кластеризации.

Допустим, например, у нас есть образец данных, как показано ниже.

Здесь все точки представляют точки данных в пространстве измерений, а каждая группа формы/цвета представляет собой кластер.

Прежде чем перейти к классификации, мы должны указать, сколько кластеров нам потребуется, это можно найти с помощью некоторых стандартных процедур, как показано ниже.

а) оценка силуэта

Значение силуэта является мерой того, насколько объект похож на свой собственный кластер (сплоченность) по сравнению с другими кластерами (разделение). Силуэт варьируется от -1 до +1, где высокое значение указывает на то, что объект хорошо соответствует своему собственному кластеру и плохо соответствует соседним кластерам. Из приведенных выше значений хорошо рассмотреть 2 кластера.

б) локтевой метод

Это график значения ошибки для каждого выбора размера кластера, как выделено здесь. 3 — это оптимальные кластеры, которые следует рассматривать как низкую ошибку для небольшого количества кластеров.

Например, наше количество кластеров == 4;

Логика K-средних::

  1. 4 случайные точки в качестве центроидов и вычислить
  2. расстояние между ними центроида до каждой другой точки и, соответственно, ближайшая точка расстояния идет к этому конкретному кластеру, это дает первый повторный результат,
  3. Теперь центроид будет изменен в каждом кластере путем вычисления по формуле центроида
  4. с новыми точками центроида вторая итерация начинается так же, как шаги 2 и 3.
  5. Таким образом, при нескольких итерациях у нас останется лучший сгруппированный результат в соответствии с расстояниями между ними.

Для этого можно позаботиться о нескольких мерах расстояния, т.е.

  1. Евклидово расстояние
  2. Косинусное расстояние…

2. Под наблюдением:

Это используется, когда метки доступны для документов. Ниже приведены некоторые из популярных методов для начала.

i) Наивный байес

II) SVM

iii) Случайный лес

iv) с использованием нейронных сетей, таких как ULMFIT, RNN и т. д..

Спасибо за чтение!!

Хлопайте, если вам это нравится / комментируйте улучшения…