Мультиклассовая классификация текста с использованием R

Я работаю над проблемой классификации текста на несколько классов. Для этого я построил модель повышения градиента.

О наборе данных:

В наборе данных есть два столбца: Test_name и Description.

В столбце Test_Name шесть меток и соответствующее описание в столбце Description.

Мой подход к проблеме

ПОДГОТОВКА ДАННЫХ

  1. Создайте вектор слов для описания.

  2. Постройте корпус, используя вектор слов.

  3. Задачи предварительной обработки, такие как удаление чисел, пробелов, игнорируемых слов и преобразование в нижний регистр.

  4. Создайте матрицу терминов документа (dtm).

  5. Удалите редкие слова из приведенного выше dtm.

  6. Вышеупомянутый шаг приводит к матрице частоты счета, показывающей частоту каждого слова в соответствующем столбце.

  7. Преобразуйте матрицу частот подсчета в двоичную матрицу экземпляров, которая показывает вхождения слова в документе как 0 или 1, 1 для присутствия и 0 для отсутствия.

  8. Добавьте столбец метки из исходного набора данных заметок с преобразованным dtm. Столбец меток имеет 6 меток.

Построение модели

Используя пакет H2o, постройте модель gbm.

Полученные результаты

Четыре ярлыка класса классифицируются хорошо, а остальные два плохо классифицируются.

ниже вывод:

Extract training frame with `h2o.getFrame("train")`
MSE: (Extract with `h2o.mse`) 0.1197392
RMSE: (Extract with `h2o.rmse`) 0.3460335
Logloss: (Extract with `h2o.logloss`) 0.3245868
Mean Per-Class Error: 0.3791268
Confusion Matrix: Extract with `h2o.confusionMatrix(<model>,train = TRUE)`)

Body Fluid Analysis =   401 / 2,759
Cytology Test       =   182 / 1,087
Diagnostic Imaging  =   117 / 3,907
Doctors Advice      =      32 / 752
Organ Function Test =     461 / 463
Patient Related     =     101 / 113
Totals              = 1,294 / 9,081

Ошибки неправильной классификации функциональных тестов органов и пациентов относительно выше. Как я могу это исправить?


person ajax    schedule 05.02.2018    source источник


Ответы (1)


Вот несколько быстрых действий, которые вы можете сделать, чтобы улучшить это:

Если вы предоставите более подробную информацию и рабочий пример, вы сможете сделать больше, чтобы помочь вам.

person Sam Abbott    schedule 07.02.2018