Я работаю над проектом интеллектуального анализа текста, в котором я использую набор данных помеченных твитов (да или нет, твиты, связанные с землетрясением, включают 8000 образцов) для обучения классификаторов Naive, MLP (Deep Learning) LibSVM для классификации (да или нет) немаркированных твитов (28000 образцов). ) на РапидМайнер. Вот результат трех алгоритмов машинного обучения:
Наивный
Точность = 80%
Количество твитов с пометкой «да» = 6056
МЛП
Точность = 86%
Количество твитов с пометкой «да» = 2300
Библиотека SVM
Точность = 92%
Количество твитов с пометкой «да» = 53
Мой вопрос: почему количество помеченных твитов резко отличается?