РЕДАКТИРОВАТЬ: я пытаюсь классифицировать новый отзыв пользователя по заранее определенному набору тегов. С каждым отзывом может быть связано несколько тегов.
Я сопоставил свои обзоры пользователей БД с 15 категориями. В следующем примере показан текст, обосновывающий сопоставленные категории.
USER_REVIEWS | КАТЕГОРИИ
"Лучшее pizza
из всех, нам очень понравилось это место, our kids
..." | "еда, семья"
"The ATV tour was extreme
и nature was beautiful
..." | "активный, семейный"
pizza:food
our kids:family
The ATV tour was extreme:active
nature was beautiful:nature
EDIT: я пробовал 2 подхода к обучающим данным:
Первый включает все категории в один файл, например:
"food","Best pizza ever, we really loved this place, our kids..."
"family","Best pizza ever, we really loved this place, our kids..."
Второй подход заключался в разделении данных обучения на 15 отдельных файлов, например:
family_training_data.csv:
"true" , "Best pizza ever, we really loved this place, our kids..."
"false" , "The ATV tour was extreme and the nature was beautiful ..."
Ни одно из вышеперечисленных не было окончательным, и в большинстве случаев пропускали теги.
Вот некоторые вопросы, которые возникли, пока я экспериментировал:
- Некоторые из моих обзоров очень длинные (более 300 слов). Должен ли я ограничивать количество слов в моем файле с тренировочными данными, чтобы оно соответствовало среднему количеству слов в обзоре (80)?
- Лучше всего разделить данные на 15 файлов данных обучения с опцией ИСТИНА/ЛОЖЬ, что означает: (относится ли текст обзора к определенной категории) или смешать все категории в одном файле данных обучения?
- Как мне обучить модель находить синонимы или связанные ключевые слова, чтобы она могла пометить «Поездка
motorbike
была отличной» какactive
, хотя в обучающих данных была запись дляATV
ездить
Я пробовал некоторые подходы, описанные выше, но без хороших результатов.
В: Какой формат обучающих данных даст наилучшие результаты?