Я тренирую модель с нуля, чтобы предсказать продукты питания из текста. Я пометил около 500 предложений, чтобы обучить свою модель, и точность довольно хорошая. Но меня немного беспокоят невидимые данные реального мира, поэтому я придумал интересную идею. Поэтому я хотел знать, что кто-то из опытных людей подумал об этой интересной идее.
Итак, идея состоит в том, чтобы преобразовать 500 предложений, возможно, в 10000 предложений. Для этого я сначала заменил фактический объект тегом, а затем заполнил его возможными объектами. Пример этого следующий:
Оригинальные тренировочные предложения:
- «В прошлом году Tesco продала пятьдесят тысяч пицц». --- Еда = пицца.
- «Он любит есть пудинг, когда он один». --- Еда = пудинг Общие предложения:
- «Tesco продала пятьдесят тысяч в прошлом году».
- «Он любит поесть, когда он один».
Список продуктов:
- пицца
- пудинг
Новые сгенерированные учебные предложения:
- «В прошлом году Tesco продала пятьдесят тысяч пицц». --- Еда = пицца.
- «В прошлом году Tesco продала пятьдесят тысяч пудингов». --- Еда = пудинг
- «Он любит есть пиццу, когда он один». --- Еда = пицца
- «Он любит есть пудинг, когда он один». --- Еда = пудинг
Так хорошо ли генерировать тренировочные предложения, подобные этому. Преимущества, которые я думаю:
- Больше предложений.
- У единственного объекта будет больше примеров вместо одного или двух.
- Может быть высокой точности.
Проблемы могут быть:
- Учебные данные полны похожих шаблонов предложений.
Спасибо, пожалуйста, дайте мне знать мысли в этом подходе.