Я создаю машину контроля качества. У меня проблема в том, что на один вопрос может быть несколько ответов, и ответы расположены в разных местах в контексте. Например:
Вопрос: что нужно делать Крису?
Контекст: .... Крису нужно мыть посуду .... (еще текст) .... Крису нужно делать уроки ....
Правильные ответы:
- мыть посуду
- делать домашнюю работу
Получив ответы на вопрос, я использую алгоритм кластеризации для дедупликации и получения отдельных ответов. Поэтому мне нужен набор данных, содержащий пару из 1 вопроса - много ответов, как указано выше, чтобы оценить мой алгоритм кластеризации и модель встраивания предложений.
Есть ли какой-либо общедоступный набор данных, поддерживающий пару из одного вопроса - несколько правильных ответов (не дублируемых)? Я пробовал MS MARCO, но большинство ответов в этом наборе данных дублируются.