Приведенный ниже набор данных состоит из предложений, в которых каждое слово помечено индивидуально. Я хочу разделить это на две переменные для обучения моей модели. Записи разделены пустой строкой, и каждая запись состоит из нескольких строк, где слово и метка разделены запятыми.
how,SW
is,SW
the,SW
weather,WTR
?,.
# blank line
will,SW
it,SW
rain,RAIN
this,ADJ
weekend,TIME
?,.
Я хочу обработать этот входной файл, чтобы получить ожидаемый результат, как показано ниже:
Переменная X должна содержать все слова каждой записи в виде отдельных списков:
[[how, is, the, weather, ?], [will it rain this weekend, ?]]
Переменная Y должна содержать метки каждой записи в виде отдельных списков:
[[SW, SW, SW, WTR, .], [SW, SW, RAIN, ADJ, TIME, .]]
Пожалуйста, предложите. Благодарю вас!