Как мне тренироваться, чтобы найти появление штата США в НЛП?

Как мне тренироваться, чтобы найти вхождение штата США, когда этот набор ограничен 50 штатами, потому что нам нужен большой объем данных (скажем, 1000 строк) для обучения определенной метке.


comment
в этом ответе много информации (stackoverflow.com/a/59959188/8243797), связанной с извлечением городов из предложения, ответ более или менее объясняет всю проблему от начала до конца, что может вам помочь.   -  person SajanGohil    schedule 11.05.2020


Ответы (1)


Я думаю, это зависит от задачи, которую вы пытаетесь решить здесь. Вам нужно различать, являются ли некоторые двухбуквенные комбинации названием штата США или нет? Простой набор имен будет работать? Или вы пытаетесь построить какой-то простой NER (https://en.wikipedia.org/wiki/Named-entity_recognition) для названий штатов? Таким образом, вы также можете начать с простого сопоставления по регулярному выражению, но если вы захотите обучить какую-то модель позже — у вас будет гораздо больше 50 примеров. Ваш набор данных будет не просто «представляют ли эти две буквы состояние или нет», а множество предложений, в которых где-то есть названия состояний или вообще нет.

person Rayan Ral    schedule 11.05.2020