Я новичок в области NLP, но мое текущее исследование требует некоторого синтаксического анализа текста (или извлечения ключевых слов) из URL-адресов, например. поддельный URL,
http://ads.goole.com/appid/heads
На мой синтаксический анализ накладываются два ограничения,
Первые объявления и последние заголовки должны быть различны, потому что объявления в заголовках означают больше суффикса, чем рекламы.
Appid можно разбить на две части; то есть «приложение» и «идентификатор», оба принимают семантическое значение в Интернете.
Я попробовал набор инструментов Stanford NLP и поисковую систему Google. Первый пытается классифицировать каждое слово по грамматическому значению, которого я и ожидаю. Движок Google показывает больше сообразительности в отношении appid, что дает мне предложения по поводу идентификатора приложения.
Я не могу просмотреть ссылку на историю поиска в поиске Google, чтобы он дал мне идентификатор приложения, потому что многие люди искали эти слова. Могу ли я получить некоторые методы автономной линии для выполнения аналогичного синтаксического анализа??
ОБНОВЛЕНИЕ:
Пожалуйста, пропустите предложения регулярных выражений, потому что потенциально неизвестное количество композиций слов, таких как appid, даже в простых URL-адресах.
Спасибо,
Джамин