сравнение инструментов обработки естественного языка (UIMA, LingPipe, Lucene, Gate, Stanford)

Я хочу выбрать инструмент обработки естественного языка для выполнения общих задач, таких как токенизация, обнаружение предложений, различные теги (распознавание имен, теги POS и т. д.). мой вопрос состоит из двух частей:

  1. Каковы критерии выбора инструмента обработки естественного языка?
  2. Среди (UIMA, LingPipe, Lucene, Gate, Stanford) кто лучше удовлетворяет этим критериям?

и какое ваше предложение?


person aliakbarian    schedule 18.09.2013    source источник
comment
Не могли бы вы уточнить свои задачи? Сравнение действительно зависит от того, каких конкретных задач вы хотите достичь.   -  person Renaud    schedule 18.09.2013
comment
Languageware Resource Workbench сделает то, что вы упомянули, и выведет в словарь UIMA. Однако мой ответ потенциально предвзят и неполный, поэтому я не добавляю его в качестве ответа.   -  person Simon O'Doherty    schedule 18.09.2013
comment
UIMA не является инструментом НЛП. Это инфраструктура взаимодействия и масштабирования, которая позволяет интегрировать такие инструменты в общую структуру. Существует несколько разновидностей коллекций компонентов UIMA, которые делают то, что вы хотите (например, DKPro Core, ClearTK, U-Compare и т. д.), некоторые из которых интегрируют упомянутые вами инструменты (например, LingPipe, Stanford и т. д.). GATE находится где-то посередине. Если вы работаете с Java, я бы, вероятно, предложил несколько первых шагов с Apache OpenNLP (ASL) или Stanford CoreNLP (GPL), в зависимости от того, какую лицензию вы предпочитаете. - Имейте в виду, что это вопрос мнения и не очень подходит для Stackoverflow.   -  person rec    schedule 18.09.2013
comment
Хороший обзор можно найти здесь: emerge.mc. vanderbilt.edu/   -  person peschü    schedule 24.02.2015


Ответы (1)


Некоторые общие критерии:

  1. сколько задач я могу выполнить с предоставленными моделями (например, содержит ли инструмент модели для моих задач, таких как испанская токенизация или белковый NER)?
  2. насколько легко мне добавить недостающие инструменты.

Кстати, я бы добавил NLTK в ваш список и его отличная бесплатная сопровождающая книга.

person Renaud    schedule 18.09.2013