Я использую Stanford POS tagger с модель GATE Twitter и инициализация тегера занимает около 3 секунд, это нормально или я загружаю его неправильно?
Небольшой пример кода:
package tweet.nlp.test;
import edu.stanford.nlp.tagger.maxent.MaxentTagger;
public class TweetNLPTest {
public static void main(String[] args) {
String text = "My sister won't tell me where she hid my food. She's fueling my anorexia. #bestsisteraward #not ????????";
MaxentTagger tagger = new MaxentTagger("models/gate-EN-twitter.model");
String taggedText = tagger.tagString(text);
}
}
Вывод:
Чтение модели POS-тегера из models/gate-EN-twitter.model ... предупреждение: не задан язык, не указаны теги открытого класса и не указаны теги закрытого класса; предполагая, что ВСЕ теги являются открытыми тегами класса, выполненными [3,1 сек].
Моя_PRP$ сестра_NN не будет_MD говорить_VB мне_PRP, где_WRB она_PRP спрятала_VBD мою_PRP$ еду._NN Она_VBZ подпитывает_VBG мою_PRP$ анорексию._NN #bestsisteraward_HT #not_HT ????????_HT ПОСТРОИТЬ УСПЕШНО (общее время: 3 секунды)
.model
, а другие модели имеют расширение.tagger
. Это ведь ни к чему не относится? - person Aki K   schedule 02.11.2014