Где я могу получить данные для обучения CoNLL-X?

Я пытаюсь обучить синтаксический анализатор зависимостей Стэнфордской нейронной сети проверять сходство фраз.

Я пробовал так:

java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz

Ошибка, которую я получил:

Train File: C:\Users\rohit\Downloads\CoreNLP-master\CoreNLP-master\data\edu\stanford\nlp\parser\trees\en-onetree.txt
Dev File: null
Model File: modelOutputFile.txt.gz
Embedding File: null
Pre-trained Model File: null
################### Train
#Trees: 1
0 tree(s) are illegal (0.00%).
1 tree(s) are legal but have multiple roots (100.00%).
0 tree(s) are legal but not projective (0.00%).
###################
#Word: 3
#POS:3
#Label: 2
###################
#Transitions: 3
#Labels: 1
ROOTLABEL: null
Random generator initialized with seed 1459831358061
Exception in thread "main" java.lang.NullPointerException
    at edu.stanford.nlp.parser.nndep.Util.scaling(Util.java:49)
    at edu.stanford.nlp.parser.nndep.DependencyParser.readEmbedFile.  (DependencyParser.java:636)
    at edu.stanford.nlp.parser.nndep.DependencyParser.setupClassifierForTraining(DependencyParser.java:787)
    at edu.stanford.nlp.parser.nndep.DependencyParser.train(DependencyParser.java:676)
    at edu.stanford.nlp.parser.nndep.DependencyParser.main(DependencyParser.java:1247)

В справке, встроенной в код, говорится, что обучающий файл должен быть «Путь к обучающему дереву в формате CoNLL-X».

Кто-нибудь знает, где я могу найти обучающие данные CoNLL-X для обучения? Я дал обучающий файл, но не вставил файл и получил эту ошибку. Я предполагаю, что если я дам файл для встраивания, это может сработать.

Пожалуйста, проясните, какой учебный файл и файл для встраивания я должен использовать и где я могу их найти.


person Aerin    schedule 19.05.2016    source источник


Ответы (1)


Банки деревьев CoNLL-X

Вы можете бесплатно получить обучающие данные для датского, голландского, португальского и шведского языков здесь . К сожалению, для других языков вам, вероятно, потребуется получить лицензию на банк деревьев от LDC (подробности для многих языков на этой странице).

Универсальные зависимости представлены в формате CoNLL-U, который обычно можно преобразовать в формат CoNLL-X с некоторой доработкой.

Наконец, на этой странице есть большой список банков деревьев и их доступность. Вы должны быть в состоянии преобразовать многие банки дерева зависимостей в этом списке в формат CoNLL-X, если они еще не в этом формате.

Обучение парсера Stanford Neural Net Dependency

Из этой страницы: файл встраивания является необязательным, а банк деревьев — нет. Лучший банк деревьев и файлы для встраивания зависят от языка и типа текста, который вы хотите анализировать. В идеале вы должны тренироваться на как можно большем количестве данных в предметной области/жанре, который вы пытаетесь проанализировать.

person dmcc    schedule 21.05.2016
comment
Спасибо @dmcc. Я пропустил встроенный файл и отправил данные conll. Он работает сейчас. - person Aerin; 22.05.2016