Поиск парсера цитирования

Мне нужен синтаксический анализатор, который будет сканировать научные тексты, извлекать цитаты и разбирать эти цитаты на составные части (автор, название, дата публикации и т. д.).

Я пробовал Paracite, но он ужасно медленный и не дает качественных результатов.

Подойдет любой язык, но предпочтительнее Java.


person Mike Sokolov    schedule 16.09.2011    source источник


Ответы (5)


Взгляните на ParsCit:

Это домашняя страница проекта ParsCit, который выполняет две задачи: 1) анализ справочной строки, иногда также называемый анализом цитирования или извлечением цитирования, и 2) анализ логической структуры научных документов. Он спроектирован как контролируемая процедура машинного обучения, которая использует условные случайные поля в качестве механизма обучения. Вы можете скачать приведенный ниже код, проанализировать строки онлайн или отправить пакетные задания на наш веб-сервис. Код содержит обучающие данные, генератор функций и сценарии оболочки для подключения системы к веб-службе (используется на этом веб-сайте).

person NPE    schedule 16.09.2011
comment
Спасибо, эта ссылка также ведет к некоторым другим интересным проектам в той же области. Я проверю их! - person Mike Sokolov; 16.09.2011

Недавно мы столкнулись с похожей проблемой и в итоге написали собственный парсер на основе ParsCit, но использовали Wapiti вместо CRF++ для модели условных случайных полей. Как упоминал Майк выше, проблема с парсерами на основе ML заключается в получении хороших помеченных обучающих данных; для этого мы написали визуальный редактор, который позволяет помечать результаты (и сохранять их как обучающие данные). Этот подход очень хорошо работает для разбора библиографий.

Если кому-то интересно, мы сделали и парсер, и редактор доступными по адресу anystyle.io.

person inukshuk    schedule 20.05.2014

Список проектов здесь: https://forums.zotero.org/discussion/1211/

Cb2bib использует регулярные выражения http://www.molspaces.com/cb2bib/.

Citeseer использует большой список имен и названий авторов. Вы можете посмотреть их список публикаций

Вот проект, но на питоне: https://code.google.com/p/pdfssa4met/< /а>

Также см. эти вопросы о stackoverflow: * Извлечение информации из PDF-файлов научных статей

person Max    schedule 05.10.2013
comment
Спасибо, Макс. В итоге мы написали собственный статистический распознаватель на основе HMM. Я думаю, что подход с регулярными выражениями слишком хрупок. Теперь трудность заключается в получении хороших размеченных данных для обучения. Я подозреваю, что список Citeseer может помочь. - person Mike Sokolov; 07.10.2013

Вы также можете попробовать этот небольшой инструмент для разбора академических цитат по полям:

http://citationparser.com

Citationparser.com все еще находится в стадии бета-тестирования, но версия 2017 года работает хорошо, особенно для журнальных статей, а также для монографий и глав книг.

Список не обязательно должен быть в ОДНОМ стиле, но может быть смесью разных официальных и неофициальных стилей.

Вы можете пройтись по ссылкам и проверить наличие полного текста или можете ЭКСПОРТИРОВАТЬ как файл концевой сноски (.ENL). Я разработал этот инструмент только для небольших списков из сотен наименований. Если вы вставите список с более чем 1000 заголовков, он будет работать намного медленнее.

person Erik    schedule 16.01.2017

Вы можете попробовать найти библиотеку индексирования/поиска, например Lucene.

person mcfinnigan    schedule 16.09.2011
comment
Спасибо, я знаком с Lucene, но на самом деле он не решает эту проблему конкретно. - person Mike Sokolov; 16.09.2011