Работа с отсутствующими или неизвестными функциями при маркировке элементов с использованием модели CRF (CRFSuite)

Я использую CRFSuite (реализация python-crfsuite) для создания экстрактора именованных сущностей, аналогично учебнику на http://nbviewer.ipython.org/github/tpeng/python-crfsuite/blob/master/examples/CoNLL%202002.ipynb Обучающий вход представляет собой последовательность слов, каждое из которых имеет ряд признаков.

Проблема в том, что для моего конкретного варианта использования у меня не всегда есть особенности объектов, которые я пытаюсь распознать. Я хочу, чтобы модель CRF распознавала объект на основе особенностей окружающих слов. Однако, когда я просто ввожу пустой словарь {} в качестве характеристик слова, именованные сущности никогда не классифицируются должным образом как таковые.

Мне интересно, есть ли функция или стандартный метод для обработки таких случаев, когда после обучения модели не всегда есть функции для всех элементов.


person Avolith    schedule 20.05.2015    source источник


Ответы (1)


Присвоение фиксированного значения отсутствующим функциям, таким как «-» или «+», может быть полезным в некоторых случаях.

person mhbashari    schedule 13.07.2015