Я использую CRFSuite (реализация python-crfsuite) для создания экстрактора именованных сущностей, аналогично учебнику на http://nbviewer.ipython.org/github/tpeng/python-crfsuite/blob/master/examples/CoNLL%202002.ipynb Обучающий вход представляет собой последовательность слов, каждое из которых имеет ряд признаков.
Проблема в том, что для моего конкретного варианта использования у меня не всегда есть особенности объектов, которые я пытаюсь распознать. Я хочу, чтобы модель CRF распознавала объект на основе особенностей окружающих слов. Однако, когда я просто ввожу пустой словарь {} в качестве характеристик слова, именованные сущности никогда не классифицируются должным образом как таковые.
Мне интересно, есть ли функция или стандартный метод для обработки таких случаев, когда после обучения модели не всегда есть функции для всех элементов.