Настройка Google Cloud Natural Language API для конкретного контекста

Мы пишем демонстрационное приложение, в котором используем облачный речевой API Google и API естественного языка. Мы используем его для голосового управления в телевизорах и приставках.

В целом должен сказать, что API работают отлично.

Однако нам интересно, можно ли настроить API естественного языка, чтобы он был более конкретным для нашей отрасли.

В частности, у нас были проблемы с оценкой значимости, которая передается определенным объектам.

Например. Передача следующих текстовых данных в Google Cloud API: «Покажи мне фильмы, такие как Zoolander».

Дает нам следующие результаты:

Название объекта | Тип сущности | Метаданные | Важность

фильмы | WORK_OF_ART | {} | 0.7970062 Zoolander | WORK_OF_ART | {'mid': '/ m / 01shy7', 'wikipedia_url': 'https://en.wikipedia.org/wiki/Zoolander '} | 0,20299383

Заметность сущности Zoolander очень низка, хотя это самая важная сущность в предложении ...

Есть ли способ улучшить это? Или есть какой-либо другой API-интерфейс естественного языка, который можно настроить?


person Cooli    schedule 09.08.2017    source источник


Ответы (2)


Я оцениваю Google Cloud Natural Language и не могу найти ничего для настройки контекста ... поэтому кажется, что это невозможно :(

person 4lberto    schedule 02.07.2018

Невозможно улучшить результаты API, поскольку Google использует свои собственные данные для обучения моделей машинного обучения, и нет никаких вариантов для их настройки.

Единственный способ создать собственную модель - это обучить ее самостоятельно, например, с помощью AutoML. Но это требует больших усилий.

Вы можете отправить запрос функции, чтобы "обусловить" результаты на основе контекст (или я мог бы сделать это за вас), который может как-то повлиять на оценку значимости, вместо того, чтобы принимать во внимание только релевантность слова в тексте.

Во всяком случае, в этом может быть нет необходимости, потому что я вижу важную разницу между первым и вторым результатом. Вы пробовали использовать salience scores различия вместо salience absolute value? Или множитель баллов для конкретных «типов» результатов (WORK_OF_ART в данном случае)?

Я знаю, что это решение может работать для одних предложений, но не для других.

person Rubén C.    schedule 07.07.2018