Любой способ получить не менее 20 токенов для классификации текста - Google NLP API

Есть ли способ получить минимальное требование токена для метода классификации текста API Google NLP? Я пытаюсь ввести короткое простое предложение, например «Не могу дождаться президентских дебатов», но это вернет ошибку:

Invalid text content: too few tokens (words) to process.

Есть ли способ обойти это? Я ввожу случайные слова до тех пор, пока вводимая строка не достигнет 20 символов, но это часто портит метки и уверенность. Если есть какой-то способ обойти это, например, установить параметр или добавить что-то, что было бы круто! Если обходного пути нет, дайте мне знать, если вы знаете другую предварительно обученную модель классификации текста, которая подойдет мне!

Кроме того, я не могу создавать нужные мне категории и ярлыки. Для того, что я делаю, было бы слишком много требований, поэтому эти предопределенные категории в nlp api великолепны. Просто нужно избавиться от требования в 20 символов.


person frankied003    schedule 19.06.2020    source источник
comment
Если у вас есть дополнительная информация или обновления, которые нужно добавить к вашему вопросу, вы можете отредактировать его вместо добавления комментария.   -  person Doug Stevenson    schedule 19.06.2020
comment
Обход, который я использую, - это повторение предложения. То есть, "I can't wait for the presidential debates" повторяется до тех пор, пока я не получу более 20 токенов: I can't wait for the presidential debates I can't wait for the presidential debates I can't wait for the presidential debates.   -  person l p    schedule 05.04.2021


Ответы (1)


Как поясняется в официальной документации по классификации контента:

Важно: вы должны предоставить текстовый блок (документ) не менее двадцати токенов (слов) методу classifyText.

Учитывая, что при проверке возможных альтернатив кажется, что, к сожалению, нет способа обойти это. На самом деле вам нужно будет ввести не менее 20 слов.

По этой причине, поискав повсюду, я нашел вот этот здесь и этот другой - этот на китайском, но это может вам помочь :) - предварительно обученных моделей для классификации текста, которые, я считаю, могут вам помочь.

В любом случае, не стесняйтесь создавать запрос функции в системе отслеживания проблем Google, чтобы они могли проверить возможность снятия этого ограничения.

Сообщите мне, помогла ли вам информация!

person gso_gabriel    schedule 19.06.2020