Нам удалось развернуть модели (как пользовательские прогнозы, так и форматы Tensorflow SavedModel) на платформе AI Prediction Platform, и базовое тестирование показывает, что все по крайней мере функционально для онлайн-прогнозов. Сейчас мы пытаемся немного провести нагрузочный тест, прежде чем запускать его в производство, и решаем некоторые проблемы со стабильностью.
Мы видим множество ошибок - 429 - Скорость трафика превышает пропускную способность. Уменьшите свой трафик или уменьшите размер вашей модели 503 - ошибка восходящего подключения или отключение / сброс перед заголовками. причина сброса: сбой подключения 504 - Истекло время ожидания уведомления.
Мы реализовали экспоненциальный подход к отсрочке, который, как правило, помогает со временем решить вышеуказанные проблемы. Однако мы хотим убедиться, что понимаем, что происходит.
429-е кажутся простыми - подождите, пока что-то масштабируется.
Ошибки 503/504, мы не уверены, в чем причина и как решить / устранить. Мы играли с размером партии (согласно Модель TensorFlow, обслуживающая онлайн-прогнозирование платформы Google AI Platform, слишком медленная с пакетами экземпляров - похоже, что она не выполняет никаких внутренних оптимизаций для больших пакетов), размер машины и т. д. Нет конечно, если это проблема с ресурсами, хотя мы видим эти ошибки при небольших размерах пакетов (количество экземпляров).
Кто-нибудь еще испытывает эти проблемы? Какие-нибудь лучшие практики предложить? Спасибо!