Почему Cloudwatch перестала регистрировать Sagemaker?

У меня уже некоторое время работает экземпляр Sagemaker. Я ничего не менял между ними, но теперь я больше не вижу новых журналов в Cloudwatch. Старые журналы остались, а новых нет уже 2 дня.

Экземпляр Sagemaker все еще работает. Просто больше не логи. И поскольку код не изменился, и у меня нет ничего зависящего от времени, я почти уверен, что достиг предела. Но я не знаю, какой именно:

  • В группе журналов есть только один поток журнала.
  • Единый поток журнала имеет размер 175 МБ.

Я нашел ограничения журналов CloudWatch и Ограничения на события CloudWatch, но мне это не помогло.

В чем может быть проблема? Как я могу это исследовать?

Согласно документам AWS, этого не должно происходить. Общая поддержка AWS не помогла.


person Martin Thoma    schedule 20.04.2018    source источник
comment
Я не работал с SageMaker, но все же могу дать вам несколько советов, которые помогут отладить это. Я предполагаю, что вы можете попасть в машину EC2 за то же самое. См. Это перед запуском docs.aws.amazon.com/AmazonCloudWatch/latest/ журналы /. Сначала я бы запустил sudo systemctl status awslogsd, чтобы убедиться, что он работает. Затем я должен убедиться, что политика "arn:aws:logs:*:*:*" все еще активна. Затем я бы запустил journalctl -u awslogsd, чтобы проверить, не обнаружил ли я каких-либо проблем в журналах awslogsd. Затем, если ничего не дает, я запускаю journalctl -f и отслеживаю что-нибудь в журналах.   -  person Tarun Lalwani    schedule 23.04.2018
comment
Я не думаю, что смогу войти в Sagemaker с помощью оболочки ... или, по крайней мере, я не знаю как.   -  person Martin Thoma    schedule 23.04.2018
comment
Я считаю, что есть вариант для логов S3? Также вы можете увидеть, есть ли какие-то проблемы с политикой?   -  person Tarun Lalwani    schedule 23.04.2018
comment
Я не знаю, смогу ли я увидеть, есть ли проблема в политике. Дело в том, что он работал довольно давно. Это изменение было для меня неожиданным, и я не думаю, что что-то изменилось с моей стороны.   -  person Martin Thoma    schedule 23.04.2018
comment
Я получил логирование, изменив ARN роли с доступом Cloudwatch на другую роль с доступом Cloudwatch. Внезапно журналы загорелись.   -  person UsamaAmjad    schedule 25.04.2018
comment
клише, но вы пытались его перезапустить? Наши потоки DDB обычно застревают после обновления стека для получения лямбда-выражений. Достигаете ли вы предела или нет, вы должны легко определить, позвонив в службу поддержки AWS.   -  person Kashyap    schedule 25.04.2018
comment
Как перезапустить Sagemaker? Мне позвонить в службу поддержки AWS?   -  person Martin Thoma    schedule 25.04.2018
comment
(Техническая поддержка не входит в мой тарифный план)   -  person Martin Thoma    schedule 25.04.2018
comment
Я подозреваю, что у вас какие-то проблемы с разрешениями. В качестве отправной точки я бы включил ведение журнала CloudTrail (и отправлял журналы CloudTrail в журналы CloudWatch для облегчения поиска), затем сделал бы что-нибудь, чтобы SageMaker сгенерировал некоторые выходные данные журнала, и проверить, что отображается в журналах CloudTrail. Это поможет определить, не возникла ли у вас проблема с разрешениями. Если вы видите успешные вызовы для записи в журналы CloudWatch из SageMaker, значит, проблема в журналах CloudWatch.   -  person Alex Hague    schedule 29.04.2018
comment
Есть ли у вас представление о том, как на самом деле выглядят файлы журналов? Они вращаются и с какой частотой? Агент журналов CloudWatch проигнорирует повернутый файл, если первая строка (по умолчанию) такая же, как в предыдущем файле. Вы можете увидеть, как выглядят файлы журналов и какова конфигурация журналов CloudWatch?   -  person Dejan Peretin    schedule 29.04.2018
comment
@Tartaglia Я не думаю, что Sagemaker дает мне хоть какое-то представление об этом.   -  person Martin Thoma    schedule 29.04.2018
comment
Агент журналов CloudWatch игнорирует повернутый файл, если первая строка (по умолчанию) такая же, как в предыдущем файле. - интересно. У меня много повторяющихся строк ... Я исследую это. Спасибо!   -  person Martin Thoma    schedule 29.04.2018
comment
Я считаю, что для исследования вашей проблемы необходимо собрать больше информации. Вы можете либо поделиться своим ресурсом ARN здесь (я считаю, что это экземпляр ноутбука, верно?), Либо опубликовать свою проблему на форумах AWS, как предложил @leopd, после чего мы сможем ответить в личном сообщении там. Спасибо! - сотрудник AWS   -  person Fan LI    schedule 30.10.2018


Ответы (2)


Во-первых, не похоже, что вы делаете что-то не так. Журналы должны просто отображаться в CloudWatch без каких-либо действий, без ограничений по размеру и времени. Если они вообще запускаются, значит, мы знаем, что разрешения были настроены правильно - если вы не изменили IAM в середине выполнения. Если журналы останавливаются в середине задания, то либо фактическое задание перестало выводить данные в stdout / stderr по какой-то причине, либо это операционный сбой с обработкой журналов службы. Обращение в службу поддержки AWS (здесь, на форумах AWS или через службу технической поддержки) - правильный способ справиться с этим: предоставление кому-либо в AWS идентификатора учетной записи и имени задания позволит ему точно выяснить, что произошло.

Кроме того, извините, это так долго оставалось без ответа. Судя по активности здесь, казалось, что многие люди могли столкнуться с этой проблемой. Но я также предполагаю и надеюсь, что проблема была во временном сбое внутренней службы, которое было решено. Если кто-то все еще сталкивается с этой проблемой (после октября 2018 года), оставьте комментарий, чтобы мы знали, что она все еще требует внимания. Или, еще лучше, откройте новый вопрос (не идеально с точки зрения SO, но с большей вероятностью привлечет чье-то внимание в AWS).

Благодарим за использование Amazon SageMaker и за отзыв!

-Сотрудник AWS

person Leopd    schedule 26.10.2018
comment
Я обратился в службу поддержки AWS, но они мне не помогли. Они присылают мне пару ссылок, в которых в основном говорится, что AWS берет на себя ведение журнала. После упоминания о том, что это, скорее всего, ошибка AWS, они только ответили, что это не техническая поддержка (которую я не заказывал). Позже, думаю, я обнаружил проблему: у меня было много идентичных сообщений журнала. Каким-то образом это, кажется, вызвало проблемы (хотя я не видел, чтобы я достиг какого-либо предела). Добавление отметки времени к каждому сообщению и уменьшение подробного ведения журнала решило эту проблему для меня (на данный момент - не уверен, повторится ли это снова) - person Martin Thoma; 26.10.2018
comment
Это все еще репро? И извините, что вы не смогли получить необходимую помощь в то время - форумы AWS иногда являются лучшим способом привлечь внимание технических специалистов, но мы работаем над более пристальным наблюдением за SO. - person Leopd; 26.10.2018

Я сталкивался с этой проблемой несколько раз. Возможно, что новый LogStream не был создан после обновления конечной точки (которое может быть инициировано вами или AWS, перезапускающим / обновляющим базовые экземпляры). Вы должны видеть logStream для каждого экземпляра, который запускается / используется для запуска на вашей конечной точке.

К сожалению, единственный способ смягчить это для меня - обновить конечную точку (например, применить идентичную конфигурацию EndpointConfiguration, которая использует ту же модель), в основном инициируя воссоздание экземпляров и их потоки журналов.

person Denys Kovalenko    schedule 20.04.2021