Во время работы в re: Invent команда инженеров Mangrove прошла новый сертификат AWS Machine Learning. В этом посте мы поделимся нашими мыслями о нашем опыте.

Контекст

Если кратко рассказать об опыте команды инженеров, у всех нас есть пять базовых сертификатов и специальность по большим данным. У нас есть некоторый опыт работы с Sagemaker с клиентами, но очень редко с использованием глубокого обучения. Большую часть времени наши специалисты по данным несут ответственность за построение моделей с помощью Sagemaker. Мы не считаем себя специалистами по данным, но мы знаем, как строить базовые модели и особенно делать все остальное вокруг них.

Обратная связь

Если сразу перейти к делу, это была самая сложная сертификация AWS, которую мы когда-либо проходили, и, к сожалению, у нас мало шансов, что мы ее прошли 🙏 (поскольку это бета-экзамен, результаты будут получены через три месяца).

Что внутри?

Очевидно, вы можете ожидать много вопросов по науке о данных, самому SageMaker, вопросам, связанным с сертификатами больших данных, а также несколько общих вопросов по AWS (IAM, безопасность s3 / EC2…). Ниже представлены типы тем, которые у нас есть *:

  • Знайте, как выбрать оптимальное количество кластеров, создаваемых алгоритмом K-средних.
  • Используйте различные средства для ввода потоковых данных в s3 в формате Parquet.
  • Узнайте о характеристиках рекуррентных нейронных сетей и сверточных нейронных сетей и о том, когда использовать те или иные.
  • SageMaker достаточно гибок, чтобы разрешить использование любых алгоритмов через контейнеры Docker. Потратьте некоторое время на это, настроив модель TensorFlow и включив поддержку графического процессора.
  • Вы уверены в том, что делает токенизация?
  • Поиск оптимизированных гиперпараметров - длительный процесс. Узнайте, как SageMaker значительно упрощает этот квест (Hyper-Parameter Optimization, сообщение в блоге).
  • В большинстве случаев данные для обучения должны быть подготовлены. Узнайте, как выполняются эти преобразования, почему и с помощью каких инструментов.
  • Линейный ученик Sagemaker - важная тема, см. Этот хороший пост в блоге

Стоит ли оно того?

С нашей точки зрения, эта сертификация предназначена для специалистов по обработке данных, обладающих солидным опытом работы с AWS. Это определенно сертификация, но, вероятно, одна из самых сложных для ее прохождения, по крайней мере, для нас!

Не стесняйтесь оставлять комментарии и удачной сдачи экзамена!

* Мы намеренно не раскрывали точные вопросы