Покопайтесь под поверхностью технических ноу-хау и станьте более мудрым инженером по искусственному интеллекту.

Как в диснеевском фильме

МООК Эндрю Нг похожи на диснеевские фильмы. Они созданы для того, чтобы порадовать самых маленьких, но содержат также и философию, которую могут понять только люди постарше и мудрее. В детстве вы восхищались Королем Львом. То, что вы увидели, это замечательные забавные или страшные персонажи, незабываемая музыка и захватывающая сюжетная линия. Позже в жизни вы обнаружите гораздо более глубокое философское измерение фильма. Вы узнаете себя в борьбе Симбы на разных этапах его жизни. Вы относитесь к драме потери отца и медитируете о хрупкости жизни и тяжелом бремени ответственности.

Точно так же я считаю, что курсы Эндрю разработаны с множеством переплетенных уровней интерпретации, предназначенных для разных аудиторий, от младшего инженера до вице-президента. Пусть вас не вводит в заблуждение плавный и приятный процесс обучения на МООК.

Этот курс предназначен не только для того, чтобы дать вам технические знания. Он здесь, чтобы изменить ваше мышление и сделать вас более мудрым инженером по искусственному интеллекту.

Эндрю Нг — учитель с тихим голосом, но если вы обратите пристальное внимание на то, что он говорит, вы поймете, что он сбрасывает «тихие» бомбы, которые встряхнут все сообщество и в долгосрочной перспективе изменят то, как мы строим ИИ во всем мире. .

Я прошел курс и собрал самые ценные идеи, которые я нашел.

Моя цель — не дать вам всесторонний обзор урока, а раскрыть те моменты обучения, которые были для меня самыми удивительными и открыли глаза.

Как взрослый пересматривая «Короля Льва», я пытаюсь расшифровать философские крупицы мудрости и обсудить их с вами.

В статье будут подробно рассмотрены первые четыре урока:

  1. Ваша модель составляет всего 5% вашей системы в производстве.
  2. Вы не знаете, чего вы не знаете, пока не развернетесь.
  3. Вся отрасль нуждается в смене парадигмы от ИИ, ориентированного на модели, к ИИ, ориентированному на данные.
  4. Не пропустите слепое пятно в ваших показателях точности.

Самородок № 1. Ваша модель — это всего лишь 5% вашей системы в продакшене.

Хотя моделирование, вероятно, является главной заботой для большинства специалистов по данным и, вероятно, одной из самых захватывающих интеллектуальных задач, оно будет представлять только около 5% кода вашей системы, когда оно достигнет полного производственного масштаба.

Остальное, 95% кода, — это все, что связано с моделью, обеспечивающее ее подачу чистых, релевантных и надежных данных и управление ее производительностью, как показано ниже. Несмотря на то, что код машинного обучения, представленный в черном ящике, занимает центральное место, он представляет собой крошечную часть общей инженерной работы.

После успешного POC, когда вы начинаете развертывать проверенный алгоритм, вы находитесь только на полпути, и остается много неопределенностей. Следовательно, вы должны рассматривать целостный взгляд с первого дня. Вы должны задать такие вопросы в начале проекта: «Будет ли API частью критической системы, требующей очень высоких стандартов обслуживания?», «Что может пойти не так с входными данными через год?», «Как я узнаю, если производительность модели упадет?».

Не поймите меня неправильно. Сегодня достаточно проблем, которые нужно решить. Если вы попытаетесь решить все проблемы, которые возникнут в ближайшие пять лет, вы будете парализованы огромным количеством вещей, которые могут пойти не так. Скорее, я рекомендую составить исчерпывающий контрольный список, но сосредоточить внимание только на наиболее структурированных инженерных вопросах на раннем этапе, чтобы обеспечить бесперебойную работу проекта. Остальные риски будут устранены по ходу дела, что подводит меня к следующему пункту о постепенном развертывании.

Самородок № 2. Вы не знаете, чего не знаете, пока не развернете.

Неправильно думать о развертывании как об одноразовой операции. Только при масштабном развертывании вы сталкиваетесь со всеми реальными проблемами. Вы можете предвидеть проблемы и проводить мозговой штурм, и вы должны это делать. Но вы не можете представить все возможные сценарии. Вы также не можете спроектировать свою систему так, чтобы она могла противостоять каждому катастрофическому сценарию, это было бы слишком дорого. При строительстве атомной электростанции вы можете спроектировать крышу так, чтобы она противостояла атаке с воздуха. Но вы не можете позволить себе дизайн, который выдержит падение метеорита.

Так что развертывайте заблаговременно, с постепенным вводом в эксплуатацию, адаптированным к бизнес-рискам. Это выявит все проблемы, которые вам нужно исправить, и предоставит вам ценные бизнес-отзывы. Ожидайте, что рано или поздно произойдет дрейф данных и концепций, выявляйте их и корректируйте. Например, когда COVID-19 обрушился на мир, во время первого карантина все перешли на онлайн-покупки. Алгоритмы обнаружения мошенничества с кредитными картами в одночасье подверглись полному изменению платежного поведения и потерпели массовый сбой. Вы не могли предсказать COVID-19, но если вы развернете небольшое и раннее развертывание, у вас будет больше возможностей учиться и повышать устойчивость к редким событиям.

Думайте о развертывании как об итеративном процессе с сильным аспектом тестирования и обучения.

Самородок № 3. Вся отрасль нуждается в смене парадигмы от ИИ, ориентированного на модели, на ИИ, ориентированный на данные.

Это не первый раз, когда Эндрю выступает за изменение мышления в сторону ИИ, ориентированного на данные. Он создал ресурсный хаб, снял видеоролики и даже провел конкурс наподобие Kaggle вокруг этой концепции.

По его словам,

Искусственный интеллект, ориентированный на данные, — это дисциплина систематического проектирования данных, используемых для создания системы искусственного интеллекта.

Как поясняется в этой статье MIT Sloan «Почему пришло время для «ориентированного на данные искусственного интеллекта»:

сосредоточение внимания на качестве данных, используемых системами искусственного интеллекта, поможет полностью раскрыть его возможности.

Академия исторически сосредоточилась на разработке новых архитектур моделей, работая с фиксированными эталонными наборами данных, чтобы отслеживать прогресс в моделировании. Этот подход был скопирован всеми практиками в области науки о данных в отрасли. Однако Эндрю утверждает, что в большинстве промышленных приложений мы гораздо лучше использовали бы наше время и энергию, если бы выбрали достаточно хорошую модель и сосредоточили все усилия на улучшении данных, поступающих в эту фиксированную модель.

Мой опыт работы в сфере розничной торговли показывает, что специалисты по обработке и анализу данных слишком ориентированы на модели и что работа с данными принесет более высокую отдачу от инвестиций. Но это мнение непопулярно, поскольку большинство специалистов по данным увлечены глубокими нейронными сетями с миллиардами параметров. Сообщество страдает от синдрома «новой блестящей игрушки», и Андрей прекрасно это понимает. Я восхищаюсь им за то, что он отстаивает эти непривлекательные, но необходимые передовые методы.

Самородок № 4. Не пропустите слепое пятно в ваших показателях точности.

Более удобно иметь только одну метрику производительности для вашей системы искусственного интеллекта. При обучении вашего алгоритма легче ориентироваться только на одну цель. К сожалению, реальность сложнее. Однажды Эндрю построил систему распознавания речи на основе записей разговоров взрослых людей. Но при развертывании пользователями иногда были подростки или дети младшего возраста, и алгоритм работал плохо. Урок заключается в том, что вам необходимо измерять точность не только глобального набора данных, но и отслеживать производительность ключевых срезов набора данных, которые имеют высокую ценность для бизнеса.

Возьмем другой пример: если вы прогнозируете спрос, вы хотите быть особенно точным в отношении самых дорогих продуктов, потому что они требуют большого оборотного капитала. Вы также хотите быть точным в отношении крупногабаритных предметов, потому что их транспортировка и хранение обходятся дорого. И вы хотите быть точным в отношении скоропортящихся продуктов, потому что хотите избежать отходов.

Заворачивать

Специализация MLOps — это всестороннее введение в разработку машинного обучения для производства. Обратите особое внимание, и вы найдете крупицы мудрости, спрятанные между рамками и концепциями курса. Сегодня я показал первые найденные:

  1. Ваша модель составляет всего 5% вашей системы в производстве.
  2. Вы не знаете, чего вы не знаете, пока не развернетесь.
  3. Вся отрасль нуждается в смене парадигмы от ИИ, ориентированного на модели, к ИИ, ориентированному на данные.
  4. Не пропустите слепое пятно в ваших показателях точности.

Надеюсь, вы оцените эти уроки так же, как и я. Вот что мне нравится в классах Эндрю Нг: вы приходите за советами и рекомендациями, но остаетесь ради философии.

Пожалуйста, поделитесь своими собственными крупицами мудрости в разделе комментариев. Дайте мне знать, если хотите, чтобы я опубликовал еще четыре крупицы мудрости. Вот несколько идей в качестве тизера: «Мир состоит из четырех типов специалистов по данным. Спросите совета у правильных». и «Самый недооцененный навык специалиста по данным».