Что я узнал, работая с 12 стартапами по машинному обучению

8 уроков о продуктах, данных и людях

Я работал с 12 стартапами. Они охватывают вертикали от финтеха и здравоохранения до образовательных технологий и биотехнологий и варьируются от предварительных посевных до постдействующих. Мои роли также менялись: от опытного сотрудника №1 до главы отдела науки о данных и стратегического советника. Во всех из них я работал над интересными проблемами машинного обучения и науки о данных. Все старались создавать отличные продукты. Многим это удалось.

Вот что я узнал.

Речь идет о создании продуктов, а не об ИИ.

Как математик с карточками, меня изначально больше всего вдохновляла наука о машинном обучении и задача придумывать новые творческие алгоритмы и методы.

Но вскоре я понял, что даже самые точные модели машинного обучения сами по себе не создают ценности. Ценность машинного обучения и искусственного интеллекта измеряется в контексте продуктов, которые они используют. Понимание того, как это сделать эффективно - вот в чем суть создания продуктов на основе машинного обучения.

Дело в проблеме, а не в методе

Если цель - создать продукт, то машинное обучение и искусственный интеллект - это средства для достижения цели. Важно то, насколько хорошо они решают проблему с вашим продуктом, а не то, какой метод вы используете. В большинстве случаев быстрые и грязные решения уведут вас довольно далеко. Не тренируйте глубокую нейронную сеть, если простая регрессия подойдет.

Когда вы сосредотачиваетесь на проблеме, иногда вы можете обнаружить, что машинное обучение - не лучший инструмент для ее решения. Многие проблемы в основном связаны с процессом. Даже в этих ситуациях специалисты по обработке данных могут внести большой вклад, поскольку они, естественно, склонны придерживаться строгого подхода, основанного на данных. Но это не делает исправление плохого процесса с помощью ИИ хорошей идеей. Вместо этого исправьте процесс.

Ищите синергию между данными и продуктом

Реальная ценность машинного обучения редко исходит из того, что мы берём существующий продукт и добавляем к нему прогнозы из модели машинного обучения. Конечно, это добавит некоторой дополнительной ценности. Но в сильных продуктах искусственного интеллекта машинное обучение - это не просто надстройка. Это двигатель создания ценности, и продукт создается с учетом этого механизма: продукт и данные должны работать синергетически.

Если все сделано правильно, это приводит к мощному эффективному циклу, который я назвал соответствие продукта / данных: продукт эффективно осознает потенциальную ценность данных, продолжая генерировать необходимые данные для дальнейшего улучшения продукта.

В частности, искусственный интеллект не может оставаться изолированным от специалистов по обработке и анализу данных. Другие части организации, от продуктового до исполнительного, должны участвовать в разговоре, чтобы ускорить процесс создания ценности. Это требует значительного образования и участия, выходящих за рамки того, к чему инженеры обычно привыкли при создании программного обеспечения, даже в стартапе.

Сначала данные, потом ИИ

Машинному обучению и ИИ требуется много данных и, что более важно, данные высокого качества. Если вы создаете продукт с нуля, подумайте о сборе данных с первого дня. Если вы внедряете технологии искусственного интеллекта в существующий продукт, будьте готовы вложить большие средства в разработку данных и реструктуризацию, прежде чем переходить к части искусственного интеллекта.

Это не означает, что вы должны выполнить всю работу заранее, прежде чем осознаете какую-либо ценность. Более совершенные операции с данными означают более качественную аналитику, которая имеет решающее значение для обучения и совершенствования любой организации. Используйте эти победы, чтобы продемонстрировать ценность и заручиться поддержкой организации. И когда ваша аналитика станет надежной, вы готовы начать думать о машинном обучении по-настоящему.

Инвестируйте в эффективное общение

Создание отличных продуктов требует хороших менеджеров по продуктам и поддержки со стороны руководителей. В то время как многие соблазняются мощью ИИ и глубокого обучения, мало кто из нетехнических специалистов действительно понимает эти технологии. Эффективное обсуждение машинного обучения и искусственного интеллекта требует глубокого понимания статистики, создавая коммуникационный разрыв, который часто приводит к нереалистичным ожиданиям.

Одним из ключевых ингредиентов является поддержание постоянного разговора о бизнес-показателях и о том, как они преобразуются в показатели моделирования. Это возлагает большую ответственность на менеджера по продукту, но в равной степени и на специалистов по обработке данных, которым необходимо развивать знания в предметной области и глубоко понимать бизнес-соображения, чтобы быть по-настоящему эффективными.

Быстро и грязно на самом деле не так уж и грязно

Как я уже упоминал выше, быстрые и грязные методы приведут вас довольно далеко. Отчасти потому, что сегодняшнее быстрое и грязное вчерашнее медленное и точное. Такие инструменты, как word2vec, стали почти такими же простыми в использовании, как и регрессия, а новые мощные инструменты постоянно вводятся. Твердое понимание различных строительных блоков и связующего звена между ними важно для любого специалиста по данным.

Одним из следствий этого бурного роста инструментов с открытым исходным кодом является то, что в большинстве случаев разработка проприетарных платформ машинного обучения - не лучшая идея. Конечно, у вас должны быть проприетарные алгоритмы, которые берут хорошо известные строительные блоки и адаптируют их к вашей проблеме и вашей области. Но оставьте исследования глубокого обучения людям в Google - сосредоточьтесь на бизнес-проблемах, помните?

Если сомневаетесь, покажите данные

Самым важным действием на ранней стадии разработки продукта является получение обратной связи с рынком. Но машинному обучению требуется много данных, а на их получение уходит много времени. Это создает проблему: как получить представление о рынке информационного продукта, не имея большого количества данных?

Лучшее решение - просто показать данные пользователям. Люди могут обрабатывать только небольшие объемы данных за раз, поэтому не имеет значения, если у вас их мало. Как ваши пользователи взаимодействуют с данными, которые вы им показываете? Где они замалчивают и где хотят копнуть глубже? Раскрытие информации, которая ранее была недоступна, может иметь очень важное значение и дать вам четкое представление о потенциальной коммерческой ценности ваших данных.

Завоевать доверие

Доверие - главный фактор успеха большинства технологий. В конце концов, все технологии используются людьми, и люди должны доверять им. В контексте приложений машинного обучения некоторые из этих людей могут быть обеспокоены автоматизацией своей работы. Другие полагаются на информацию, предоставленную вашей технологией, чтобы принять важное решение.

Продукт искусственного интеллекта, который усугубляет эти опасения, например, пытаясь принимать решения за за человека, а не расширяя его возможности, приведет к быстрой эрозии доверия.

Доверие легко потерять и трудно восстановить. Создавайте продукты, которым доверяют.