Уроки постановки целей из обучения с подкреплением

Как я могу помочь своей команде добиться значительного прогресса в достижении видения?

Очарование машинного обучения и ИИ заключается в том, что значимые проблемы могут быть решены с меньшим количеством ресурсов меньшим количеством людей, что, с оптимистической точки зрения, означает, что большее количество людей получит возможность реализовать свои мечты о том, как сделать мир вокруг нас лучше. Однако великие лидеры знают, что лучший способ достичь такого видения - это с людьми, с группами людей, которые уполномочены создавать решения, услуги и коалиции для достижения этой цели. Даже с самым вдохновляющим видением этим командам может быть сложно научиться наиболее действенным и действенным способам его достижения. С легкой иронией мы можем извлечь убедительные уроки из одного из самых мощных инструментов машинного обучения и искусственного интеллекта, обучения с подкреплением, о том, как это сделать.

Что такое обучение с подкреплением?

Обучение с подкреплением - это форма машинного обучения, используемая для обучения машин решению очень сложных реальных задач, таких как ходьба или вождение автомобиля.

Основная цель обучения с подкреплением - изучить последовательность действий, которые приводят к долгосрочному вознаграждению, - объяснение обучения с подкреплением, О’Рейли

При обучении с подкреплением модель наблюдает за окружающим миром и, основываясь на том, что видит, предпринимает действия. Когда эти действия делают то, что мы хотим, чтобы модель достигла, мы даем им вознаграждение. Модель делает это итеративно, каждый раз узнавая, какие действия приносят ей наибольшее вознаграждение, и в конечном итоге путем целенаправленных проб и ошибок определяет, как наиболее успешно достичь своей цели. То, как мы создаем правила, по которым действия приносят модели, какое вознаграждение, определяет, насколько эффективно и результативно она обучается.

Почему это актуально для команд, пытающихся реализовать видение?

Модель обучения с подкреплением - это далеко не целостное представление о команде людей, но у них есть некоторые важные сходства, из которых мы можем извлечь, чтобы помочь в достижении видения.

Во-первых, команды - это взаимосвязанные информационные системы, как и большинство моделей обучения с подкреплением, состоящие из людей, принимающих разные решения и выполняющих уникальную работу с некоторыми общими результатами. Решения, которые мы принимаем, работа, которую мы делаем, и качество наших результатов зависят от того, какой контекст мы наблюдаем вокруг нас, и от того, как мы выбираем способы обмена информацией между собой.

Во-вторых, решение командных задач возникает на стадии становления; самые эффективные команды - это те, которые обладают навыками и поддержкой для самостоятельного решения проблем. Способные люди, наиболее близко знакомые с проблемами, которые необходимо решить, наиболее эффективны в изучении правильных способов их решения. Машинное обучение родилось из этого наблюдения, что команды, которые учатся для сами решают проблемы лучше всех.

Наконец, сложные, реальные проблемы трудно решить, потому что вначале имеется ограниченная информация о том, как выглядят хорошие и плохие решения. И машины, и команды наиболее эффективны, когда быстро пробуют разные вещи и извлекают уроки из прошлых действий, чтобы принимать более правильные решения в будущем.

Что же тогда направляет обучение команды и сообщает нам, какие решения, которые мы приняли, и действия, которые мы предприняли, с наибольшей вероятностью приведут к достижению нашего видения? Что для нас эквивалентно награде за модель обучения с подкреплением? Для меня и команд, с которыми я работал, это была четко поставленная цель.

Хорошо известно, что постановка целей делает команды в два раза более успешными в достижении их видения, но плохо поставленные цели фактически препятствуют успеху; Важно не просто ставить цели, но и правильно их ставить.

Так чему же награды за обучение с подкреплением могут научить меня тому, как правильно ставить цели?

В качестве примера возьмем амбициозное видение, для достижения которого потребуются исключительные команды и машинное обучение: автономное управление автомобилем.

Разбейте проблемы на компоненты

Хотя технически возможно научить одну модель обучения с подкреплением выполнять всю работу по решению сложной проблемы, во многих практических приложениях имеет смысл разбить проблему на составные части, которые моделируют каждую попытку. решать. Это полезно, потому что:

Часто более эффективно решить часть проблемы, чем решить проблему целиком.
Для одной модели зачастую неэффективно или невозможно обработать все возможные наблюдения и принять все возможные решения.

Разделение проблем на компоненты позволяет командам эффективно принимать решения, которые одному человеку или группе будет невероятно сложно научиться принимать так же эффективно. Хорошо поставленные цели определяют те достижимые компоненты более крупного решения.

Чтобы установить цели, которые определяют достижимые компоненты более крупного решения, используйте иерархические структуры постановки целей, такие как Цели и ключевые результаты (OKR) или Цели, цели, стратегии и меры (OGSM), и спроектируйте их так, чтобы дать возможность командам, которые у вас есть (или те, которые вам нужно создать), чтобы наилучшим образом решить проблемы, в которых они являются экспертами. Сосредоточьте свои цели на результатах, которые действительно необходимы для успеха вашего видения; спросите себя: Если бы мы не достигли этого результата, сможем ли мы реализовать свое видение?

Определите взаимодействие между командами

Разбиение проблем на компоненты может помочь командам и моделям обучения с подкреплением выработать значимые решения для более мелких проблем, но, если неясно, как эти части объединяются, маловероятно, чтобы органично возникло комплексное решение, которое достигнет вашего более широкого видения.

Команде должно быть ясно, что успех нашей работы в конечном итоге зависит от того, как наши решения взаимодействуют с другими, чтобы разрешить более крупную проблему. Например, если то, как одна команда обучает машину оставаться на дороге не позволяет другой команде научить машину избегать других транспортных средств, тогда все вместе мы не научили машину ездить без сбоев, и обе команды провалился.

То же самое и с машинным обучением; один слишком успешный и кажущийся успешным компонент может ухудшить всю модель, если он только научится решать свою конкретную проблему, но не научится эффективно взаимодействовать с другими компонентами. Хорошо поставленные цели проясняют, как меньшие решения должны взаимодействовать друг с другом для достижения более широкого видения.

Чтобы установить цели, которые проясняют, как меньшие решения должны взаимодействовать друг с другом, используйте рекурсивные структуры постановки целей. Вот где действительно проявляются OKR; Использование ключевых результатов команды в качестве цели подгрупп этой команды обеспечивает ясность того, как все цели соотносятся друг с другом. Любой человек или команда могут посмотреть на свои цели и спросить: «Почему я это делаю?», А любой руководитель группы на любом уровне может взглянуть на цели своих команд и спросить: «Как мы собираемся это сделать?»

По сути, цели - это инструмент коммуникации внутри команд и между ними; чем проще, тем лучше. Чем сложнее цель и чем легче ее неверно истолковать, тем труднее научиться ее достигать и тем выше вероятность того, что это приведет к непреднамеренным и бесполезным усилиям.

Правильно формулируйте цели

Структура целей важна, но важнее то, как эти цели определяют успех. Для моделей обучения с подкреплением ключом к успешному вознаграждению, который помогает им эффективно научиться решать проблемы, являются желательные меры, обеспечивающие постоянную обратную связь во время обучения модели. Успешные цели для команд имеют те же характеристики. Что важнее целевого значения, так это то, как измерение дает команде обратную связь о том, насколько хорошо они решают проблему, пытаясь ее решить.

Если цель недостаточно амбициозна («автономно проехать 1 милю на автомобиле»), то вряд ли она заставит команду решать фундаментальные проблемы, необходимые для достижения более широкого видения; обратная связь слишком неглубокая. Кроме того, если цель не обеспечивает относительную обратную связь о том, насколько близка команда («машинам больше не нужны водители»), тогда мы не сможем понять, приближают ли наши решения наши решения к успеху или нет; отзывы слишком скудные. Важное замечание: эта последняя цель неплоха, потому что она слишком сложна, плохая, потому что бесполезна.

Лучшая цель достаточно амбициозна, чтобы команда была вынуждена решать фундаментальные проблемы и обеспечивать повторяющийся эталон, по которому мы можем отслеживать наш прогресс («автономно проехать на машине 1 миллион миль»). Хорошо поставленные цели обеспечивают постоянную обратную связь, которая подталкивает команды к желательным и измеримым результатам.

Чтобы установить цели, обеспечивающие непрерывную обратную связь по желаемым, измеримым результатам, сосредоточьтесь на ведущих показателях, а не на отстающих. Убедитесь, что цели достаточно амбициозны, задав вопрос: Нужно ли нам решать фундаментальные проблемы проблемы, которую мы пытаемся решить, чтобы достичь этой цели? Затем убедитесь, что вы наделяете свою команду отдельными людьми и временем для достижения этих амбициозных целей, или сосредоточьтесь на меньшем количестве целей с командой, которая у вас есть (вместо того, чтобы довольствоваться неудовлетворительными результатами от более непреднамеренных целей).

Оптимизируйте самое важное

Знание того, как лучше всего направлять команды, чтобы научиться решать проблемы, приводящие к достижению видения, порождает еще более важный вопрос: какие проблемы мы должны решить, чтобы достичь этого? Команды выполнят то, что вы измеряете, поэтому измерение правильных вещей является ключевым моментом. В обучении с подкреплением, когда измерение неправильных вещей мешает эффективному решению проблем, он известен как эффект кобры, вдохновленный этой городской легендой:

Исторически сложилось так, что правительство [Дели] пыталось побудить людей помочь им избавиться от кобр. Если граждане принесут ядовитую змею, которую они убили, правительство даст вам немного денег. Естественно, люди начали разводить ядовитых змей.

Предоставьте командам возможность эффективно и автономно решать проблемы для достижения более широкого видения, направляя их к истинной сути успеха, а не к удобным прокси или пустым победам. Правильно поставленные цели стимулируют результаты, которые позволят реализовать видение независимо от того, как команды решат их достичь.

Для этого избегайте театра успеха и метрик тщеславия. Вот как Эрик Рейс представляет концепцию театра успеха в своей книге «Экономичный стартап»:

«… Многие инновационные команды участвуют в театре успеха, выборочно находя данные, которые поддерживают их видение, вместо того, чтобы подвергать элементы видения истинным экспериментам.

С точки зрения постановки целей театр успеха обычно проявляется в виде показателей тщеславия:

Метрики тщеславия - это показатели поверхностного уровня. Часто это большие показатели, такие как количество загрузок, которые впечатляют других ... Метрики ясности - это операционные метрики, например, количество минут в день, в течение которых ваш продукт фактически используется или сколько времени потребовалось пользователю, чтобы получить услугу. Это скрытые механизмы, которые стимулируют рост.

Определите цели, используя показатели ясности, особенно те, которые лучше всего описывают реальные результаты, которые ваше видение намеревается создать в мире. Убедитесь, что цели сфокусированы на правильных вещах, задав вопрос: «Если бы мы достигли этого результата, как описано, и ничего больше, приблизило бы это нас к нашему видению?»

Ресурсы ограничивают цели

Последнее замечание: все цели должны быть установлены с ограничениями ресурсов, которые для большинства целей представляют собой определенный период времени, но также могут быть команды, работающие над этой целью, доступные им ресурсы и т. Д. Бесконечно успешные, но бесконечно дорогостоящие решения будут не приближать команду к видению, чем не иметь никаких решений. Фактически, они уводят их дальше от этого видения, если учесть альтернативные издержки отказа от поиска других жизнеспособных решений.

Хорошо, как я могу использовать это со своей командой?

Таким образом, обучение с подкреплением учит нас правильно ставить цели:

Определите достижимые компоненты более крупного решения
Уточните, как меньшие решения должны взаимодействовать друг с другом для достижения более широкого видения.
Обеспечьте постоянную обратную связь, которая подтолкнет команды к желаемым, измеримым результатам
Стимулируйте результаты, которые реализуют видение независимо от того, как команды решат их достичь
Ограничены ресурсы

Подобно тому, как обучение с подкреплением - это всего лишь один инструмент в обширном и постоянно развивающемся наборе инструментов машинного обучения и ИИ, это всего лишь одна из множества различных платформ для постановки целей и, в конечном итоге, помощи вам и вашим командам в достижении видения. Какие вызовы вам и вашим окружающим приходится решать, чтобы оказать значимое и позитивное влияние на мир? Как эти уроки по постановке целей из обучения с подкреплением могут помочь вам в достижении вашего амбициозного видения улучшения мира вокруг нас?