«Будущее не зависит от прошлого, учитывая настоящее».

На первый взгляд безобидная строка, вставленная в слайд № 24 просто еще одной лекции из другого класса, который я недавно проходил, в конечном итоге стала полным откровением с точки зрения того, как мы думаем и как мы действуем (по крайней мере, как я думаю и действую). Прежде чем я перейду к этому, позвольте мне вкратце рассказать, как я наткнулся на это утверждение. Я также позволю себе немного взглянуть на работу модели, слоган которой потенциально может стоить миллионы долларов.

Недавно я начал смотреть эти лекции по Обучение с подкреплением Дэвида Сильвера, ведущего программиста в команде AlphaGo в Google DeepMind (блестящая педагогика для тех, кто интересуется RL). Для непосвященных Обучение с подкреплением - это подполе машинного обучения, которая занимается процессом принятия решений на основе вознаграждений, получаемых агентом. Позвольте мне прояснить это: любую цель, достижимую агентом, можно описать как максимизацию ожидаемого совокупного вознаграждения. С точки зрения непрофессионала, если агент хочет достичь своей цели, вознаграждение, связанное с действиями, которые он предпринимает для достижения этой цели, будет максимальным.

В качестве примера рассмотрим процесс обучения робота-гуманоида ходить; положительное вознаграждение может быть составлено в том случае, если робот достигает пункта назначения (или делает каждый шаг в направлении пункта назначения), тогда как отрицательное вознаграждение может быть связано с действием, при котором робот падает, или совершает действие, отодвигающее его от своей цели. (Это наивный пример, поскольку робот может в конечном итоге получить положительное вознаграждение, удаляясь от цели, если он исследует лучшие глобальные пути для достижения цели). Именно благодаря комбинации этих положительных и отрицательных наград робот в конечном итоге узнает, как достичь потенциального пункта назначения.

Такие процессы можно легко визуализировать, если агент находится в определенном состоянии и предпринимает действия, рассматривая вознаграждения для всех немедленно доступных будущих состояний и двигаясь к состоянию, в котором вознаграждение является максимальным (да, это действительно звучит немного апокрифически, но поверьте мне, это не так). Нетрудно проанализировать, что жадный агент предпримет действие, которое соответствует наивысшей возможной награде из текущего состояния.

Цепи Маркова являются основой обучения с подкреплением, поскольку они помогают построить концепцию принятия решений очень упрощенным способом; всю последовательность состояний, в которых находился агент, можно свести к его текущему состоянию, т. е. следующее достижимое состояние может быть предсказано текущим состоянием агента, независимо от исторической последовательности состояний, в которых находился агент. Следующая картинка кратко иллюстрирует эту идею:

Метки на краях обозначают вероятности перехода в следующее состояние из текущего. Например, если сегодня дождливый день, вероятность того, что завтра будет снежным, составляет 0,02, что будет дождливо - 0,8 и так далее.

Другой простой пример, объясняющий цепи Маркова, можно проиллюстрировать следующим образом: Представьте, что вы посещаете архипелаг с мостами, соединяющими острова. Мосты представляют собой вероятности перехода с одного острова на другой. Остров, на котором вы будете завтра, определяется островом, на котором вы находитесь сегодня, и ваши предыдущие должности не имеют ничего общего с решением.

Для математически ориентированной формулировки модели Маркова можно описать как:

Состояние S_t + 1 является марковским тогда и только тогда, когда (простите за отсутствие нижнего индекса):

Объяснение: Вероятность перехода в следующее состояние с учетом всей последовательности состояний, в которых находился агент [RHS], равна вероятности перехода в следующее состояние с учетом текущего состояния [LHS]. Другими словами, поскольку вся информация о прошлых состояниях уже собрана в текущем состоянии агента, мы можем предположить, что вероятность перехода из текущего состояния в следующее зависит исключительно от текущего состояния.

Это также можно сформулировать как:

«Будущее не зависит от прошлого, учитывая настоящее.»

Именно по этой строчке на слайдах первой лекции я понял, как прекрасно это утверждение применимо не только к марковским моделям, но и ко всей нашей жизни. Решения, которые формируют наше будущее, зависят исключительно от выбора, который мы делаем с учетом нашего текущего состояния ума; весь наш прошлый опыт неявно включен в наше текущее состояние в том смысле, что он привел нас туда, где мы находимся сегодня.

Сожаление о прошлых выборах не изменит ничего в более широкой схеме того, как все будет разворачиваться во Вселенной, сетование только скажется на нас и затуманит процесс принятия решений для нашего будущего. Итак, давайте попробуем отпустить прошлое, максимально используя то состояние, в котором мы находимся в данный момент.

Давайте подражаем рациональному агенту в принятии оптимальных решений, анализируя вознаграждение за все возможные действия в нашей текущей ситуации. Что может быть лучше искусственного интеллекта, чем люди, постоянно принимающие рациональные решения, я прав! ;-)