Go, AI, Go!

Возможно, в своих мифологиях искусственный интеллект будущего расскажет о подвигах AlphaGo, воина черно-белых камней, победившего полчища людей (даже продвинутый цифровой интеллект хотел бы преувеличить…).

Го — стратегическая игра китайского происхождения, старейшая из тех, в которые до сих пор играют. В имперском Китае это считалось скорее искусством, чем развлечением, и было включено в четыре основных искусства наряду с живописью, каллиграфией и музыкой.

Игровое поле представляет собой шахматную доску («гобан»), состоящую из 19 горизонтальных и 19 вертикальных линий, что составляет 361 пересечение. У игроков есть определенное количество шашек («камней»), белых или черных, которые нужно расставлять по очереди на пустых перекрестках. Цель игры состоит в том, чтобы окружить больше пространства (пустых перекрестков) противника своими камнями.

Шахматы — «разрушительная» игра, в которой сложность уменьшается с каждым ходом. Обратное верно для го, в котором сложность возрастает: это означает, что количество возможных позиций составляет порядка 10¹⁷⁰, что намного больше числа атомов во всей вселенной, 10⁸⁰. Го более интуитивна, чем шахматы: их можно представить в виде огромного дерева, полного разветвлений, а Го — в виде абстрактного ландшафта, в котором можно распознавать закономерности и структуры.

Навигация в этом океане возможностей делает игру бесконечным опытом, холстом в вечном переплетении, в котором переплетаются интуиция и логика, поэзия и математика. Как и в последнем случае, простые правила порождают «прекрасные сложности». Недаром го любят многие математики, которые рассматривают конечную позицию в игре как математическую гипотезу, а игру — как логические шаги, необходимые для доказательства этой гипотезы.

Еще несколько лет назад те же самые математики, опытные игроки и программисты соглашались с тем, что чрезвычайно сложно написать программу, которая удовлетворительно играла бы в го: по их прогнозам, потребуются десятилетия, чтобы подражать мастерству лучших шахматных программ, способных сегодня обыгрывать даже чемпионов мира (не будучи DeepBlue…).

Они были не правы.

Демис Хассабис был вундеркиндом в области компьютерных наук, принятым на работу в возрасте 16 лет из Кембриджского университета. В последующих курсах по ИИ профессора настаивали на том, чтобы подчеркивать невозможность того, чтобы компьютер прилично играл в го. Он воспринял это как вызов.

Его идея была проста: вместо того, чтобы писать программу для игры в го, напишите метапрограмму. Программа, которая сама научилась тому, что нужно, как младенец.

Для этого он понял, что ему нужно углубить свои знания о человеческом мозге, и получил докторскую степень в области неврологии в Университетском колледже Лондона.

На данный момент — мы в 2010 году — с двумя партнерами он основал компанию DeepMind.

Они начали с чего-то простого. Они взяли старую игру Atari, Breakout (да, ту, что кирпичную стену сбить) и написали программу, которая получала на вход состояние пикселей на экране, текущий счет и цель его максимизировать. Типичный пример обучения с подкреплением, метода машинного обучения, при котором алгоритм обучается, взаимодействуя с окружающей средой. Процесс происходит без участия человека: программа получает награды за правильное выполнение задач и штрафы за их неправильное выполнение. Усиленное обучение — это классический метод, заимствованный из поведенческой психологии: положительное вознаграждение усиливает склонность делать что-то снова и наоборот.

Программа начала играть случайными ходами, потом они становились все более и более эффективными. Он быстро нашел прием, который открыли для себя все дети 80-х после сотен игр: открыть дыру в стене, впустить в нее мяч и разрушить стену изнутри.

В 2014 году программам, «инкубированным» DeepMind, удалось преодолеть человеческие способности в 49 играх Atari. Исследование также было опубликовано в престижном научном журнале Nature.

В то время в компании — гибриде стартапов и академий — было 400 инженеров и нейробиологов. Google купил его за 500 миллионов долларов.

Удовлетворенный по понятным причинам, Хассабис сосредоточился на своем вызове го.

Проект по созданию цифрового мастера получил название AlphaGo.

Программа основана на нейронных сетях. Он начался с базы данных из 30 миллионов позиций, полученных в результате игр между людьми.

Глубокая нейронная сеть была обучена с помощью обучения с учителем для расчета из каждой позиции наиболее перспективных ходов. Этот первый этап длился три недели. На данный момент программа обладала навыками игрока-любителя.

На второй фазе (обучение с подкреплением) — продолжительностью один день — программа начала играть против самой себя, совершенствуясь. К первой была добавлена ​​вторая нейронная сеть. Его задачей было оценить текущую ситуацию на доске: чем выше значение, тем больше шансов на победу. Чтобы вычислить это значение, необходимо смоделировать следующие ходы. Использовалась старая техника ИИ: исследование дерева возможностей с помощью алгоритма поиска по дереву Монте-Карло. Исследование стало возможным и менее дорогим благодаря результатам двух нейронных сетей.

Еще одна неделя обучения, и AlphaGo был готов к испытаниям с человеком-мастером.

В 2015 году в секретном тесте AlphaGo победила чемпиона Европы китайского происхождения Фань Хуэя со счетом 5–0. Программа продолжала учиться.

В марте 2016 года настала очередь корейского чемпиона мира Ли Седоля, одного из величайших ныне живущих мастеров. На этот раз конкурс рекламировался и транслировался в прямом эфире из Сеула. Победитель заработал бы миллион долларов.

Тем временем Фан Хуэй стал своего рода «тренером» AlphaGo, находя слабые места в его игре и помогая улучшить его результаты. Да, мы словно заново переживаем эпическую историю Рокки и Аполло Крида…

В первой игре челленджа победила AlphaGo. Ли Седоль сказал, что не ожидал пропустить игру. Но худшее было еще впереди для него. Во второй партии AlphaGo сделал совершенно неожиданный, неортодоксальный, «чужой» ход, как показал западный мастер Майкл Редмонд. Шок мира игроков в го велик. Тысячелетия человеческих испытаний не привели к такой стратегии. Фань Хуэй проигрывает вторую игру и, в конце концов, проигрывает со счетом 4–1.

AlphaGo осталась невозмутимой. Ни даже «гудок» удовлетворения. Но он показал, что у него есть интуиция и творчество.

На этом история не заканчивается.

AlphaGo все еще имеет человеческое наследие, начав процесс обучения с игр, в которые играют люди.

В DeepMind хотят пойти дальше.

Создана новая версия программы AlphaGo Zero. Как это ни парадоксально, он проще предыдущего, с одной нейронной сетью, которая охватывает две существующие. На этот раз никакого человеческого «загрязнения»: AlphaGo Zero проинструктирована по правилам го и вынуждена играть только сама с собой. После 40 дней и 29 миллионов сыгранных игр он готов бросить вызов своему предшественнику.

В 100 раз быстрее и в 10 раз эффективнее AlphaGo Zero превосходит AlphaGo со счетом 100:0.

Без биологических предубеждений и с возможностью «заглянуть за пределы» AlphaGo Zero может свободно выражать свой потенциал.

Как эту историю воспринял мир Го? Как невыносимая неудача? Как непреодолимое разочарование? Наоборот. Игроки, в том числе Фан Хуэй, первая «жертва», в свою очередь, научились у цифрового противника, улучшая свою игру и используя новые стратегии, которые ранее были «заблокированы» в силу традиции.

Наследие проекта AlphaGo выходит за рамки игровых программ; несколько особенностей делают его важным шагом на пути к AGI (искусственному общему интеллекту), цифровому интеллекту, способному конкурировать с людьми во многих областях, а не только в ограниченных областях. Однако, в частности, проект показал, что в секторах, где важны стратегии, таких как инвестиции, политический и военный ИИ почти готов бросить вызов (или помочь) лучшим стратегам-людям.

Говоря о стратегиях — в данном случае геополитических — следует отметить, что успех AlphaGo имел огромный резонанс в Китае, родине го, настолько, что китайское правительство приступило к реализации крупного инвестиционного плана, который должен стать к 2030 г. главный инновационный центр искусственного интеллекта в мире.

Источники

Джон Брокман (под редакцией), Возможные умы: двадцать пять способов взглянуть на ИИ,Penguin Press, 2019 г.

Маркус Дю Сотуа,Код творчества: как ИИ учится писать, рисовать и думать,Fourth Estate, 2019 г.

Терренс Дж. Сейновски, Революция глубокого обучения,The MIT Press, 2018 г.

Макс Тегмарк, Жизнь 3.0: быть человеком в эпоху искусственного интеллекта,Penguin, 2017 г.

Дон Чан, ИИ, которому нечему учиться у людей

Джонатан Хуи, AlphaGo: как это работает технически? (Краткое, но понятное техническое руководство по работе с AlphaGo…)

Джонатан Хуи, AlphaGo Zero — переломный момент. (Как это работает?) (…и AphaGo Zero)

Дэвид Сильвер, Демис Хассабис, AlphaGo Zero: Начиная с нуля

Дэвид Сильвер и др., Овладение игрой го без человеческого ведома, Nature, 18 октября 2017 г./онлайн, Macmillan Publishers Limited, часть Springer. (Статья, опубликованная в Nature относительно AlphaGo Zero)