Разговор с профессором Натаном Майклом, техническим директором.

Что мы понимаем под исследованием роботизированных систем?

Как правило, когда мы говорим об исследовании с помощью автономной роботизированной системы типов сценариев, которые мы рассматриваем, мы говорим о развертывании этой роботизированной системы в неизвестных средах. Цель этого развертывания и исследования – дать возможность отдельному роботу перемещаться в этой среде, получать информацию и уменьшать неопределенность в отношении окружающей среды по мере ее развития.

Проблема с исследованием заключается в том, что система не знает, как выглядит окружающая среда, поэтому ей необходимо создавать карту по мере изучения среды, чтобы уменьшить эту неопределенность и эффективно исследовать. Создавая эту карту, робот выясняет, как сконфигурирована среда, где среда расширяется и как перемещаться по этой среде, чтобы узнать о ней больше.

Как формулируется исследование? Иными словами, как мы можем увидеть проявление интеллекта через исследование?

Если мы вернемся к определению исследования как робота, принимающего решения о том, куда ему следует двигаться в окружающей среде, чтобы узнать больше и уменьшить неопределенность в отношении этой среды, то исследование формулируется как вопрос о выяснении того, какие текущие знания об окружающей среде и использование этой информации, чтобы определить, куда должна пойти система, чтобы иметь возможность узнать больше.

Рассмотрим робота, который только начинает исследовать новую среду: сначала он сможет видеть только небольшую часть этой среды. Область непосредственно вокруг него будет восприниматься относительно четко, но области окружающей среды, которые находятся дальше, будут менее четкими. Итак, робот будет думать о тех участках карты, которые он ясно воспринимает — которые он понимает — и будет выяснять, какие участки он понимает меньше или совсем не понимает. Он решит пойти в те места, где у него нет понимания или минимальное понимание, чтобы лучше понять эти области. И он будет продолжать это делать до тех пор, пока не сможет устранить неопределенность и построить полную карту окружающей среды.

По мере исследования робот начинает проявлять интеллект, оценивая, какие наблюдения за окружающей средой являются наиболее информативными. Как это работает, так это то, что в каждый момент времени робот спрашивает себя, какое действие он должен предпринять, чтобы уменьшить свою неопределенность в отношении окружающей среды, наблюдаемой в настоящее время. И этот шаг позволяет ему оценить и предсказать, какое из этих действий будет наиболее информативным. Это позволяет системе подумать о том, как ее способность двигаться повлияет на ее понимание окружающей среды. Таким образом, разум начинает проявляться, когда мы строим этот шаг и начинаем думать о дальнейших шагах. Не просто задавать вопрос о том, что произойдет в течение следующих нескольких секунд, а задавать вопрос о том, что произойдет в течение следующих нескольких секунд. Для этого робот будет использовать предыдущие знания и наблюдения, чтобы предсказать, что он увидит, продолжая исследовать.

Этот процесс обучения или понимания того, как различные действия преобразуются в различное получение информации, напрямую связан с этими идеями обучения с подкреплением и с этим процессом, позволяющим системе думать о том, какие действия она может предпринять, чтобы самым непосредственным образом улучшить ее исследовательскую производительность при данных условиях. ряд различных факторов, таких как количество времени, которое требуется, или количество затрачиваемой энергии. И чем больше система это делает, тем больше она узнает об окружающей среде, что, в свою очередь, позволяет повысить производительность. Это достигается за счет экстенсивной или непрерывной работы как функции обучения с подкреплением.

Как это связано с обучением с подкреплением?

Мы обсуждали обучение с подкреплением как концепцию обучения, основанную на каком-то вознаграждении. В этом случае вознаграждение можно рассматривать как дополнительную информацию, полученную в результате исследования.

Итак, подумайте об этом так: робот может очень легко думать о том, что он видит в настоящее время в окружающем мире, и он может очень легко принимать действительно краткосрочные решения о том, куда ему следует пойти, чтобы узнать больше об этом мире. Но задача решить, где исследовать дальше, становится намного сложнее, когда роботу приходится думать о том, куда ему следует двигаться дальше.

Итак, когда мы исследуем среду, мы используем историческую информацию об определенных характеристиках или чертах этой среды, чтобы информировать о решениях, которые мы принимаем в долгосрочной перспективе. Оценка этой информации в долгосрочной перспективе важна, потому что, если бы мы принимали решения, основанные только на краткосрочной перспективе, система работала бы неоптимально — мы называем это «жадной оптимизацией».

Можете ли вы уточнить концепцию «жадной оптимизации»?

Вы можете думать об обучении с подкреплением как о накоплении опыта. Чем больше система исследует здание, тем лучше она понимает, как эффективно исследовать здание. Затем, если она попадает в аналогичную среду, система может использовать те же методы, которые применялись ранее, чтобы сделать ее более эффективной. Чем больше он исследует, тем лучше он может думать не только о том, какие действия он должен предпринять немедленно, но и о том, какие действия он должен предпринять в течение более длительного периода времени, что приведет к превосходной производительности.

Опять же, наградой здесь является получение информации благодаря этой превосходной работе. Система работает над оптимизацией своей производительности, чтобы максимизировать объем информации, которую она может собрать в битах в секунду. Это оценка количества полученной информации по сравнению с некоторым количеством затраченного времени. И количество рассматриваемого времени является важным фактором, потому что если вы максимизируете эту проблему за слишком короткий промежуток времени, вы столкнетесь с неоптимальной, «жадной» оптимизацией. Его сложнее максимизировать за более длительный период времени, учитывая, что неизвестных больше, но в целом такой подход приведет к лучшим решениям.

Почему лучше оценивать проблему оптимизации в долгосрочной перспективе?

Когда вы планируете свой маршрут к месту назначения, вы не думаете о том, какими будут следующие три шага. Вместо этого вы думаете о том, куда вы идете, и о том, как лучше всего добраться оттуда, где вы находитесь, туда, куда вы хотите попасть. Вы думаете о более долгосрочной перспективе и пытаетесь оптимизировать ее, а не просто сделать три или четыре шага, а затем еще три или четыре шага.

Вы можете сделать это, потому что у вас есть некоторое представление о том, как будет разворачиваться окружающая среда. исходя из вашего исторического опыта. Вы получили представление о том, как обычно устроена среда, основываясь на тенденциях, которые вы наблюдали в ходе предыдущих наблюдений. И это позволяет вам принимать решения относительно того, куда вы должны идти, и оптимизировать свой путь, чтобы направить себя туда как можно быстрее. Вы можете использовать это общее чувство, чтобы принимать решения даже перед лицом неопределенности, потому что вы узнали что-то ранее.

Мы нанимаем! Присоединяйтесь к команде Shield AI!