Заявление об ограничении ответственности: цель этой статьи - не принижать значение машинного обучения в любой форме или форме. Машинное обучение - это прекрасно, я зарабатываю им на жизнь! Дело в том, чтобы просто изучить края и попытаться увидеть, что находится за ними.

Представьте себе молодого Исаака Ньютона, сидящего под деревом, когда он замечает падение яблока. Он думает об этом на мгновение и понимает, что никогда не видел, чтобы яблоко делало что-то еще, кроме как падать прямо вниз. Они никогда не идут вверх или вбок.

Если бы Ньютон знал о машинном обучении и имел настоящие машины для обучения, то вот как он мог бы это сделать. Во-первых, он мог бы создать задачу классификации с тремя метками класса: «вниз», «вверх» и «сбоку». Затем он собирал данные о направлении падения яблок. Он бы заметил, что его набор данных сильно несбалансирован. Но неустрашимый он пошел бы дальше и обучил своего классификатора. Если бы его классификатор был хорош, он в большинстве случаев предсказывал бы «вниз» как направление падения.

Если бы он был еще более предприимчивым, он бы заметил, что время, за которое яблоко падает на землю, больше для более высоких деревьев. Чтобы придумать лучшую модель, он измерил бы высоту каждой яблони, которую смог найти. А потом он вставал под каждого из них, ожидая, когда упадет яблоко. В каждом случае он записывал время, за которое яблоко упало на землю. Проведя некоторый исследовательский анализ данных, он понял бы, что сможет подобрать лучшую модель линейной регрессии, если бы использовал в качестве признака квадратный корень из высоты дерева. Наконец, он подошел к этой модели линейной регрессии и получил очень хорошее соответствие.

Вооружившись всеми этими идеями, он сформулировал бы «Закон падающих яблок»: Яблоки почти всегда падают прямо вниз, и время, необходимое для их падения на землю, примерно пропорционально квадратный корень из высоты дерева.

К счастью для всех, Ньютон совершенно не обращал внимания на машинное обучение. Вместо этого он пошел по старинке. Он серьезно задумался над этой проблемой и пришел к выводу, что падение яблок прямо вниз является проявлением более глубокого принципа. Этот глубоко лежащий в основе принцип влияет не только на яблоки, падающие с деревьев, но и на все вокруг нас. Это в равной степени влияет на землю и небесные тела. Это влияет на все во Вселенной. Ньютон сформулировал закон всемирного тяготения.

История о том, что Ньютон сформулировал закон всемирного тяготения после того, как увидел падение яблока, вероятно, апокрифичен. Однако это очень хорошая иллюстрация того, что действительно делает науку такой могущественной - ее способности к обобщениям, способности находить универсальные истины на основе ограниченных данных. По своей сути, научное исследование основывается на наборе основополагающих предположений относительно природы Вселенной. В значительной степени машинное обучение основывает свою эмпирическую методологию на науке, заменяя человеческую изобретательность, когда это возможно, вычислительными мощностями. Но как далеко заходит это сходство? Чтобы ответить на этот вопрос, давайте сыграем в игру аналогий.

Фундаментальная гипотеза науки состоит в том, что во Вселенной существует порядок, ожидающий своего открытия. Хотя это может показаться тривиальным, без этого основного убеждения никакие научные исследования невозможны. В случае науки мы не останавливаемся на рассмотрении важности этой гипотезы, потому что она подтверждается снова и снова. Мы просто принимаем это как должное.

Но как насчет машинного обучения? Что ж, машинное обучение занимается не судьбой всей вселенной, а данными. По сути, машинное обучение - это искусство приближения функций с помощью индуктивного обобщения, то есть умных способов «угадать» форму функции на основе выборок данных. Приведенное выше утверждение явно верно для обучения с учителем. Немного подумав и уточнив, можно убедиться, что это справедливо для обучения с подкреплением и обучения без учителя. (В интересах простоты я останусь ближе к языку контролируемого обучения в остальной части сообщения).

Чтобы угадать функцию, нужно предположить, что функция существует изначально, а функция есть не что иное, как кодификация закономерностей. Таким образом, первая фундаментальная гипотеза машинного обучения: весьма вероятно, что наблюдаемые данные будут содержать закономерности, ожидающие своего обнаружения.

Или, другими словами, для входных X и выходных Y существует функция F такая, что

Y = F(X).

В отличие от науки, первая гипотеза о машинном обучении не является данностью, а скорее должна проверяться на каждой выборке данных. Если окажется, что это не соответствует действительности, машинное обучение не имеет особого смысла для этого набора данных.

Закономерности полезны, потому что они помогают предсказать неизвестное из известного. Но для этого нужно уметь выразить их на достаточно мощном языке. В физических науках это язык математики. Ключевая гипотеза состоит в том, что математика обеспечивает достаточную основу для выражения и использования закономерностей физических явлений. Опять же, это может показаться тривиальным наблюдением, но это далеко не так. Без его действия большая часть грандиозного здания, на котором зиждется большая часть современной науки и техники, рухнет.

Язык машинного обучения также является математическим, хотя и в несколько более узком смысле. Математический механизм, лежащий в основе машинного обучения, - это кусочно-дифференцируемые функции в векторных пространствах (грубо говоря, исчисление и линейная алгебра). У этого оборудования есть два очень особых свойства. Во-первых, можно конкретным образом определить понятие «близости» и, следовательно, понятие «изменения» в векторном пространстве (путем определения расстояния). Во-вторых, для кусочно-дифференцируемых функций небольшие изменения приводят к небольшим эффектам. Вместе эти два свойства в конечном итоге ответственны за огромную мощь машинного обучения; его способность делать обобщения, выходящие за рамки наблюдаемых данных.

Следовательно, чтобы успешно применить машинное обучение к любому набору данных, мы должны иметь возможность преобразовать данные в форму, которая поддается обработке базовым механизмам,

Y = F(X) = O(G(I(X)))

где I и O - это преобразования исходного представления и обратно в то, в котором можно применять оборудование (представление пространства элементов), а G - функция или модель, построенная с использованием механизмов в представлении пространства признаков.

Упомянутые выше свойства, которые делают представление пространства признаков чрезвычайно мощным, также делают его невероятно ограниченным. Не следует ожидать, что каждый набор данных будет иметь соответствующее представление пространства признаков. Однако большинство так и поступает, что приводит ко второй фундаментальной гипотезе машинного обучения: если наблюдаемые данные показывают закономерности, то весьма вероятно, что существует представление данных, в котором небольшие изменения вызывают небольшие эффекты.

Акт преобразования необработанных данных в представление пространства признаков называется проектированием признаков. По словам Эндрю Нг - Придумывать новые функции сложно, требует много времени и экспертных знаний. «Прикладное машинное обучение» - это, по сути, разработка функций. Успех задачи машинного обучения во многом зависит от способности найти правильные преобразования I и O. Очень часто они с любовью создаются вручную с использованием сочетания глубоких знаний в предметной области и тайного колдовства!

Глубокое обучение призвано несколько облегчить это бремя, частично автоматизировав процесс разработки функций. По сути, в глубоком обучении преобразования I и O выполняются первым и последними несколькими слоями глубокой нейронной сети. Таким образом, рутинная рутинная работа по нелинейным преобразованиям передается машинам на аутсорсинг, в то время как человеческая изобретательность остается зарезервированной для более действенных выводов.

Играя в аналогии, мы обязательно заметим, что в науке есть одна последняя фундаментальная гипотеза. Это предположение о том, что универсальные истины существуют и что различные явления являются просто проявлениями этих универсальных истин. Именно эта гипотеза позволяет науке делать обобщения от узкого набора наблюдений до универсальных законов, охватывающих множество явлений. Чтобы быть ясным, одно только это предположение не проявляет автоматически эти универсальные законы. Нужен гений Ньютона, чтобы вывести закон всемирного тяготения, наблюдая за падающими яблоками. Но, в конце концов, именно эта гипотеза обеспечивает основу для этих прыжков интуиции, превращая науку из упражнения по сбору штампов в двигатель прогресса и просвещения.

Можно ли сделать аналогичную гипотезу в машинном обучении? Конечно, машинное обучение не преследует никаких грандиозных планов открытия универсальных истин. Однако он может и должен иметь амбиции вырваться из узких доменных границ. Несомненно, возможность идентифицировать кошек на фотографиях после просмотра миллионов изображений с кошками полезна. Однако было бы гораздо полезнее, если бы можно было использовать эти данные, чтобы сделать некоторые выводы о том, как в целом составляются изображения. Или, что еще лучше, можно сказать что-нибудь о намерениях или эмоциях фотографов, стоящих за фотографиями.

Обратите внимание, что это другое обобщение. Это не тот вид обобщения, который обязательно стремится к универсальности. Скорее, это тот вид, который можно передавать. Может передаваться из разных областей - от области изображений кошек до области визуальной композиции или области человеческих эмоций. Но как нам найти такие переносимые обобщения?

Что, если бы представления пространства признаков были не просто вычислительными костылями, а закодировали что-то более глубокое? Что, если бы модели в этом представлении (G) были не просто рабочими инструментами для соединения входов и выходов в этой конкретной области, но фактически выявляли лежащие в основе структурные закономерности, охватывающие несколько областей?

Как выясняется, эти «а что, если» - не просто принятие желаемого за действительное. Существует много ситуаций, когда наблюдаемые данные действительно обладают этой особенностью передаваемой общности. Это важное наблюдение лежит в основе фундаментальной предпосылки трансферного обучения. Таким образом, третья фундаментальная гипотеза машинного обучения: (трансферное обучение) существуют ситуации, в которых наблюдаемые данные являются проявлением основных (возможно, вероятностных и приближенных) законов.

Как и в предыдущих случаях, одной лишь догадки недостаточно для достижения прогресса. Есть много вопросов, на которые пока нет ответа. В каких ситуациях можно перенести обучение? Как узнать, правильно ли вы разбили F между I, G и O? Ведь они уникальны только до трансформации. Является ли глубокое обучение единственным методом, который может извлечь выгоду из трансферного обучения?

Мы только начинаем осознавать потенциал трансфертного обучения в переводе машинного обучения на новый рубеж - междоменное обобщение. По словам Эндрю Нг, трансферное обучение станет следующим фактором успеха машинного обучения. Такой оптимизм вполне обоснован. Трансферное обучение предоставляет машинному обучению тот неуловимый мост, чтобы перейти от падающих яблок к закону тяготения.