ML против DL против LLM, с точки зрения количественной оценки неопределенности (UQ)

Мотивация

За последние два десятилетия сообщество машинного обучения (ML) стало свидетелем кардинальных изменений в основных методах. До 2010-х годов большинство исследований и проектов вращались вокруг классических алгоритмов машинного обучения, таких как логистическая регрессия (LR) и машина опорных векторов (SVM). С 2010 года AlexNet и другие модели глубокого обучения (ГО) перенесли мир в эпоху ГО. С тех пор, несмотря на их противоречия, модели глубокого обучения все чаще используются в практических сценариях. Наконец, всего через десять лет после появления DL мы начинаем наблюдать, как большие языковые модели (LLM) привлекают всеобщее внимание. Модели (системы), такие как GPT-4, CLIP и DALL-E, превосходят по производительности свои аналоги DL и обеспечивают новые возможности, такие как классификация нулевого выстрела.

С точки зрения количественной оценки неопределенности (UQ) методы этих трех эпох ставят разные задачи. Хотя первым двум эпохам было посвящено много работы, особенно моделям глубокого обучения, существуют уникальные проблемы с LLM, такие как галлюцинации, которые существующие методы не могут решить тривиально из-за процесса обучения, обучения данные, целевые задачи и другие различия между DL и LLM. Эти различия заставляют нас четко определять характеристики каждой эпохи, что может дать представление о подходящих методах количественной оценки неопределенности для эпохи LLM.

Классическая эра машинного обучения: принципиальная, но менее мощная

Начнем с классической эпохи машинного обучения. Классическая эра машинного обучения — это «золотой век» количественной оценки неопределенности. Модели были разработаны на основе первого принципа или разумной эвристики. Следовательно, пользователи в основном понимали, какие функции использовались и как принимались решения. Возьмем, к примеру, SVM. Первоначальный SVM был просто линейным классификатором, максимизирующим разницу между положительными и отрицательными классами. Функции для линейного классификатора обычно разрабатывались на основе знаний предметной области; оптимальные веса были «выучены» с помощью оптимизации с ограничениями. Для большинства классических моделей машинного обучения мы можем описать их таким же простым, но убедительным способом.

Первая характеристика этих моделей заключается в том, что граница решения является явной. Для линейных моделей (например, LR и SVM) граница решения — это просто гиперплоскость, заданная параметрами модели; для K-ближайшего соседа (KNN) граница (границы) решения является многообразной с одинаковым расстоянием до соответствующих различных кластеров; для дерева решений (DT) граница (границы) решения - это многообразие, заданное разветвлениями. Во-вторых, эти модели работают с небольшими наборами данных. Обычно эти наборы данных настолько малы, что мы ожидаем от обученных моделей минимальной способности к обобщению. Кроме того, эти модели, как правило, имеют гораздо меньше параметров, что рассеивает опасения по поводу сложности вычислений.

В этот век методы UQ были простыми, поскольку мы могли измерить неопределенность решения по расстоянию между новой наблюдаемой точкой и границей решения. Кроме того, из-за ограниченного размера параметра можно использовать методы, требовательные к вычислительным ресурсам, такие как байесовский метод. И последнее, но не менее важное: эти модели должны были быть достаточно мощными из-за их ограниченного размера и данных для обучения. В результате внимание в основном уделялось продвижению спектакля.

Эра DL: контролируемая и специализированная

В эпоху глубокого обучения мы начали получать модели с производительностью человеческого уровня в специализированных задачах. Обучение этих моделей DL начинается со сбора тщательно подобранного помеченного набора данных. Чтобы получить хорошую производительность, этот набор данных должен быть большим. Затем в соответствии с основной задачей следует выбрать или разработать DL-архитектуру; затем модель DL обучается с использованием методов на основе градиента (в большинстве случаев) на обучающем наборе. После процесса обучения модели глубокого обучения оцениваются на тестовом наборе, который, как ожидается, будет взят из того же распределения обучающего набора.

Во-первых, по сравнению с классическим машинным обучением модели глубокого обучения часто рассматриваются как «черные ящики». В частности, выученные функции являются неявными и обычно их трудно интерпретировать. Кроме того, граница (границы) решения не является явной, что делает практически невозможным измерение расстояния между наблюдаемыми точками данных и границей (границами) решения. Другой характеристикой моделей глубокого обучения является набор данных. По сравнению с эпохой классического машинного обучения наборы данных эпохи глубокого обучения обычно больше, но по-прежнему имеют понятие "in-distribution" (iD), т. е. распределение, в котором были выбраны точки данных. Модели DL хорошо работают с точками данных внутри распределения и плохо с точками данных вне распределения (OOD). Более того, хотя модели глубокого обучения сложны, они по-прежнему ориентированы на одну задачу и всегда требуют дополнительного обучения для адаптации к новым задачам. Например, чтобы адаптировать модель CNN, обученную на наборе данных классификации изображений (например, ImageNet), для обнаружения объектов, необходимо обучить некоторые дополнительные нейронные сети, такие как заголовки классификации и локализации в Faster-RCNN. В-третьих, эмпирически было продемонстрировано, что модели глубокого обучения плохо откалиброваны, а это означает, что их первоначальная оценочная достоверность не обязательно указывает на их истинную достоверность. Наконец, наиболее успешными моделями DL являются дискриминативные модели, оценивающие распределение меток с учетом текущего наблюдения, т. е. \(\Pr(y \mid x)\).

В целом методы UQ получили широкое развитие в эпоху глубокого обучения. Большинство из этих методов UQ проходят постдок и контролируются. В частности, первой характеристикой UQ в эпоху DL является отсутствие распространения, а это означает, что результаты UQ сохраняются независимо от того, какой дистрибутив лежит в основе. Это очень важно в эпоху DL, потому что оценка \(\Pr(y \mid x)\) не является закрытой формой, что делает невозможным проверку любого предположения о распределении. Некоторые репрезентативные методы UQ в эту эпоху включают конформное предсказание, температурное/масштабирование Платта, калибровку гистограммы и т. д. вторая характеристика контролируется. В частности, в наши дни методы UQ всегда требуют набора удерживаемых калибровок, который должен браться из дистрибутива. Третьей характеристикой является предположение об независимости и одинаковом распределении (i.i.d.) или заменяемости. В частности, они предполагают, что набор для калибровки и тестирования имеет одно и то же распределение (т. е. внутрираспределение) (распределение для обучения может быть другим, но снизит эффективность UQ). Существуют методы, расширяющие i.i.d./заменяемость к сценариям сдвига распределения или временных рядов. Но все равно их нужно размечать данными из смещенного распределения.

Одним из ограничений этих методов UQ являются размеченные данные. Поскольку эти помеченные данные являются дорогостоящими, масштабирование этих методов UQ путем сбора большего количества точек данных невозможно. Кроме того, эти «контролируемые» методы UQ могут работать только для уже наблюдаемых распределений. Эти методы могут резко потерпеть неудачу при обобщении на невидимые распределения. Еще одно ограничение: *маргинальное по сравнению с условным**. В частности, в то время как эти методы обеспечивают гарантии производительности UQ, гарантии обычно распространяются на все распределение данных. Однако в сценариях (например, медицинское, автономное вождение), учитывающих UQ, наиболее желательным свойством будет «условное», означающее, что результаты UQ сохраняются для каждой точки данных.

LLM Era: самостоятельный и универсальный

Наконец-то мы наступили в эпоху больших языковых моделей, где все взволнованы. Обучение LLM обычно включает три этапа: предварительное обучение, тонкая настройка и обучение в контексте. На этапе перед обучением из-за обучения с самоконтролем, причинно-следственным или некаузальным образом, в процессе обучения может использоваться множество немаркированных данных. Интуитивно понятно, что предварительная подготовка целей для изучения общих (возможных семантических) функций полезна во всех связанных задачах. На этапе тонкой настройки обычно используется относительно меньший помеченный набор данных, чтобы LLM мог добиться превосходной производительности при выполнении конкретной задачи. Наконец, на этапе обучения в контексте используется ограниченное количество демонстраций (размеченных данных). Будем надеяться, что LLM сможет изучить шаблон в течение нескольких демонстраций и аналогичным образом вывести ответы.

Первой характеристикой LLM являются их наборы данных. Из-за самоконтролируемого процесса обучения LLM получают гораздо больше точек данных, чем их предыдущие коллеги. С одной стороны, наблюдение за большим количеством точек данных позволяет LLM иметь более общее внутреннее распределение. С другой стороны, поскольку эти точки данных не помечены, понятие распределения в эпоху LLM отличается от понятия в эпоху DL, где представлены как наблюдение, так и метка. Таким образом, остается открытым вопрос о том, как наблюдаемые немаркированные данные приносят пользу последующей задаче (или как их лучше всего использовать для достижения хорошей производительности последующей задачи). Одной интересной и связанной с этим концепцией является параметрическая память. Он рассматривает LLM как большой «запоминатель», а знания являются наблюдаемыми точками данных. Второй характеристикой является размер модели. LLM значительно больше, чем предыдущие модели, что делает практически невозможным использование сложных вычислительных методов. В-третьих, LLM не специализируются на одной задаче. Ожидается, что LLM, которые обычно тесно упоминаются в базовых моделях, изучают общие особенности из неразмеченных данных. После наблюдения за огромным количеством таких данных изученные функции потенциально являются общими/семантическими, поэтому они полезны для всех связанных последующих задач. В качестве примера возьмем Модель сегментирования чего угодно (SAM) от Meta. После обучения с самоконтролем извлеченные из SAM признаки считаются семантическими, поскольку они могут сегментировать семантические объекты без какой-либо метки. Более мощные функции LLM всегда включают новые возможности, такие как обучение с нулевым выстрелом, когда классификацию изображения можно получить, просто сравнивая характеристики изображения с чертами слова (описывая класс объектов, например « кошка"). В-четвертых, LLM – это прежде всего генеративные модели, а не дискриминационные модели эпохи глубокого обучения. И последнее, но не менее важное: эмпирически было показано, что LLM больших размеров хорошо откалиброваны в задачах с фиксированным выбором.

Продолжается исследование UQ по LLM. На данный момент нет никаких методов убеждения. С одной стороны, мы можем разделить их на контролируемые и неконтролируемые.

Как правило, контролируемые методы собирают ответы от LLM и отзывы людей. Контролируемые методы могут калибровать LLM с использованием этих собранных данных, но только для конкретных задач, представленных данными. Преимущество контролируемых методов заключается в том, что они в основном те же, что и методы UQ эпохи DL, поэтому можно использовать зрелые методы эпохи DL. Если основная задача четко определена, например, ответы на вопросы GRE, данные могут собираться более целенаправленно, и можно ожидать более высокой производительности UQ. Недостатки контролируемых методов такие же, как и при обучении с учителем. В частности, сбор данных обходится дорого, что затрудняет масштабирование метода; кроме того, UQ работает только с распределением, заданным собранными данными, и не может обобщать невидимые задачи.

Существуют ограниченные неконтролируемые методы UQ для LLM. Преимущество неконтролируемых UQ заключается в том, что их легко запускать и их можно обобщать для различных задач. Однако у них есть огромное ограничение, заключающееся в возможности количественной оценки только субъективной неопределенности. В частности, при использовании неконтролируемых методов количественная неопределенность основывается исключительно на памяти LLM, в которой может храниться неверная информация. Без доступа к достоверной информации количественная субъективная неопределенность может отклоняться от объективной неопределенности, которая количественно определяет основанную на неопределенности информацию «наземной истины». Например, LLM могут собрать несколько поддельных новостей о знаменитостях из Интернета. Затем, когда задавали связанный вопрос о знаменитости, даже с идеальными методами без учителя, LLM выдавали бы неправильный ответ с низкой неопределенностью, поскольку ответ согласуется с памятью LLM.

Если мы представим, какие методы UQ желательны в эпоху LLM, я бы сначала рассмотрел масштабируемость, поскольку это свойство отличает LLM от их предыдущих аналогов. Что касается UQ, масштабируемость означает, что по мере того, как мы наблюдаем больше (немаркированных) данных, производительность UQ должна улучшаться или даже значительно включать новые возможности, такие как условная калибровка.

Насколько я понимаю, в «масштабируемости» есть две крайности. С одной стороны, методы из первых принципов могут масштабироваться. Они могут работать независимо от того, насколько велики данные. Проблема в том, что такие принципиальные методы было бы чрезвычайно трудно идентифицировать или вызвать огромную сложность вычислений. Более того, для большинства UQ, полученных из первых принципов, требуются размеченные данные, что делает невозможным их масштабирование. С другой стороны, методы, управляемые исключительно данными, могут быть масштабируемыми. Это требует, чтобы методы UQ использовали информацию, встроенную в немаркированные точки данных. Но опять же, отклонение между субъективной и объективной неопределенностью все еще может встречаться.

Заключение

Я кратко сравнил три важные эпохи развития машинного обучения, а именно классическое ML, DL и LLM. Мы суммировали их характеристики в основном по набору данных, размеру модели и специализации. Кроме того, я проанализировал методы количественной оценки неопределенности и их характеристики в каждую эпоху. Наконец, я фантазирую о желаемых свойствах UQ в эпоху LLM. Несмотря на то, что в развитии эпохи LLM так много неопределенностей, всегда есть одна определенность — лучшее будущее уже на горизонте！