«Фундаментальные модели» не являются фундаментальными и никогда ими не были

Стэнфордский институт HAI опубликовал «Размышления о базовых моделях», в которых они прямо признают, что «фундаментальные модели не являются ни «основополагающими», ни основами ИИ». Но сегодня люди используют этот термин не так, как задумали создатели.

В дальнейшем этот спор может преподать нам уроки об именах и общественном приеме. Название «фундаментальная модель» было далеко не идеальным, поскольку оно применяет неявные суждения, затемняет важные детали и допускает пагубные ошибки понимания.

Размышления о моделях фундамента
После запуска Центра исследований моделей фундамента мы обсуждаем, почему эти модели так важны, и отражают…hai.stanford.edu

1. Неявное суждение

Я беспокоюсь, что это откроет дверь для новых неописательных имен или имен, которые косвенно выносят суждения. В нем говорится, что фундаментальные модели являются основой и поэтому важны. Это может показаться безобидным утверждением, но на самом деле оно требует доказательств. Могу ли я когда-нибудь сказать: Фундаментальные модели не являются фундаментальными? Подробнее об этом в критике в (3). Но мое возражение на самом деле основано на том факте, что в названии говорится: Предварительно обученные моделидолжны использоваться в качестве основы. Это также предполагает, что они есть, и не препятствует нормализации практики. Вопрос о том, следует ли использовать большие предварительно обученные модели в качестве основы вообще, является научным вопросом. Приравнивая их и говоря: Предварительно обученные модели являются базовыми моделями, мы никогда не ставим под сомнение практику, которая противоречит их намерениям. Сам Институт утверждает, что это должен был быть описательный термин, но сегодня, оглядываясь назад, мы видим, что научная коммуникация не принесла ожидаемого эффекта: я нашел аналогичную критику здесь https://crfm.stanford.edu/commentary/2021/ 18.10/malik.html и могу подчеркнуть, что критика далеко не гипотетическая.

Было бы слишком много времени, чтобы показать все примеры этого, которые я мог легко найти. И не выделить авторов этой работы. Но это отражает популярный ответ на термин «фундаментальная модель» в сознании новичков в этой области.

2. Запутывает важные детали

Ранее этот термин подвергался критике из-за того, что он затруднял общение с существующими моделями (и их критику). Это потому, что он создал новое имя для чего-то с существующим именем: Большие предварительно обученные модели.

«Большие предварительно обученные модели» сообщают вам дополнительные точки данных, они большие и предварительно обученные. Это имя больше ориентировано на собственность и упрощает критику: «Оно большое? почему так должно быть?», «это предварительно обучено? На что?"

Сравните это с «Фундаментальной моделью». Он ничего не говорит вам о внутренних свойствах предмета, а только о том, как он используется. Он ничего не говорит вам о размере — даже несмотря на то, что в серии статей GPT нам говорилось, что размер — это важное свойство, на которое следует обратить внимание. Я утверждаю, что имена, которые представляют собой комбинацию важных атрибутов, лучше, но это не проходит этот тест.

Поскольку мы, общественность, продолжаем критиковать вредоносные реализации этих крупных предварительно обученных «основных» моделей, разве не важно выяснить, какое конкретное свойство мы хотим применить к нашей критике? Они плохие, потому что большие? Они плохие, потому что обучены на неверных данных? Или, может быть, это настолько деликатный вариант использования, что нам вообще не следует использовать какие-либо модели. Одно из имен облегчает эту критику, чем другое.

3. Склонность к ошибкам

Хотя изначально предполагалось, что она будет более дружелюбной к новичкам, чтобы неученым было легче говорить об этом, но им слишком легко сказать «основополагающую» модель, которая усиливает критику в пункте (1). Это приводит к ошибке фундаментальной модели — предположению, что базовые модели — это фундамент, на котором нужно строить.

В статье Wired о негативной реакции на термин https://www.wired.com/story/stanford-proposal-ai-foundations-ignites-debate говорится

Обновлено от 17 сентября 2021 г., 11:12 по восточному поясному времени. В предыдущей версии этой статьи термин «основополагающие модели» использовался там, где правильным термином является «основополагающие модели».

Можно подумать: «Это же журналисты, они постоянно делают такие ошибки». Но даже эксперты могут допустить такую ошибку. Эпизод 172 «Практического искусственного интеллекта» показывает, что его чрезвычайно легко сделать — Дэниел Уайтнак имеет докторскую степень в области вычислительной физики.

Поскольку эту ошибку так легко допустить, для неподготовленного глаза фраза «основополагающие модели не являются основополагающими» с тем же успехом может означать утверждение: «основополагающие модели не являются фундаментальными». Это позволяет легко спутать законную критику с грамматическим педантом.

По указанным выше причинам неясно, можно ли считать оправданным выбор терминологии «фундаментальные модели». Я не рекомендую всем сразу прекратить его использовать, может быть уже слишком поздно. Однако я думаю, что это служит предостережением и преподает нам уроки, которые мы можем взять с собой: имена должны быть нейтральными, описательными и отличительными.

Спасибо за прочтение.

Часть меня задается вопросом, не стоило ли нам называть это «Основными моделями». Это было предварительное замечание по общему вопросу: «Была ли это хорошая идея?» Но если бы у меня было больше времени, я бы собирал данные и проводил анализ. Я призываю читателей сделать это, если у них есть время и ресурсы.

Я далеко не первый, кто критикует это, и более полный список критических замечаний можно найти здесь https://crfm.stanford.edu/2021/10/18/commentaries.html, а также в вышеупомянутой проводной статье.

«Фундаментальные модели» не являются фундаментальными и никогда ими не были

1. Неявное суждение

2. Запутывает важные детали

3. Склонность к ошибкам

Вопросы по теме