Подведение итогов анализа компонентов для улучшения воспроизводимости исследований машинного обучения.

Недавно мне поручили прочитать статью, основной темой которой была MACHINE LEARNING. Я решил прочитать статью, кратко изложенную ниже, потому что за последние 6 месяцев я использовал различные продукты машинного обучения и аналогичные продукты искусственного интеллекта. В поисках лучших решений для наших различных бизнес-кейсов моя команда протестировала несколько систем, обученных с использованием различных моделей. При сравнении установленных решений нам требовался согласованный метод сравнения с использованием совпадающих наборов образцов и контрольного списка шагов для сравнения.

В приведенном ниже документе Улучшение воспроизводимости исследований в области машинного обучения рассматривается аналогичная проблема в мире исследований и разработок в области машинного обучения. Исследовательские работы по машинному обучению часто не воспроизводятся. Авторы этой статьи рассматривают методы и результаты конференции 2019 года, на которой были реализованы три компонента, чтобы попытаться устранить разрыв в воспроизводимости исследований в области машинного обучения.

  • TITLE: Повышение воспроизводимости исследований в области машинного обучения
  • ПУБЛИКАЦИЯ: Journal of Machine Learning Research 22 (2021) 1–20
  • ССЫЛКА: https://www.jmlr.org/papers/volume22/20-303/20-303.pdf

Конференция 2019 года по системам обработки нейронной информации (NeurIPS) была посвящена исследованиям в области машинного обучения. На этой конференции была представлена ​​программа, призванная улучшить стандарты проведения, обмена информацией и оценки исследований в области машинного обучения. Эта инициатива включала три компонента подачи документов:

  1. Политика отправки кода
  2. Проблема воспроизводимости в масштабах всего сообщества
  3. Контрольный список воспроизводимости машинного обучения

В документе «Улучшение воспроизводимости исследований в области машинного обучения» подробно описаны эти три компонента, как все это было развернуто и какие выводы были сделаны в ходе этой инициативы.

Несмотря на предполагаемую способность воспроизводить исследования, проведенные в области компьютерных наук, в исследованиях по машинному обучению обнаружился удивительный пробел. Это может быть связано со многими причинами, в том числе с отсутствием доступа к одним и тем же обучающим данным, недостаточной спецификацией процедуры обучения, ошибками в используемом коде, неправильным использованием статистики и метрик, предвзятостью в сторону положительных результатов и многим другим. Важно отметить, что эти проблемы затруднили определение того, есть ли у поля проблема с возможностью воспроизвести тесты или у него есть проблема с точными отчетами.

Авторы этой статьи углубляются в идею воспроизводимой работы. Их определение состоит в том, что «воспроизводимая работа состоит в повторном проведении эксперимента с использованием тех же данных и тех же аналитических инструментов».

Цель трех компонентов, описанных выше (и подробно описанных ниже), состоит в том, чтобы улучшить воспроизводимость исследований в области машинного обучения, которые используются в принятых (и позже опубликованных) статьях.

1. Отправка кода

Хотя код не требовался при подаче документов на конференцию NeurIPS, ожидалось, что любые принятые документы будут иметь ссылки на код, предоставленные к датам готовности камеры. При опросе о процессе рецензирования рецензенты были очень увлечены кодом, когда он был доступен, и обнаружили, что они предпочли бы, чтобы он просматривался почти в каждой рецензируемой заявке. Когда код был включен в материалы, он положительно ассоциировался с оценкой рецензента.

2. Проблема воспроизводимости

Второй компонент для представлений включал в себя проблему воспроизводимости принятых документов для всего сообщества. Создавая эту проблему, будет независимая проверка эмпирических утверждений. Этот вторичный анализ также создаст публичный след результатов. Задача была открыта после крайнего срока приема статей, что означало, что участники имели доступ к коду (часть компонента «отправка кода»), а также возможность сотрудничать с авторами статей.

Количество статей, заявленных для воспроизведения, увеличилось на 92% по сравнению с Международной конференцией по представительствам в обучении (ICLR) ранее в том же году. Авторы также обнаружили очень высокий уровень участия, когда профессора университетов ставили задачу сообщества в качестве заключительного курсового проекта.

Преимущество этой повторной реализации кода сообществом двоякое. Во-первых, у нас есть примеры отчетов о воспроизводимости, поощряющие эту практику к тому, чтобы она стала нормой и широко распространилась в сообществе. Во-вторых, он дает новые идеи и знания, позволяя другим исследователям избегать ловушек, обнаруженных и задокументированных другими.

3. Контрольный список воспроизводимости

Контрольные списки были созданы для поощрения тщательной отчетности и обеспечения воспроизводимости. Было обнаружено, что количество пунктов, отмеченных в контрольном списке, по-видимому, коррелирует с более высокими оценками в обзорах. Однако ожидания рецензентов, темы докладов и т. д. могут внести свой вклад в потенциальные ковариаты.

Большинство рецензентов не сочли контрольные списки полезными. Однако те, кто нашел контрольные списки полезными для оценки работы (только одна треть), как правило, давали более щедрые оценки.

Заворачивать

В этой статье были действительно интересные находки. Они обнаружили, что рецензенты очень заинтересованы в возможности ознакомиться с кодом, обсуждаемым в документах, что указывает на его полезность в процессе рецензирования. Одним из самых захватывающих открытий является то, что сообщество готово и взволновано заниматься проблемами воспроизводимости, что обеспечивает невероятно полезный вторичный анализ результатов исследований. Несмотря на то, что контрольные списки получили меньшее признание, есть признаки того, что они полезны как для авторов, так и для рецензентов.