Объяснение обзора для конференций по машинному обучению

От первого чтения статьи до написания полного обзора в одной статье на Medium

Рецензирование является краеугольным камнем современной науки, и почти все крупные конференции по машинному обучению (ML), такие как NeurIPS и ICML, полагаются на него, чтобы решить, актуальны ли представленные статьи для сообщества и достаточно ли оригинальны для публикации там. К сожалению, с экспоненциально растущим количеством присланных статей за последние десять лет качество рецензирования падало так же быстро, и однострочные рецензии получили широкое распространение. Вы, вероятно, уже были там, если когда-либо представляли доклад на одну из этих конференций: после нескольких месяцев напряженной работы над тем, что, по вашему мнению, было блестящей идеей, вы получаете ужасную, бесполезную и (что еще хуже) ) ироничные отзывы, означающие, что вам придется проходить процесс подачи снова без каких-либо намеков на то, что было не так с вашей статьей в первую очередь.

Джеффри Хинтон, известный лауреат премии Тьюринга за его вклад в области машинного обучения и искусственного интеллекта, в своем интервью журналу Wired в 2018 году назвал одну из причин, почему это происходит:

Теперь, если вы пришлете статью с радикально новой идеей, нет никаких шансов, что она будет принята, потому что она получит какой-нибудь младший рецензент, который ее не поймет. Или он получит старшего рецензента, который пытается рецензировать слишком много статей, не понимает этого с первого раза и предполагает, что это чушь. Все, что причиняет боль мозгу, не будет принято. И я думаю, что это действительно плохо.

В то время как у старших рецензентов практически нет оправдания такому поведению (зачем вам добровольно соглашаться на рецензирование, если у вас нет времени делать это должным образом ?!), младшие рецензенты могут просто не знать, как написать хороший вдумчивый отзыв. Организаторы конференций обычно предоставляют полезные рекомендации с примерами из обзоров, собранных за годы, но это не может объяснить, как написать полный обзор с нуля: начиная с чтения представленной статьи в первый раз и заканчивая завершением вашего обзора и отправкой его на сайт конференции. Так как я ранее выигрывал несколько так называемых наград Лучший рецензент (IJCAI'18, NeurIPS'19, '20), я хотел бы объяснить ниже, как я поступаю, когда рецензирую статьи в надежде, что это будет полезно для людей. кому может понадобиться такое руководство.

Я написал эту статью на основе курса методологии исследования, который я преподаю магистрантам по машинному обучению. Одна из его лекций состоит в следующем: мы читаем статью параграф за параграфом, и я объясняю, на какие именно части рецензент должен обратить внимание. В качестве примера я использую доклад с конференции ICLR'19 под названием Узнаем, что и где посещать вместе с людьми в круговороте (его первую представленную версию можно найти здесь ). Я выбрал эту статью по двум причинам: 1) она не входит в одну из моих основных областей знаний и 2) она остается в основном доступной для всех, кто имеет общий опыт в области машинного обучения. Я думал, что первый пункт очень важен, поскольку большинство будущих докторов наук. студенты начнут карьеру рецензента в аналогичных условиях и без длительного опыта работы в какой-либо конкретной области машинного обучения.

Теперь я предлагаю вам проследить за мной по статье, чтобы понять, как написать на нее рецензию. Для этого я предлагаю вам прочитать полные разделы статьи, указанные в заголовках ниже, прежде чем читать мои комментарии к ней.

Аннотация

Реферат является одним из самых важных элементов статьи для рецензента, поскольку он дает общее представление о том, что он / она найдет в нем. Читая эту часть, я отмечаю каждое обещание, данное авторами, и ожидаю, что авторы подкрепили его фактами в основной части своей работы. Давайте посмотрим на аннотацию нашей статьи.

Важные моменты я выделил здесь жирным шрифтом. Какую информацию дает мне этот реферат как рецензент? Во-первых, он определяет общую область представления, которая представляет собой изучение механизмов внимания в DCN. Во-вторых, что наиболее важно, он выдвигает два утверждения, которые я хочу проверить, а именно: 1) механизмы внимания под контролем человека значительно улучшают производительность DCN, 2) изученные функции, в данном случае, являются более интерпретируемый. Я это отмечаю и перехожу к введению.

Вступление

Введение представляет собой расширенную версию аннотации, которая включает подсказки к предыдущим работам и предоставляет более подробную информацию о предлагаемом вкладе. В этой статье введение содержит несколько вещей, которые привлекают мое внимание.

Во-первых, я выделяю несколько тесно связанных предшествующих работ, многократно упомянутых во втором абзаце, а именно: (Linsley et al. '17) и (Jiang et al. '15). Как рецензент, я бы сейчас вкратце ознакомился с содержанием этих двух статей с особым акцентом на первой, потому что 1) она более свежая и, скорее всего, будет включать сравнение с другими родственными работами, упомянутыми во введении, и 2) авторы сравнивают его единично.

Во-вторых, я отмечаю расположение предлагаемых вкладов w.r.t. современное состояние, а именно: 1) авторы предлагают более эффективную стратегию, реализованную на платформе ClickMe.ai для получения карт внимания для крупномасштабных наборов данных по сравнению с набором данных Salicon и Linsley et al. Работа; 2) авторы предлагают новый модуль для сетей DCN, основанный на идее сочетания глобального контекстного руководства с местной значимостью; 3) авторы улучшают работу с помощью внимания человека в контуре. Еще раз, как рецензент, я сейчас буду искать аргументы, подтверждающие каждое из этих утверждений.

Раздел 2: Описание ClickMe.ai

Этот раздел очень важен, поскольку он полностью посвящен подтверждению первого утверждения, упомянутого выше. С одной стороны, предполагается, что предложенная стратегия, используемая для сбора карт внимания, масштабируется лучше, чем предыдущая работа. С другой стороны, это должно показать, что полученные «нисходящие» карты превосходят карты «восходящие», собранные ранее. Вот мое резюме по первой части.

Вы можете заметить, что я считаю стратегию ClickMe.ai, предложенную авторами, сильной стороной статьи, поскольку в ней участвует только один человек, в отличие от двух из Линсли и др., И позволяет привлечь больше внимания. карты. Обратной стороной этого является то, что сравнение с Линсли и др. позволяет мне узнать личности авторов, которые упоминали ClickMe.ai в своей предыдущей статье.

Вот мое изложение второго утверждения.

Как показано выше, функции «сверху вниз» (карты ClickMe), кажется, работают лучше, чем функции «снизу вверх» (карты Salicon), когда они открываются для наблюдателей. Это подтверждает утверждение автора об их превосходных характеристиках по сравнению с карты из набора данных Salicon. Пока я только хвалю сильные стороны газеты, но есть ли что сказать о слабых сторонах? Вот несколько моих замечаний, которые стоит включить в обзор.

Авторы говорят, что игра ClickMe масштабируется лучше, чем игра Clicktionary Линсли и др., Но они никогда не упоминают, сколько карт было собрано с использованием последней. Второй момент заключается в том, что авторы также используют те карты, которые не позволяли DCN правильно распознавать объект. Это разумно? Почему мы считаем эти карты полезными в дальнейшем? Два других незначительных момента заключаются в том, что авторы часто говорят о функциях «сверху вниз» и «снизу вверх», но они никогда не объясняют разницу между ними (мне пришлось погуглить). Наконец, авторы заявляют, что этих функций «достаточно для распознавания человеческого объекта». Это может быть слишком сильным утверждением, поскольку общая точность распознавания никогда не достигает 70%, что далеко от того, что считается производительностью человеческого уровня. Я это отмечаю и перехожу к разделу 3.

Раздел 3: Предлагаемая сетевая архитектура

В этом разделе описывается модуль, вдохновленный идеей «объединения локальной значимости и глобальных контекстных сигналов, чтобы направить внимание на области изображения, которые являются диагностическими для распознавания объектов». Я не являюсь экспертом в механизмах привлечения внимания к DCN и не могу судить об обоснованности того, что предлагается авторами, и о его новизне. На этом этапе я начинаю думать, что мой показатель достоверности для этой статьи не был бы очень высоким, если бы я был ее официальным рецензентом, и что мне пришлось бы указать это четко в моем обзоре кресло-коляска (AC). Несмотря на это, я все же замечаю следующую фразу авторов:

Они не объясняют, как они выбирают эти слои, при этом полностью опуская низкоуровневые слои: абляционное исследование может быть полезным для подтверждения этого в этом контексте. Еще одна вещь, которую следует добавить к обзору, поскольку такое обсуждение может быть очень полезным для исследователей, которые могут решить реализовать свой модуль для архитектур, отличных от ResNet-50.

Раздел 4: Обучение с постоянными участниками

В этом разделе представлена большая часть экспериментальных результатов для архитектуры, предложенной в разделе 3, с дополнительной регуляризацией, которая заставляет изученные карты выглядеть аналогично тем, которые предоставлены людьми - участниками ClickMe.ai. Вот мое краткое резюме по этой части.

Я отмечаю, что большинство результатов действительно, похоже, подтверждают третье утверждение авторов: контроль человека в цикле улучшает производительность на популярных наборах данных распознавания объектов. Несмотря на то, что результаты экспериментов меня убедили бы, я все же замечаю несколько несоответствий.

Первое замечание достаточно очевидно. Зачем использовать магическое число 6 в качестве параметра регуляризации? Второй вопрос связан с таблицей 1 из документа, в которой показано значительное улучшение как с точки зрения точности классификации набора данных ILSVRC12, так и с точки зрения возможности изучения функций, аналогичных картам ClickMe. Что здесь непоследовательного? Что ж, последнее улучшение кажется мне совершенно очевидным, поскольку оно просто указывает на то, что регуляризация, заставляющая изученные функции выглядеть как карты ClickMe, работает хорошо. Другие базовые уровни не стремятся к тому, чтобы принудить к такому поведению, и это повышение производительности должно быть представлено скорее как аргумент, оправдывающий выбранную силу регуляризации. В-третьих, авторы отмечают, что с сокращенным набором карт ClickMe (таблица 4 в приложении) их метод также работает лучше, чем все другие базовые показатели, но можно видеть, что в этом случае разрыв в производительности становится очень маленький. Наконец, авторы упоминают, что «без дополнительного обучения внимание модели локализует объекты переднего плана в Microsoft COCO 2014 (Lin et al., 2014)», но не предоставляют количественных результатов для этого набора данных и показывают только 6 производные карты на рисунке 4 (это было улучшено в опубликованной версии).

Собираем все вместе

После объяснения того, как я читал эту статью, пришло время поместить все это в обзор, готовый к отправке на веб-сайт конференции. В соответствии с требованиями многих конференций, я начинаю с резюме статьи.

Обратите внимание, что резюме очень важно, поскольку оно показывает авторам, что вы понимаете их работу. Затем я описываю его сильные и слабые стороны.

Я считаю крайне важным дать положительный отзыв, даже если я планирую предложить отклонить статью в конце. Это показывает авторам, какие части их работы были оценены рецензентами. Затем я продолжу несколькими подробными комментариями.

Вы можете заметить, что все содержание обзора - это просто замечания, которые я записывал, читая статью. Обычно я делаю первый черновик рецензии примерно за 3 часа, а затем возвращаюсь к работе как минимум дважды до крайнего срока, чтобы убедиться, что я что-то не пропустил.

Что говорят другие рецензенты?

Хорошая вещь в том, как работает процесс рецензирования в настоящее время, заключается в том, что вы часто можете видеть рецензии на данную статью после того, как она была принята / отклонена. В случае этой заявки вы можете проверить отзывы здесь. Прочитав их, вы можете заметить, что другие рецензенты выражают озабоченность, аналогичную тому, что я упоминаю в своем обзоре, а именно: 1) отсутствие мотивация / обоснование для многих вариантов дизайна и 2) качественные результаты для интерпретируемости. Также обратите внимание на то, что, как и я, рецензент 2 признает, что он / она не является экспертом в механизмах внимания для сетей DCN, и ставит оценку достоверности 3/5, чтобы указать на это председателю. Это очень важно, поскольку неподготовленный рецензент с высокой степенью уверенности - кошмар как для авторов, так и для AC. И наоборот: если вы просматриваете документ из вашей узкой области знаний, вы должны четко указать его, чтобы AC мог определить наиболее информативные обзоры.

Что же тогда делают авторы?

Я специально провел обзор первой представленной версии этой статьи, чтобы вы могли увидеть готовую к съемке версию, представленную авторами, после того, как их статья была принята. Вы можете заметить несколько отличий в нем по сравнению с первой версией: заголовок был изменен на Изучение того, что и где посещать, как было предложено рецензентом 1, и многие детали были добавлены по всему тексту, чтобы сделать документ более понятным после рецензентов. примечания (вы можете увидеть это в файле различий между окончательной и исходной версиями). В целом, это показывает вам, что ваша обязанность как рецензента - не только критиковать чужую работу, но и помогать им улучшить ее своими отзывами.

Эта последняя фраза - то, что я считаю основным источником плохих отзывов.

Плохой рецензент часто видит себя не коллегой авторов, с которыми он или она хочет продвигать исследования в своей области, а как окончательного (а иногда и превосходного) рефери, который готов судить работу других.

Первый подход к обзору требует времени, терпения и больше, чем доброжелательности. Второй не требует ничего из этого и приводит к разрушительному процессу полуслучайного обзора, когда на публикацию важных статей могут уйти годы. К счастью, однако, каждый из нас должен выбрать, каким мы хотим, чтобы это было в конечном итоге.

Afternote

В этой статье объясняется мой подход к рецензированию статей, но я не являюсь высшим авторитетом в этом вопросе и не утверждаю, что это единственно правильный способ сделать это. Могут быть и другие мнения о том, как должен выглядеть хороший обзор, а также люди, которые сочтут мои отзывы плохими и неинформативными. Кроме того, существуют разные типы статей, и рецензирование теоретической исследовательской работы может сильно отличаться от обзора прикладной исследовательской работы. Цель этой статьи - показать один из возможных способов, как это сделать, в надежде, что он будет полезен тем, кто сочтет его подходящим лично для себя.

P.S. Благодарим Квентина Буниота и Софиан Дуиб за вычитку этой статьи.