Порядок рейтинга производительности моделей ML изменился после удаления 14 000 ошибок меток в ImageNet.

Здравствуйте, я Кеничи, инженер Adansons Inc.

В моей компании мы разрабатываем продукт, который упрощает управление неструктурированными данными и метаданными и позволяет более детально интерпретировать и оценивать производительность и характеристики обученного ИИ.

В этой статье я хотел бы показать важность управления качеством наборов данных. Возможно, вы помните, что об ошибках этикеток сообщалось в ImageNet, и это стало горячей темой некоторое время назад.

Повсеместные ошибки меток в наборах тестов дестабилизируют тесты машинного обучения
Мы выявляем ошибки меток в наборах тестов 10 наиболее часто используемых компьютерного зрения, естественного языка и звука… arxiv.org

Поскольку я иногда использую ImageNet в качестве эталона и модели, предварительно обученные в ImageNet, я чувствовал необходимость в том, что результаты, которые я получил до сих пор, могут измениться в зависимости от качества данных.

В этой статье я хочу поделиться своей попыткой исключить данные об ошибке, основанные на ошибке метки, о которой сообщается в этой статье[1], из ImageNet и переоценить модели, опубликованные на torchvision.

Удаление данных об ошибках из ImageNet и повторная оценка моделей

Существует три вида ошибок этикеток, как показано в таблице ниже.

(1) неправильно маркированные данные (2) данные, соответствующие нескольким меткам (3) данные, которые не принадлежат ни одной метке

14 000 ошибок, это очень много! Учитывая, что количество оцененных данных составило 50 000, мы видим, что туда включен высокий процент ошибочных данных. Фактические данные об ошибках следующие.

Метод

В этой статье мы повторно изучили точность моделей, исключив только (1) неправильно маркированные данные и исключив все данные об ошибках (1)–(3) из оценочных данных. (мы не переучивались)

Для удаления данных об ошибках используется файл метаданных, описывающий информацию об ошибках этикетки. В этом файле метаданных, если какие-либо из ошибок (1)-(3) включены, информация описывается в атрибуте «исправление».

Мы используем инструмент, который мы разработали сами, под названием Adansons Base. Adansons Base фильтрует наборы данных, связывая их с метаданными. Подробности см. в ЗАПИСЬЕ ниже, в котором резюмируется эта проверка.

base/02_clean_imagenet.ipynb at main · adansons/base
Adansons Base — это инструмент программирования данных для анализа ошибок результатов обучения. Он организует метаданные неструктурированных…github.com

Я протестировал следующие 10 моделей.

Результат

Результаты обобщены в таблице ниже. (Значения указаны с точностью в %. Ранги указаны в скобках)

Используя данные All Eval в качестве базового уровня, оценка точности улучшилась в среднем на 3,122 балла для «За исключением неправильно маркированных данных», исключая данные об ошибках (1), и в среднем на 11,743 балла для «Исключая все данные об ошибках», исключая данные об ошибках (1)-(3).

Неудивительно, что точность улучшилась по всем направлениям, когда я исключил данные об ошибках, которые были бы подвержены ошибкам по сравнению с чистыми данными.

Примечательно, что изменения в рейтинге точности моделей представляют особый интерес при оценке без исключения данных об ошибках и при исключении (1) ~ (3).

А также, фактически, 3670 элементов данных с разными метками в (1) представляют 7,34% от общего числа 50000 элементов данных оценки, однако среднее увеличение точности составляет всего около 3,22 балла. Хотя точность нельзя просто сравнивать из-за изменения размера популяции, мы видим, что в среднем модель переобучена для классификации 1550 данных, или почти половины из 3670 неправильно помеченных данных, как правильных для неправильных. этикетка.

Заключение

Хотя это и не выполняется в рамках данной проверки, само собой разумеется, что важно использовать точно размеченные данные не только во время оценки, но и во время обучения.

Возможно, предыдущие исследования сделали неверные выводы при сравнении точности моделей. Предполагается, что это оценочные данные, но можно ли их использовать для оценки эффективности моделей?

Мне кажется, что многие модели, использующие глубокое обучение, часто пренебрегают размышлениями о данных и стремятся улучшить точность и другие оценочные метрики за счет выразительности модели. Однако нет смысла точно обрабатывать даже данные об ошибках, содержащиеся в данных оценки.

Правильная оценка модели требует использования точных высококачественных наборов данных.

Особенно когда мы создаем собственные наборы данных, например, при применении ИИ в бизнесе, создание высококачественного набора данных напрямую связано с повышением точности и надежности ИИ. Результаты этой проверки показывают, что простое улучшение качества данных повысило точность примерно на 10 процентных пунктов, что указывает на важность улучшения не только модели, но и набора данных при разработке системы ИИ.

Однако поддерживать качество наборов данных непросто. Хотя важно увеличить объем метаданных для правильной оценки качества моделей и данных ИИ, управлять ими может быть сложно, особенно с неструктурированными данными.

Поэтому я работаю над разработкой инструментов, чтобы сделать это проще.

Посетите Github, если вам интересно.

GitHub — adansons/base: Adansons Base — это инструмент программирования данных для анализа ошибок в обучении…
Adansons Base — это инструмент программирования данных для анализа ошибок в результатах обучения. Он организует метаданные неструктурированных…github.com

Порядок рейтинга производительности моделей ML изменился после удаления 14 000 ошибок меток в ImageNet.

Удаление данных об ошибках из ImageNet и повторная оценка моделей

Метод

Результат

Заключение

Рекомендации

Вопросы по теме