В OpenReview появилась заявка о больших наборах данных [1]. Одно из критических замечаний в статье касалось популярного набора данных TinyImages из Массачусетского технологического института. Исследование показало, что набор данных содержит тревожную информацию. 29 июня Массачусетский технологический институт навсегда удалил набор данных со своей страницы [2]. В заявлении MIT упоминается:

«Набор данных слишком велик (80 миллионов изображений), а изображения настолько малы (32 x 32 пикселя), что людям может быть трудно визуально распознать их содержимое. Поэтому ручная проверка, даже если она возможна, не гарантирует полного удаления оскорбительных изображений».

Исследователи и Массачусетский технологический институт обнаружили, что набор данных был создан из 53 464 различных существительных, скопированных из WordNet. Термины использовались для загрузки данных из Интернета. Но слова, выбранные для поиска, никогда не проверялись и не фильтровались на предмет потенциальной предвзятости или крайне оскорбительных выражений. Исходное изображение никогда не сохранялось, но сохраняется изображение размером 32x32 пикселя. Размер изображения является сложным фактором при проверке.

Сообщество приветствует решение Массачусетского технологического института отозвать данные, а затем и документ. Инициаторами такого увлекательного исследования являются Винай Удай Прабху (https://unify.id/) и Абеба Бирхане из Университетского колледжа Дублина. Статья доступна в ArXiv [3]. Исследователи также публикуют соответствующий исходный код, используемый для аудита набора данных изображений в Github [4]. Отчет об исследовании имеет важное значение в настоящее время, где мы обсуждаем этику и ИИ.

Далеко идущие последствия неаудированного набора данных для справедливости и предвзятости многочисленны. Исследователи данных очень заинтересованы в использовании наборов данных с открытым доменом для решения проблемы холодного запуска. Говоря о таких данных, они могут не проверять данные на наличие какой-либо потенциальной угрозы в будущем. Вторым по значимости видом деятельности является передача обучения на основе моделей, обученных такому открытому набору данных предметной области. Стоит изучить влияние моделей трансфертного обучения и неаудированных наборов данных. Программные системы, ретранслирующие публичный образ, могут нанести ущерб репутации, если вовремя не принять надлежащие меры предосторожности.

Как предотвратить появление подобных проблем в будущем? Что ж, независимо от характера организации, академическим, некоммерческим или промышленным организациям следует рассмотреть вопрос о создании комитета по этике ИИ. Комитет должен рассмотреть каждый этап сбора данных. В случае с TinyImages ущерб можно было бы предотвратить на этапе стратегии сбора данных. Слова и фразы могут иметь другое значение в Интернете, чем те, которые можно найти в тезаурусе или словарях. Именно по этой причине генерального директора Google Сундара Пичаи однажды вызвали в Конгресс США. Исследователи, возможно, отфильтровали крайне оскорбительные слова и слова, которые изучают или представляют расовое оскорбление.

Это лучше позже, чем когда-либо. Все сообщество AI/ML должно встать и провести аналогичный аудит почти всех открытых данных; изображение ни нет. В то же время мы как исследователи обязаны проверять, удалять и отзывать любые системы, которые уже используют TinyImages в решении. Давайте работать над улучшением ИИ для будущих поколений.

[1] https://openreview.net/pdf?id=s-e2zaAlG3I — по состоянию на 04.07.2020.

[2] https://groups.csail.mit.edu/vision/TinyImages/ Дата обращения: 04.07.2020.

[3] Большие наборы данных изображений: пиррова победа компьютерного зрения? https://arxiv.org/abs/2006.16923

[4] https://github.com/vinayprabhu/Dataset_audits