Что такое большие данные?

В наш нынешний век инноваций концепция «больших данных» становится все более распространенной, что лежит в основе растущего стремления уменьшить предвзятость и повысить справедливость в исследовании данной научной области. Однако смысл этого модного словечка на самом деле не столь очевиден — что на самом деле представляют собой большие данные и каково их значение? В основополагающем документе в области интеллектуального анализа данных и машинного обучения «Разрозненное влияние больших данных» Солон Барокас, доктор философии. и Эндрю Д. Селбст, JD. описывают большие данные как сбор или добычу данных, которые будут использоваться для прогнозирования, чтобы помочь в принятии решений. Таким образом, как лучше всего выразил Мориц Хардт в статье «Как несправедливы большие данные», «мы находимся на пороге использования машинного обучения для принятия практически всех видов последовательных решений о людях». Такие области принятия решений простираются от поступления в медицинские вузы до оптимизации фармацевтических препаратов, работы полиции и политических выборов. Поэтому в нашем нынешнем глобальном социально-экономическом климате алгоритмы машинного обучения, основанные на данных, напоминают божественную способность определять и определять все наше будущее.

В настоящее время существует распространенное и широко распространенное заблуждение, что решения алгоритмов машинного обучения изначально справедливы, поскольку данные — это просто числа, и, учитывая функцию y = mx + b, y не может равняться наличию расовой предвзятости. Правильно? Тем не менее, Хардт, Барокас и Селбст демонстрируют, что в наборах данных, используемых алгоритмами машинного обучения, уже присутствуют ранее существовавшие предубеждения. Впоследствии смещения в данных повторяются в алгоритмах машинного обучения, что приводит к предвзятым и несправедливым прогнозам. Некоторые из этих предубеждений могут быть связаны с несоответствием размера выборки, недостаточным или чрезмерным представлением определенных групп и неточным переводом синтаксиса, понятного человеку, на компьютерный. В тандеме Управление науки и технологий Белого дома рассматривает последствия предвзятых и несправедливых данных, лежащих в основе машинного обучения, в своем отчете 2016 года «Большие данные: отчет об алгоритмических системах, возможностях и гражданских правах». В отчете Белого дома подчеркивается серьезность неблагополучных групп меньшинств из-за неполной и плохой выборки данных, что еще больше приводит к циклическому мультисистемному угнетению таких групп в нашем обществе. Таким образом, не только крайне важно, но и необходимо тщательно исследовать методологии интеллектуального анализа данных, чтобы уменьшить и устранить систематическую погрешность, которая может привести к непропорционально неблагоприятным результатам.

Исторические случаи предвзятости в машинном обучении:

1.Инструмент Northpointe для профилирования правонарушителей в исправительных учреждениях для альтернативных санкций (COMPAS)дает судебные рекомендации по вынесению уголовных наказаний на основе предсказания того, может ли человек совершить повторное преступление. Модель из 137 признаков была обучена на неполных данных, и ее прогнозы вынесения уголовных приговоров отражали огромную расовую предвзятость, которая привела к серьезным последствиям.

COMPAS несоразмерно нацеливался на чернокожих мужчин, ложно считая чернокожих ответчиков в два раза более вероятными (читай: на 200% более вероятными) будущими преступниками, чем белыми ответчиками. Кроме того, белые ответчики были ошибочно отмечены как «низкий риск» значительно чаще, чем черные ответчики.

2. Нерегулируемое полицейское распознавание лиц становится все более серьезной проблемой, поскольку примерно каждый второй взрослый американец (48%) зарегистрировал свою фотографию в криминальной сети распознавания лиц из-за водительских прав штата и Базы данных фотографий на документы. Хотя технология распознавания лиц использовалась для поимки разыскиваемых беглецов и опасных преступников, она весьма ошибочна; ФБР опубликовало исследование, демонстрирующее, что эти системы распознавания лиц могут быть наименее точными при идентификации женщин, молодых людей в возрасте от 18 до 30 лет и афроамериканцев. Кроме того, эта технология не только менее точна при идентификации афроамериканцев, но и с большей вероятностью будет использоваться для их идентификации.

3. Tay, случайный расист Microsoft, неонацистский чат-бот с искусственным интеллектом был представлен в следующих социальных сетях в 2016 году: Twitter, Kik и GroupMe. Microsoft планировала, что Тэй будет интерактивным ИИ-представлением стандартного 19-летнего подростка, который будет учиться, взаимодействуя с пользователями социальных сетей, и помогать в дальнейших исследованиях ИИ. Личность Тэй, продемонстрированная ее ответами на чужие твиты, резюмировала ее искусственный мозг, обученный набору данных расистских, сексистских, ужасных твитов от других пользователей Твиттера. Хотя многие из таких твитов носили шуточный или саркастический характер, ответные твиты Тэя быстро продемонстрировали гнусные проявления человечности, отвечая такими словами, как Холокост, геноцид и изнасилование. Microsoft быстро извинилась и удалила Тая из вселенной социальных сетей.

Интересно, что негативная реакция на Тэя ограничилась критикой ограничений создания и усовершенствования ИИ. И все же, не был ли Тай идеальным воплощением очень впечатлительного человеческого мозга? Помимо развития ИИ, как мы, люди, можем лучше понять самих себя и нашу собственную восприимчивость к предубеждениям благодаря недолговечному опыту Тэя? Что-то рассмотреть.

4. Неисправное программное обеспечение для автоматического перевода Facebook привело к тому, что израильская полиция по ошибке арестовала палестинского строителя. Палестинец подписал свою фотографию простым добрым утром на арабском языке на своей личной странице в Facebook. Facebook предлагает услугу автоматического перевода, в которой доброе утро на арабском языке неверно переведено на обидеть их на английском и напасть на них на иврите. Служба перевода Facebook в сочетании с помеченными ключевыми словами привела к немедленному уведомлению полиции об этом (в то время неизвестном) ошибочном переводе. Подпись сопровождала изображение бульдозера, ранее причастного к террористическим атакам; палестинец был немедленно арестован. Палестинца отпустили только через несколько часов после того, как полицейский допрос показал его явную невиновность.

5. Алгоритм рекламы Facebook, дискриминирующий пол и расу, позволял рекламодателям намеренно нацеливать свою рекламу на определенные расовые, гендерные и религиозные группы, учитывая обширный набор данных Facebook о демографической информации пользователей. Например, объявления о вакансиях дворников и водителей такси показывались значительно большему количеству представителей расовых меньшинств, объявления о вакансиях медсестер и секретарей показывались большему количеству женщин, а выставленные на продажу дома показывались большему количеству белых пользователей Facebook. пользователи. Министерство жилищного строительства и городского развития США подало в суд на компанию, поскольку рекламный инструмент Facebook основывает свои решения по оптимизации на исторических предпочтениях, которые продемонстрировали люди… Он будет слепо брести по пути дискриминации в сфере занятости и жилья.

«Сила в количестве…»

В упомянутом выше отчете Белого дома за 2016 год программа консультирования по вопросам выпускников и повышения квалификации (GPS) Университета штата Джорджия была представлена ​​как положительный пример того, как большие данные помогают принимать решения о людях. Программа GPS предназначена для отслеживания 800 различных «факторов риска» учащихся, чтобы помочь им подготовиться к окончанию школы. Система GPS выявляет предполагаемые проблемы и впоследствии «упреждающе» вмешивается в работу учащихся, чтобы в конечном итоге повысить процент выпускников. Тем не менее, система GPS также использует «прогнозную аналитику, чтобы убедиться, что успеваемость учащегося на предварительном курсе повышает вероятность успеха на следующем уровне». Вопреки тому, что может отметить отчет Белого дома, это весьма проблематично. Что, если студент получил плохую оценку по курсу из-за подработки, просто чтобы человек мог позволить себе основные продукты питания? Что, если студент страдает изнурительным психическим расстройством, таким как большое депрессивное расстройство? Что, если человек принадлежит к социально-экономически угнетенной группе меньшинств, в результате чего учащийся постоянно подвергается травмам и социальной изоляции? Все это очень важные детали, которые просто удаляются из системы GPS — важнейшие данные, которые, по сути, отделяют учащихся от людей, от просто единиц продукции, от присвоения им 0 или 1. Цифры обладают огромной силой, так как же? Должны ли мы убедиться, что сила больших данных используется на благо всех?

Следовательно, жизненно важно осуществлять систематические изменения в области больших данных и машинного обучения, чтобы помочь устранить или уменьшить такие ранее существовавшие предубеждения. Эти быстро развивающиеся области ИИ могут помочь сформировать наше будущее, помочь нашему обществу двигаться к лучшему миру. В качестве решения большинства, если не всех проблем, ключевое значение имеет образование. В 2015 году Стэнфордский доктор философии. Д-р Ольга Руссаковская основала AI4ALL, некоммерческую летнюю программу в США, обучающую малообеспеченных старшеклассников, цветных людей и молодых женщин в стремлении к увеличению разнообразия и включению в образование, исследования, разработки и политику ИИ. Учебная программа AI4ALL преподается многопрофильными экспертами и в настоящее время предлагается в 11 престижных университетах, включая Университет Карнеги-Меллона, Принстонский университет и Бостонский университет. Эта летняя информационная программа выпускает различные студенческие группы, новое поколение лидеров ИИ, которые вносят свой вклад в фундаментальное сообщество ИИ. Объединившись, они обладают силой не только формировать, но и создавать лучшее будущее.

Таким образом, по словам покойного доктора Мартина Лютера Кинга-младшего, да — сила в количестве. Но что еще более важно, «сила в единстве».