Мы живем в мире с экспоненциальной зависимостью от искусственного интеллекта и машинного обучения. От обнаружения мошенничества до медицинской диагностики — мы доверяем компьютерам выполнение все большего числа задач, которые раньше выполнялись их коллегами-людьми.

Но при этом можем ли мы быть уверены, что решения и рекомендации принимаются без предвзятости и дискриминации?

На первый взгляд можно с уверенностью сказать, что компьютеры не могут быть предвзятыми или проявлять благосклонность. Они не свободомыслящие (во всяком случае, пока), а всего лишь инструменты, созданные и используемые обществом. Как таковые, они не более предвзяты, чем камера или кисть. Однако реальность немного сложнее.

Машинное обучение

Машинное обучение включает в себя анализ обширных коллекций данных, из которых мы определяем уравнение, которое точно представляет эти данные. При этом мы можем применить новые входные данные к тому же уравнению, чтобы классифицировать и делать прогнозы.

В простейшей форме у нас есть одна переменная x, для которой мы пытаемся определить соответствующую зависимую переменную y. Когда мы наносим известные данные на график, мы можем создать простой бинарный предиктор, проведя прямую линию между двумя разными результатами.

Те из вас, кто недавно перешел на домашнее обучение, возможно, помнят, что математическая формула для линии: y = mx + b. Получив значение x, мы можем вычислить соответствующее значение y, если нам известны два других фактора. Первый — m, представляющий наклон линии. Второй — b, который представляет точку пересечения оси Y или смещение.

Реальные модели машинного обучения намного сложнее, включают множество входных данных и приводят к сложным графикам и уравнениям. Тем не менее, понятия схожи.

Заметный рост машинного обучения в гораздо большей степени связан с законом Мура и нашей способностью собирать, хранить и анализировать огромные объемы данных, чем с каким-либо конкретным научным прорывом. Именно данные определяют алгоритм, и чем больше у нас данных, тем точнее могут быть наши модели.

Превышение/недостаточное представительство

Смещение в линейном уравнении — это просто ярлык, а не отражение того смещения, с которым мы боремся изо дня в день. Однако для нас очень важно понимать, что в данных может быть (и есть) предвзятость, и мы должны это учитывать.

Мы испытываем это внутри с клиентами, когда мы анализируем поведение пользователей с помощью дизайна, управляемого данными. Если сегмент пользователей, за которым мы наблюдаем, чрезмерно или недостаточно представляет определенный тип пользователей, это искажает наши выводы и приводит к неидеальному дизайну, который не работает для всех. Понимание разнообразия аудитории и обеспечение справедливого представления имеет важное значение. Он обеспечивает сбалансированную систему, которая работает для всех оптимальным образом.

Люди подвержены этим типам предубеждений каждый день. Когда мы потребляем информацию, которая чрезмерно или недостаточно представляет определенную группу людей, наши внутренние прогностические шаблоны могут стать искаженными. Разница в том, что мы, в отличие от компьютеров, способны осознавать себя и (в идеале) способны наблюдать и выявлять эти предубеждения.

Мы можем внести коррективы, например выбрать альтернативный источник новостей или начать разговор с коллегой, у которого другая точка зрения или опыт. Это не значит, что люди делают это постоянно, но у нас есть возможность.

У машин нет сознания или выбора, и в этом заключается опасность.

Во многих случаях сам объем затрудняет выявление и устранение проблемных данных, особенно в больших исторических наборах данных, собранных за годы системного расизма, нетерпимости и связанной с ними политики. Эти данные опасны в моделях, пытающихся предсказать будущее поведение.

Осведомленность — это ключ

В то время как компьютеры не могут быть предвзятыми сами по себе, данные, которые ими управляют, наверняка могут. Хотя сомнительно, что мы сможем полностью устранить предвзятость в системе, мы можем предпринять важные шаги, чтобы устранить и свести к минимуму эти дисбалансы.

  1. Повышение осведомленности. Первый шаг – признать, что у нас есть проблема. Не доверяйте слепо данным или результатам под ложным предлогом, что эти системы не имеют предвзятости.
  2. Обеспечить справедливое представление. Задайте вопрос об источнике и средствах сбора данных. Изучите обстоятельства, при которых какая-либо группа представлена ​​недостаточно или чрезмерно. При поиске предвзятости в данных сосредоточьтесь на всех точках данных. Хотя важно справедливо представлять группы, исторически подверженные предубеждениям (культура, раса, пол и т. д.), вы также должны позаботиться о том, чтобы решить проблему несправедливого представительства и в других областях (образование, заработная плата и т. д.).
  3. Выявление необъективных результатов: наблюдайте за результатами, чтобы найти категории или рекомендации, которые предвзято относятся к определенной группе. Задайте эти результаты, чтобы определить, является ли набор данных достоверным, и, возможно, определить, есть ли другие действующие факторы, которые могут исказить результаты.
  4. Настройте свои модели. Не зря у нас есть множество различных моделей машинного обучения. Один размер не подходит всем, и важно внести коррективы, необходимые для обеспечения того, чтобы конечные результаты были честными, сбалансированными и точными.
  5. Разрешить надзор: по возможности предусмотрите экспертную оценку ваших методов сбора данных, ваших данных и ваших результатов, чтобы помочь найти недостатки. Это особенно важно в общественных и финансируемых государством системах, которые затрагивают наших сограждан.

Как и в случае с большинством инструментов, мы, как общество, должны убедиться, что мы предпримем эти шаги для использования машинного обучения со здоровым уважением к его потенциальным опасностям, ловушкам и недостаткам.

Первоначально опубликовано Эдвардом ДеГрутом на сайте relevantbits.com 15 июля 2020 г.