Большие данные, как говорит нам IBM, появляются как новейший в мире ресурс для конкурентного преимущества. Алгоритмы и нейронные сети, питаемые большими данными, управляют автомобилями, переводят между языками, создают фальшивые видеоклипы бывших президентов, классифицируют изображения и — и вот здесь-то и проявляются наши страхи Скайнета — побеждают лучших людей игроки», киберспортсмены и летчики-истребители.

Программное обеспечение уже считывает рентгеновские снимки и, судя по всему, делает это лучше, чем многие рентгенологи. Не проходит и дня без статьи в газете или телевизионного сюжета о том, как большие данные и ИИ объединяются и приходят на работу. В этом отчете подразумевается идея о том, что люди подвержены ошибкам, лабильны и эмоциональны; мы легко утомляемся, и наше восприятие искажается враждебностью и предрассудками. С другой стороны, компьютеры…

Мы не можем списать эту идею алгоритмической беспристрастности на журналистскую сенсацию. Актеры, разрабатывающие программное обеспечение, часто виноваты в этом не меньше, чем многие ученые. В часто цитируемой статье 2013 года Будущее занятости: насколько рабочие места восприимчивы к компьютеризации Карл Бенедикт Фрей и Майкл А. Осборн из Оксфордского университета пишут:

Компьютеризации когнитивных задач также способствует другое ключевое сравнительное преимущество алгоритмов: отсутствие в них некоторых человеческих предубеждений. Алгоритм может быть разработан так, чтобы безжалостно удовлетворять небольшой круг поставленных перед ним задач. Люди, напротив, должны выполнять ряд задач, не связанных с их профессией, таких как сон, что требует периодических жертв в их профессиональной деятельности (Kahneman, et al., 1982). Дополнительные ограничения, в условиях которых люди должны действовать, проявляются как предубеждения. Рассмотрим пример человеческой предвзятости: Danziger, et al. (2011) показывают, что опытные израильские судьи значительно более щедры в своих решениях после обеденного перерыва. Таким образом, можно утверждать, что многие роли, связанные с принятием решений, выиграют от беспристрастных алгоритмических решений.

Действительно, можно утверждать, что беспристрастные алгоритмические решения должны заменить человеческий труд, но это не будет хорошим аргументом по той простой причине, что беспристрастного алгоритма не существует. Попытки отдать принятие судебных решений на аутсорсинг алгоритмам оказались катастрофическими. Далекие от того, чтобы быть беспристрастными, алгоритмы оказались глубоко расистскими. Они не только воспроизводят предрассудки людей, создавших данные, они также усиливают их и лишают прозрачности (нейронные сети — это черные ящики; они скажут вам, каков, по их мнению, ответ, но они не в состоянии это сделать). рассказать вам, почему это так), и в то же время придать ему видимость объективности.

Эта наивность вряд ли нова. Далее следует краткий отчет о первой революции больших данных в США. Так же, как господа Фрей и Осборн, многие из действующих лиц считали, что путем механизирования они создают объективную правду, и, как и многие разработчики в Силиконовой долине, основные игроки были убеждены, что проблемы, которые они решают, были чисто техническими.
< br /> Это история о том, как Бюро переписи населения США использовало большие данные для обнаружения и задержания 110 000 американцев японского происхождения в 1942 году.

«Электрическая счетная машина»

Конституция Соединенных Штатов требует проведения общенациональной переписи населения каждые десять лет. Отцы-основатели имели в виду подсчет всех свободных людей и трех пятых рабов, чтобы можно было распределить налоги и места в конгрессе. Родившееся из-за желания реализовать программу сторонников превосходства белой расы под видом научной объективности (как в соотношении три пятых), вскоре стало ясно, что эту программу можно продвигать, добавляя в анкеты другие, якобы объективные, демографические категории. , или в Словах Пауля Шора:

Изучение статистики почти естественным образом приводит к изучению процессов, с помощью которых элиты объективируют другие классы населения… Перепись населения США хорошо вписывается в этот процесс конституирования групп индивидов как социальных проблем — особенно начиная с 1840 г., когда она стремилась найти ответы на большие политические вопросы о населении, такие как рабство и вредность свободы для черных, неассимилируемость новых иммигрантов и «расовое самоубийство» англосаксов, расовое смешение и вырождение черных. Это проявляется в умножении расовых категорий для выделения групп, которые иногда были малочисленны; таким образом, 2039 японцев, перечисленных в 1890 году, контрастируют с трактовкой белой расы, которая никогда не определялась в течение всего изучаемого периода.

С добавлением групп и категорий и ростом населения (с 2,5 миллионов в 1777 году до 63 миллионов в 1890 году) подсчет данных и обработка чисел вручную стали проблемой. Мало того, что это отнимало много времени, было почти невозможно сделать то, что мы сегодня назвали бы пользовательским поиском. Если бы нас, например, интересовало количество неграмотных мужчин старше 50 лет по всей стране, можно было бы найти это число с помощью обширных перекрестных ссылок, но в этом случае это была бы очень трудоемкая задача. На завершение переписи 1880 года ушло 8 лет, и с добавлением новых категорий данных для каждой переписи существовал риск того, что перепись 1890 года не будет завершена в течение 10-летнего окна.

75 лет назад британский математик Чарльз Бэббидж выдвинул идею использования пара для вычисления математических таблиц. Его идеи опередили свое время (его более поздняя разработка, аналитическая машина, была первым подтверждением концепции универсального компьютера, как мы понимаем этот термин сегодня, с процессором, оперативной памятью, устройством чтения карт и принтером). . Двигатели Бэббиджа будут получать данные от перфокарт. Отсутствие финансирования (и тот факт, что блестящие концептуальные идеи привлекали его гораздо больше, чем коммерчески жизнеспособные проекты) означало, что ему пришлось отказаться от своих проектов. вверх, внезапно появился рынок табуляторов. Поняв, что часть работ можно выполнить механическим способом, они объявили конкурс. Тот, кто быстрее всех с помощью машин сможет свести выборочные данные в таблицы, получит выгодный контракт на проведение переписи 1890 года. Победитель, бывший сотрудник бюро по имени Герман Холлерит, опередил своих противников, решив задачу почти в десять раз быстрее. Как? Как и Бэббидж до него, его дизайн был основан на перфокартах.

Используя специальный дырокол, клерк переводил все демографические данные по каждой записи переписи в отдельные точки данных на карточке. Например, первые четыре столбца означают штат, округ и переписной округ. Другая колонка означала расу. В своей патентной заявке Холлерит объясняет, что подсчитать отдельные категории, например количество мужчин или женщин в США, не очень сложно. Это можно сделать вручную. Но все становится более рискованным, если вы хотите провести подсчет с другими переменными. (Примеры Холлерита показательны в свете приведенной выше цитаты Шора):

требуется знать количество туземных белых, или туземных белых мужчин данного возраста, или групп возрастов и т. д., как в том, что технически известно как подсчет возраста и пола; … Труд и затраты на такие подсчеты, особенно при подсчете комбинаций предметов, сделанных обычными методами, очень велики.

Итак, он сконструировал машину — табулятор, — которая могла считывать перфокарты и могла быть настроена с помощью электрических реле для подсчета комбинаций категорий. Затем общие подсчеты отображались на циферблатах.

Машины, основанные на оригинальной конструкции Холлерита, использовались агентством до 1950 года, когда их частично заменили компьютеры. Размышляя о революции Холлерита в 1965 году, директор бюро Росс Эклер замечает, как:

Руководитель переписи 1890 года мог по праву гордиться успехами, достигнутыми благодаря использованию нового оборудования, которое положило начало использованию перфокарт в обширных статистических таблицах, хотя, возможно, он не осознавал исключительной важности новшества, которое впервые сводили данные переписи к форме, которую можно было классифицировать и подсчитывать чисто механическими средствами.

Чисто механический с лингвистической точки зрения делает больше, чем объясняет, что человек был исключен из уравнения; фраза также предполагает, что классификации — и подсчеты, вычисленные машиной — имели объективную достоверность.

Цитата взята из предисловия к книге Леона Э. Трусделла, который до 1955 года был главным демографом бюро. с проблемой разработки механизма для подсчета постоянно расширяющегося набора демографических категорий — ни разу не задумывается о самих категориях или о том, к чему они относятся. Его понятие прогресса технологично, как он пишет в эпиграфе, где размышляет о быстрой оцифровке агентства в период с 1950 по 1965 год:

[За] несколько лет электронный компьютер с его вспомогательными устройствами для сбора данных переписи добился гораздо большего прогресса, чем перфокарта за 60 лет. Ибо вклад [этого] FOSDIC [компьютера] заключается в фантастическом увеличении скорости работы компьютера и огромном увеличении возможностей для сложной перекрестной классификации, проверки на непротиворечивость, раздувания по выборке и даже корректировки переменных. данные.

Интернирование большими данными

После бомбардировки Перл-Харбора бюро переписи — с ультрасовременной технологией перфокарт и данными переписи всех жителей США — было завалено запросами от военных, и они были более чем счастливы помочь с военные усилия." Следующая цитата из социальной истории «Американской переписи Марго Андерсон:

В январе 1942 года [Бюро переписи населения] признало, что они получают много запросов от военных и органов наблюдения о предоставлении информации о немцах, итальянцах и особенно японцах. Леон Трусделл, главный демографический статистик, сказал: «Вчера мы получили запрос, например, от одного из офисов военно-морского флота в Лос-Анджелесе, нам нужны более или менее географические данные о японцах, проживающих в Лос-Анджелесе, и мы получаем Помощник директора Вирджил Рид продолжил, отметив, что для запросов данных о японцах, немцах и итальянцах «некоторые из них хотели получить их гораздо более тонкими подразделениями, чем штаты и города; некоторые из них хотели, я думаю, что некоторые из них, даже по переписным участкам, Трусделл согласился: «Тот запрос Лос-Анджелеса, о котором я только что упомянул, требовал переписных участков». [Режиссер Джеймс Клайд] Капитан был доволен этими новыми усилиями, хвастаясь: «Мы считаем, что это довольно ценно. Те, кто его получил, считали его довольно ценным. То есть, если они знали, что в сообществе 801 японец, а нашли только 800 из них, то им есть что проверить… Мы по закону обязаны хранить конфиденциальную информацию от физических лиц… Но, в конце концов, если защита власти обнаружили, что 200 японцев пропали без вести, и им нужны были имена японцев в этом районе, я бы дал им дополнительные средства проверки людей.

Для нашего друга-технократа Трусделла и его коллег запрос о местонахождении американцев японского происхождения в Лос-Анджелесе был сложной технической задачей, и они, казалось, получали удовольствие. К сожалению, как отметил директор Кэп (одновременно выразив готовность нарушить закон), агентству не разрешили предоставлять информацию о физических лицах. Вместе с министром торговли капитан лоббировал Конгресс. Он написал поправку к сводному законопроекту о военных полномочиях, который был принят и вступил в силу в марте 1942 года. записи переписи и позволяют обмениваться данными между агентствами: «[Такие] данные, которые в настоящее время являются секретом в соответствии с законом, как полагают правительственные чиновники, могли бы оказать существенную помощь в выявлении тех, кто уклонился от общих приказов об эвакуации».

Агрессивное лоббирование капитана, отмечает Андерсон, привело к «предоставлению армии технических знаний и таблиц по небольшим районам для облавы, эвакуации и заключения под стражу населения японского происхождения — более 110 000 мужчин, женщин и детей — с западного побережья Соединенных Штатов».

Остановить волну STEM

Конечно, история учит нас тому, что мы ничему не учимся у истории, но мы можем хотя бы приложить усилия. Это многообещающий признак того, что некоторые люди из печально известной либертарианской технологической индустрии теперь призывают к регулированию. На недавней встрече с губернаторами США Илон Маск, например, вынес строгое предупреждение. У меня есть доступ к самому передовому ИИ, и я думаю, что люди должны быть действительно обеспокоены этим. Мы должны. Не из-за каких-то квазирелигиозных страхов Скайнета, а именно потому, что некоторые технологии, которые повлияют на всю нашу жизнь, разрабатываются современными технократами; люди, которые, как и Трусделл, твердо верят в алгоритмическую беспристрастность.

С так называемым меморандумом Google и федеральным расследованием дискриминации Google Pay наконец-то обсуждается отсутствие расового и гендерного разнообразия в Силиконовой долине. Но есть еще один недостаток разнообразия, почти столь же пагубный: отсутствие людей из других областей, кроме STEM; историки и литературоведы; музыканты и поэты; художники и активисты — люди, настроенные на человеческие аспекты и исторические параллели технологий, которые они разрабатывают. Позитивные действия необходимы, но они лишь заведут нас так далеко. Нам также нужно больше специальностей по гуманитарным наукам.

Итак, давайте прислушаемся к регулированию и начнем с регулирования разработчиков. Интересно, есть ли у меня союзник в лице Илона Маска.

ПС. Я начал изучать роль больших данных в интернировании американцев японского происхождения в 1942 году после просмотра этого интервью ABC Nightline 1981 года со Стивом Джобсом и Дэвидом Бернхэмом. Стоит посмотреть.