Будь то формальный класс или собрание корпоративной команды, вот список вещей, с которыми я столкнулся в своем опыте, чтобы интегрировать социальную справедливость в преподавание науки о данных.

Используйте реальные данные… осторожно

Если вы следите за тем, что я пишу, вы знаете, что у меня есть личная вендетта против iris dataset и mtcars. Студенты могут лучше учиться, работая в лично важных областях, и у меня просто никогда не было разговора о цветах, ориентированного на справедливость (хотя я уверен, что мог бы придумать такой). Когда мы преподаем науку о данных, мы автоматически используем то, что доступно, что имеет большой смысл. Но существует гораздо больше данных, чем NYCFlights или набор данных Titanic. Если мы хотим научить людей быть учеными данных в мире, им нужно учиться в социальных контекстах с реальными последствиями и противоречивыми заинтересованными сторонами. Но это не означает, что ваш класс нужно немедленно бросить на данные о жестокости полиции или статистику абортов, потому что…

Предположим, что кто-то в комнате испытал данные, которые вы обсуждаете.

Рождаемость при аутизме. Изнасилование и нападение. Полицейская жестокость. Расовое профилирование. Ставки на аборты. Подростковая беременность. Данные о беженцах. Заключение. Диагноз рака. Стихийные бедствия. Статистика жестокого обращения с детьми.

Это все наборы данных, которые я видел в обсуждении. Я думаю, что у всех нас есть базовый уровень сострадания при обсуждении деликатных тем, но я призываю вас предположить, что в классе сидит ученик, который лично испытал то, о чем вы говорите. Потому что, скорее всего, у кого-то есть. Я был жертвой изнасилования в комнате, обсуждая статистику изнасилований так же небрежно, как погоду. Я был человеком с высоким баллом «неблагоприятного детского опыта» (ACE), в то время как профессор продолжает и продолжает рассказывать о том, как ACE коррелирует с ранней смертью. Важно обсуждать реальные данные с реальными последствиями, не забывая при этом о том, что все мы несем в себе несколько личностей, с которыми нужно мягко и осторожно ориентироваться в классе. Предупреждать о данных, которые вы будете обсуждать, запрашивать отзывы, доброжелательно отзываться о тех, кого затрагивает набор данных, и демонстрировать базовый уровень уважения, необходимый для обсуждения сложных вопросов в классе.

У каждого набора данных есть предыстория; говорить об этом!

Откуда взялись данные? Кто его собирал и зачем? Даже набор данных iris небезопасен. Рональд Фишер был евгенистом, который считал, что разные расы различаются «врожденной способностью к интеллектуальному и эмоциональному развитию». Так что этот парень, который измерял цветы, также распространял расистские взгляды в академической сфере, и мы никогда не говорим об этом!

Как насчет Titanic? Самые бедные пассажиры погибли! Почему? Потому что богатым разрешалось первыми садиться в спасательные шлюпки. Давайте поговорим об этом и другом классизме в обществе и данных!

Как используются данные переписи? Кто определяет категории? Всех ли просили участвовать? Был ли доступен сбор данных? Было ли это добровольно или собрано без ведома участников? Отличалась ли первоначальная цель сбора данных от того, как они использовались позже?

Обсудите данные для того, что это такое: затрагиваются реальные человеческие жизни

Очень легко мыслить абстрактно, когда вы запускаете R-скрипты и получаете обратно непрозрачные числа. В конце концов, вы можете запустить множество тестов, которые вам действительно не следует разрешать запускать, и они все равно дадут вам «результат»! В наших моделях также легко установить разумный порог для чего-то вроде «принять» или «отклонить», не задумываясь слишком об этом. Но как насчет модели, которая предсказывает, не выполнит ли кто-то обязательства по кредиту? Если порог для принятия составляет 85% уверенности в том, что кредит не будет дефолтным, как насчет молодой женщины, пытающейся купить свой первый дом? работает на все, что у нее есть, и ее вероятность дефолта падает с вероятностью 84,5%. Мы устанавливаем пороги по какой-то причине; Я не говорю, что это совершенно неразумно. Но вы уверены, что 85 % — это хороший порог? Представь, что это ты. Представьте, что это ваш друг. На реальную человеческую жизнь влияют модели, которые мы используем, и выводы, которые мы делаем. Просто имейте это в виду.

Признайте, что категоризация людей может быть угнетающей

Итак, у вас есть набор данных, вы визуализируете его и выполняете исследовательский анализ данных. Особенно когда мы не собираем данные сами, мы забываем подвергать сомнению сами данные. Говоря о моем собственном опыте небинарного человека, вы хоть представляете, сколько раз мне давали только вариант «Мужчина» или «Женщина» в форме? Да, я понимаю, что не каждая форма будет обновляться с изменением общества, и не каждая форма даже должна знать мою гендерную идентичность. Вот почему я начал случайным образом выбирать между мужчиной и женщиной вместо того, чтобы позорно всегда по умолчанию выбирать свой пол при рождении. Потому что если система не работает на меня, то и я не буду работать на систему.

Как мы выбираем расовые категории, гендерные категории, категории бедности, семейное положение (да, даже это. Посмотрите на полиаморию) и т. д. из нас, кто не вписывается ни в одну из коробок. Это не означает, что нужно прекратить заниматься наукой о данных или прекратить сбор какой-либо информации. Почему бы тебе не спросить свой класс, что, по их мнению, нам следует делать? Многие из нас пытаются решить эти проблемы.

Сделайте это личным и попросите своих учеников критиковать модели

Предложите учащимся взять на себя роль кого-то, на кого влияет модель, которую вы обсуждаете. В серии вводных статей по науке о данных, над которой мы с Эммой Спиро работаем, мы используем пример, когда Целевая реклама предсказывала, что кто-то беременен, еще до того, как они узнали об этом. Мы особенно тщательно помним приведенные выше советы; быть добрым, помнить, что кто-то в комнате может быть лично затронут этим контентом, рассказывать предысторию, критиковать данные и давать адекватные предупреждения. Далее мы предлагаем учащимся взять на себя роль различных заинтересованных сторон для этой модели (исключая беременную женщину, потому что просто неуместно назначать кого-то на эту роль случайным образом). Мы просим людей выступать так, как если бы они были генеральным директором компании, кем-то, кто ищет целевую рекламу беременности, друзьями и семьей человека, журналистами, освещающими историю, и специалистами по данным в компании. После того, как учащиеся определились, они будут критиковать модель и/или отстаивать свою позицию в сценарии, после чего следует групповое обсуждение между всеми заинтересованными сторонами.Дайте учащимся возможность погрузиться в сценарий и покритиковать, почему модели не работают. не работает на них. Вы будете поражены тем, что придумают студенты.

Укажите, как и почему модели «разыгрываются»

Естественная реакция на несправедливые модели — обыграть их. Например, Google сортирует результаты поиска, используя алгоритм под названием PageRank. PageRank не ранжирует страницы по частоте нажатий, потому что тогда вы можете просто настроить бота, который будет нажимать на страницу снова и снова и повышать ее статус. Вместо этого PageRank зависит от того, сколько других сайтов ссылаются на страницу. Он основан на предположении, что если другие страницы куда-то ссылаются, эта ссылка, скорее всего, заслуживает доверия. Это прекрасное предположение, и оно имеет тенденцию работать. Но что-то под названием фермы ссылок обошло это, создав кучу веб-сайтов, которые все ссылаются друг на друга, чтобы повысить рейтинг своих страниц. Довольно умно, но раздражает.

Когда мы намеренно заливаем хэштеги или включаем селфи, чтобы привлечь к какой-то информации больше внимания в Интернете, мы играем с системой. В большинство моделей можно играть. Говорить об этом.

Всегда указывайте на предположения, заложенные в модели

Мы немного поговорили о категориях и истории данных. Но этот идет немного глубже. Иногда кажущаяся «полезной» модель на самом деле основана на неверных предположениях. В сфере инвалидности это огромно. Так много моделей, исследований данных и результатов относятся к инвалидности как к чему-то, что нужно исправить; отклонение от нормы, к которому можно приспособиться, досадная ошибка. В сообществе аутистов мы часто рассматриваем нашу нейродивергенцию как особый дар, «другую, но не меньшую» категорию, и что-то, что не следует исправлять или сдвигать в сторону нейротипичности. Это мнение похоже в сообществе глухих и многих других.

Другой пример касается фильтров красоты. Красота отождествляется с белизной и худобой, буквально вшитой в конструкцию алгоритма. Фильтр красоты осветляет кожу, открывает глаза и делает лицо тоньше. Я не совсем уверен, соответствует ли это науке о данных, но это хороший пример того, как, казалось бы, безобидные части повседневной жизни способствуют угнетению. Какие еще предположения закладываются в наши модели?

Обеспечить сообщество и представительство студентов из числа меньшинств

Если вы единственный в классе с какой-либо личностью, это влияет на ваше обучение. Мы все ищем общения, солидарности и общности. Всегда предоставляйте ресурсы своему классу, даже если он выглядит вам однородным. Ты никогда не узнаешь. Вот некоторые из них: Черный в ИИ, Женщины в машинном обучении, LatinX в ИИ, Квир в ИИ, Наука о данных для общественного блага, Информация Visa для найма специалистов по данным за пределами США, AINow, Феминизм данных, Разнообразие технологий от информации — это красиво. Пожалуйста, добавьте больше комментариев!

Будь добрым

Изучать науку о данных сложно. Существовать в несправедливом обществе сложнее. Особенно в адском пейзаже 2020 года, просто будьте добры. Многие из нас не могут позволить себе отдавать тонны усилий и энергии кому-либо, кроме себя и наших ближайших близких прямо сейчас, но немного может иметь большое значение. Мой преподавательский девиз: "Людям все равно, что вы знаете, пока они не узнают, что вам не все равно".

*Иконки от Icons8.