Введение

По всей стране баллы «оценки риска» используются в качестве инструмента для прогнозирования вероятности совершения преступления обвиняемым в будущем. Эти баллы используются для определения залога, условно-досрочного освобождения и вынесения приговора. Есть много критиков этих оценок, многие из которых утверждают, что судебные системы готовы нанести несоразмерный вред меньшинствам, чтобы облегчить перегруженную систему.

Сбор данных

Следственная группа ProPublica провела анализ показателей риска и рецидивизма для более чем 7000 человек, арестованных в течение двух лет в округе Броуард, штат Флорида, и обнаружила, что чернокожие обвиняемые совершали преступления в два раза чаще, чем белые обвиняемые. Эта команда опубликовала наборы данных и методологию в Интернете.

"Оригинальная статья"

Образец документа об оценке рисков

Переменные, поставляемые с набором данных, включают имя обвиняемого по уголовному делу, возраст, расу, количество предыдущих преступлений, время в тюрьме за текущее преступление, степень текущего обвинения, описание текущего обвинения, статус рецидива и статус насильственного рецидива.

Сравнение исследований данных

В оригинальной статье ProPublica есть несколько примеров различных преступлений, в которых текущий алгоритм совершает огромную ошибку.

Неофициальные свидетельства и общие гистограммы не говорят нам достаточно. Эти примеры и визуализация вызвали у меня любопытство увидеть сопоставимые ситуации, когда расы менялись местами, и привели меня к выводу, что построение оценок, основанных на статусе рецидивизма, даст больше понимания.

Примечание: 1 = низкий риск, 10 = высокий риск. Как сказано в этом интервью, в некоторых случаях любой балл выше 4 негативно отражается на подсудимом.

В исходной статье ProPublica приводит все оценки для кавказцев и афроамериканцев, но не учитывает их статус рецидивистов. Из-за этого визуализация упускает из виду интересные тенденции, которые появляются, когда данные разбиты на подмножества по расовому статусу и статусу рецидивизма.

Алгоритм лучше классифицирует нерецидивистов европеоидной расы, чем нерецидивистов афроамериканцев. Для кавказцев, которые не рецидивируют, оценки имеют тенденцию к снижению. Очень немногие неправильно классифицированы. Хотя та же тенденция наблюдается и у афроамериканцев, похоже, что ошибок больше, чем у первых.

Результаты становятся более интересными, когда мы смотрим на людей, которые действительно рецидивируют. Визуализация подразумевает, что алгоритм может лучше предсказывать рецидивизм среди афроамериканцев, чем выявлять рецидивистов кавказской национальности.

Судя по диаграммам, кажется, что алгоритм прощает кавказцев.

Исследование сосредоточено на афроамериканцах-нерецидивистах, набравших высокие баллы, и на кавказцах-рецидивистах, набравших низкие баллы. Но как насчет других ведер?

Как алгоритм работает с афроамериканцами, получившими низкие баллы, но в конечном итоге рецидивирующими, и с кавказцами, получившими высокие баллы, которые этого не сделали?

Из любопытства я подгруппировал данные, чтобы найти афроамериканцев, у которых действительно был рецидив, но которым были присвоены низкие оценки риска. Хотя таких записей было несколько, этот подсудимый запомнился мне больше всего.

Это тот случай, когда афроамериканец, оказавшийся на свободе, совершил ужасное преступление.

Это его слух.

http://www.nbcmiami.com/news/local/Man-Strangled-Ex-Girlfriend-in-Pompano-Beach-Making-Her-Lose-Consciousness-Authorities-214996191.html

Он также получил оценку COMPAS 1.

Это заставило меня задаться вопросом, почему это программное обеспечение используется в настоящее время, если оно допускает такие серьезные ошибки. Конечно, мы должны посмотреть, как он работает в целом, прежде чем делать какие-либо выводы, и мы должны проанализировать тип ошибок, которые делает алгоритм. Поскольку аргументы против алгоритма COMPAS касаются субъективности, что, если мы попытаемся создать прогностическую модель, используя только фактические данные?

Часть критики включает в себя то, что программное обеспечение представляет собой черный ящик, и не так много понимания того, почему человек получил определенный балл.

Машинное обучение и моделирование имеют множество полезных применений в современном мире, но важно создать базовую модель, с которой можно будет сравнить расширенную модель. Если предсказания расширенной модели не являются улучшением по сравнению с предсказаниями базовой модели, то

  1. Следует использовать другой подход
  2. Машинное обучение в этом случае не нужно и не полезно.

Выбор переменных и моделей

Прежде чем мы перейдем к моей модели и выбору переменных, мы должны обсудить, как работает текущая система подсчета очков. В настоящее время каждому обвиняемому по уголовным делам предоставляется опрос из 137 вопросов, в которых задаются такие темы, как членство в банде, стабильность семьи, статистика арестов друзей, стабильность проживания, преступность в районе, деньги, скука, печаль, гнев и криминальное / этическое мышление.

Некоторые из аргументов против этого алгоритма заключаются в том, что, хотя ни один из этих вопросов явно не касается расы, из-за социально-экономических стандартов в Соединенных Штатах многие из этих вопросов подразумевают расу. Например, некоторые из вопросов включают:

«Вы закончили свой диплом или GED?»

«Что из следующего лучше всего описывает, кто вас воспитал?»

«Сколько преступности в вашем районе?»

«Считают ли некоторые из ваших друзей или членов семьи, что они должны носить оружие, чтобы защитить себя в вашем районе?»

«Часто ли вы устраиваетесь на работу, за которую не платят больше минимальной заработной платы?»

«Голодный человек имеет право воровать».

«Когда у богатых людей крадут вещи, они ничего не пропустят, потому что страховка покроет убытки».

Поэтому я решил убрать расу из своих предсказателей. Я решил ввести пол, возраст, историю преступлений и текущее обвинение в преступлении в модели логистической регрессии, чтобы предсказать, совершит ли преступник рецидив.

Как прогностическая модель, использующая только несколько фактических переменных, будет сравниваться с алгоритмом с несколькими противоречивыми переменными?

Статистика ошибочных классификаций ниже. Я обнаружил, что темнокожие обвиняемые в два раза чаще ошибочно классифицировались как опасные, чем белые обвиняемые. (41% против 22%) Белые обвиняемые на 66% чаще ошибочно классифицируются как лица с низким уровнем риска, чем чернокожие обвиняемые. (51% против 30%) Что касается модели, я использую пол, возраст, историю преступлений несовершеннолетних, историю преступлений взрослых и текущую степень обвинения, чтобы увидеть, можем ли мы предсказать статус рецидивизма. После того, как мои прогнозы сделаны, я сравниваю свои прогнозы с заданными оценками COMPAS и фактическим статусом рецидивизма, чтобы увидеть, как работает моя модель. Документация Northpointe может похвастаться показателем точности 73%, но точность — не лучший способ определить производительность классификатора. Важно просматривать различные типы ошибок, поэтому я также позаботился о том, чтобы включить отчет о классификации и матрицу путаницы.

Вывод

Сравнивая AUC, матрицу путаницы и баллы F1 для обоих методов, нет большой разницы в том, как работают обе модели. Доступ к некоторым ответам на вопросы, основанные на фактах, или более глубокое понимание истории преступника открывает возможность создать модель, которая работает еще лучше. Обе модели не очень хороши и далеки от идеала, если принять во внимание серьезность совершаемых ими ошибок.

Увидев, как работает моя модель, я пришел к выводу, что метод COMPAS слишком сложен, противоречив и дорог, не будучи проницательным. Первоначальная цель алгоритма COMPAS — дать офицерам по условно-досрочному освобождению способ выяснить, кто нуждается в большем надзоре. Он не предназначался для использования во всем тюремном трубопроводе. Итак, должны ли мы полагаться на машины, чтобы управлять жизнью людей? Хотя это этические дебаты внутри себя, данных еще нет. Это способ скрыть большую проблему в этой стране? Возможно, использование машины позволяет переложить ответственность и стать виновником, когда наказания слишком суровы.

Алгоритмы не предвзяты, но они могут выявить предубеждения обучающих их людей.