Введение:

Верховный суд Соединенных Штатов является судом высшей инстанции для рассмотрения всех дел, касающихся законов или конституции в Соединенных Штатах. Недавно на Kaggle был опубликован набор данных о судебных делах из Верховного суда США (SCOTUS). Набор данных содержит постановления Верховного суда с 1955 по 2021 год. Этот набор данных можно найти здесь. Вся эта информация всегда была общедоступной, однако до этого набора данных Kaggle информация не подвергалась быстрой очистке, что особенно затрудняло ее использование или анализ в любом виде машинного обучения.

В этой короткой статье я представлю набор данных и объясню, как можно спроектировать и обучить простую, но эффективную модель машинного обучения для обработки естественного языка для прогнозирования исхода дела, переданного в Верховный суд, с помощью бинарной классификации. Я также коснусь потенциальных проблем и причин для беспокойства по поводу использования модели машинного обучения для этой цели и, конечно же, не стесняйтесь оставлять комментарии или самостоятельно проверять набор данных из Kaggle и исследовать!

Предыстория:

Чтобы лучше понять, какую цель может иметь модель машинного обучения в этой отрасли, мы сначала должны немного обсудить, как работает Верховный суд. Верховный суд Соединенных Штатов действует несколько иначе, чем другие судебные органы. Он состоит из восьми помощников судей и одного главного судьи. Все они когда-то были выдвинуты президентом и проголосовали Сенат, чтобы заполнить вакансию в Суде. Короче говоря, есть девять важных людей, которые решают, какие дела заслушивать. Из этих людей только 5 должны быть согласны, чтобы признать победу большинства и вынести окончательный вердикт Верховного суда. При этом модель будет эмулировать суд в целом (всех 9 судей одновременно), используя предварительно обученный алгоритм для вынесения окончательного вердикта по данному делу.

Набор данных:

Каждый год Верховный суд Соединенных Штатов рассматривает на удивление мало дел. Только около 100–150 случаев выбираются ежегодно из более чем 7000 присылаемых. Таким образом, в наборе данных всего 3304 отдельных случая. Он содержит подробную информацию, начиная от первой и второй вовлеченных сторон и заканчивая интересующим вопросом (преступление, федеральный налог и т. д.) для каждого дела. Но, пожалуй, наиболее убедительными являются текстовые резюме дел (или факты, как их называют авторы) и победитель данного дела. strong> (Победившая сторона или, проще говоря, окончательный вердикт).

«Факты», представленные в текстовом формате, представляют собой слова, произнесенные истцом и ответчиком. «Окончательный вердикт» дается как ИСТИНА или ЛОЖЬ для победы первой стороны. С небольшой очисткой данных и манипулированием обработка естественного языка (NLP) может использоваться алгоритмом машинного обучения для прогнозирования итогового выигрыша стороны для любого конкретного случая. По словам авторов набора данных: «модель будет подражать человеческому жюри, вынося окончательный вердикт».

Изучение данных:

Пользователи Kaggle провели предварительный анализ данных (на момент написания были добавлены две записные книжки).

Самые интересные моменты перечислены здесь:

  • Набор данных небольшой, около 15 нулей для целевой переменной и всего 3304 наблюдения.
  • Наиболее частым типом решения является мнение большинства, при этом наиболее распространенным является 9 голосов, а вторым по распространенности - 5 голосов.
  • Около 65 % данных соответствуют действительности победителя первой стороны, что означает, что победила первая сторона.
  • Наиболее распространенная область проблем - сначала поправка, затем гражданские права, затем федеральное налогообложение.
  • Существует высокая дисперсия количества слов в колонке «факты» (минимум 26 букв, максимум 6201 буква, большинство из которых находится между 800-1300 словами).

Разработка функций и моделирование

С точки зрения разработки признаков, столбец «факты» может быть векторизован (с использованием таких инструментов, как CountVectorizer или векторизация TF-IDF) или встроен в слово (GloVe или Word2Vec). Также могут быть включены основные функции, такие как длина слов и количество символов в каждом регистре.

Для этого набора данных любая традиционная модель бинарной классификации (например, логистическая регрессия), вероятно, даст хороший базовый результат. В дополнение к этому, использование глубокого обучения в отношении анализа настроений также может предоставить хорошую модель для прогнозирования. Анализ настроений может имитировать, как присяжные или судьи Верховного суда будут оценивать слова, произнесенные в реальном судебном деле. Однако, поскольку набор данных относительно небольшой, может быть недостаточно данных для правильного обучения нейронной сети глубокого обучения.

Разработка простой модели

Вы можете увидеть реализацию простой базовой модели вместе с методами ее оценки здесь, в записной книжке авторов, создавших этот набор данных. В самом конце есть демонстрация, показывающая, как эта модель будет работать!

Поскольку набор данных содержит в качестве целевой переменной только победы первой стороны, зеркальное отображение выборок, позволяющее перевернуть первую и вторую стороны, имеет решающее значение для создания набора данных, который не отдает предпочтение только победам первой стороны.

Авторы использовали множество классических моделей машинного обучения и создали модель гетерогенного ансамбля. Общей тенденцией для этих базовых моделей является то, что они, кажется, переобучают данные поезда. Все модели показали хорошие результаты на своих обучающих данных (в среднем 90% точности, с ансамблевой моделью на 95%), но несколько хуже на оценке тестовых данных (в среднем 63% точности, с ансамблем на 64% точности). Это может быть связано с небольшим набором данных, что приводит к переобучению данных.

Зачем нам это нужно?

Есть преимущества в том, чтобы прогностическая модель выносила окончательный вердикт вместо присяжных или судей. Во-первых, предвзятость будет исходить только из данных, на которых она обучена, что эффективно устраняет возможность спорного вопроса о «беспристрастном присяжном» во всех судебных инстанциях в Соединенных Штатах. Еще одним преимуществом этого является существенное сокращение времени ожидания. На то, чтобы назначить дату судебного разбирательства, могут уйти недели, но с помощью алгоритма машинного обучения вердикт может быть вынесен с помощью представленного текста от адвокатов двух противоборствующих сторон. Однако реализация такой модели сопряжена со многими противоречиями и собственным набором этических проблем, как вы увидите в следующем разделе.

Какие проблемы возникают при использовании прогностической модели в суде?

Это будет разделено на две темы:

  • Проблемы с самими данными
  • Этика данных и этические проблемы

В этом наборе данных есть некоторые закономерности, которые могут вызывать беспокойство. Во-первых, длина «фактов» сильно различается. Имея минимальную длину регистра в 26 букв и самый длинный регистр с колоссальными 6201 буквами, явное несоответствие слов может сильно повлиять на модель машинного обучения и ее прогноз. Например, обученная модель может предсказать случай с 20 буквами так же, как случай с 5000 буквами (меньше деталей против больше деталей), не кажется ли это немного несправедливым? Набор данных также несколько мал, что следует отметить, поскольку модели глубокого обучения обычно работают лучше с большими наборами данных. Из-за своего небольшого размера модель с большей вероятностью будет соответствовать обучающим данным (как видно из базовых моделей, созданных авторами). Столбец «проблемная область» в этом наборе данных также вызывает некоторое беспокойство. Возможно, в определенных областях права, таких как уголовное правосудие, результаты менее благоприятны для ответчика, что затрудняет получение алгоритмом машинного обучения этих прогнозов, основанных на настроениях.

С точки зрения этики данных предвзятость, прозрачность и ответственность — это лишь несколько вещей, которые приходят на ум.

Потенциальная систематическая ошибка в этом наборе данных в настоящее время неизвестна, поэтому следует тщательно рассмотреть и оценить способ обучения модели, чтобы убедиться, что она не имеет врожденной систематической ошибки, исходящей из набора данных. Например, определенные слова, используемые в столбце «факты», могут сильно повлиять на модель, чтобы предсказать «виновен» или «невиновен». С таким небольшим набором данных потенциально можно было бы найти слова, ответственные за изменение вердикта, и просто использовать эти слова снова и снова, например, чтобы убедить модель в «невиновности». Другой вопрос может заключаться в том, в какой степени мы должны публиковать внутреннюю работу и дизайн модели? С одной стороны, модель используется для прогнозирования окончательного вердикта по делам, которые доступны для всеобщего обозрения, и, следовательно, должны быть обнародованы для обеспечения полной прозрачности. С другой стороны, модель может быть проанализирована и может быть использована для изменения вердикта в пользу данной стороны, что приведет к несправедливому вердикту. С ростом сложности моделей машинного обучения можно было не только вынести окончательный вердикт, но и вынести наказание. Что касается глубокого обучения, дизайнеры и специалисты по данным могут быть не в состоянии избежать нежелательных результатов. В этом случае кто будет нести ответственность? Это суд, в котором был вынесен приговор? Или это ложится на специалиста по обработке данных, разработавшего модель?

Возможно, самая неприятная и очевидная проблема заключается в том, что безопасность и наказание людей диктуются решениями компьютера. Это не то, что многие люди согласились бы иметь, и это было бы еще сложнее реализовать в его нынешнем состоянии. На данный момент я согласен, что есть больше проблем, чем преимуществ, связанных с внедрением такой модели в суде. Даже с идеальной моделью, которая могла бы извлечь правду из любого конкретного судебного дела, эта идея по-прежнему не соответствует этическим вопросам.

Заключение / Заключительные мысли

В 2015 году компания Northpointe (теперь эквивалентная) создала инструмент управления делами и поддержки принятия решений для судов США под названием «Профилирование управления исправительными правонарушителями для альтернативных санкций» (COMPAS). COMPAS в настоящее время используется для оценки рисков в таких штатах, как Нью-Йорк, Висконсин и Калифорния. Он оценивает вероятность рецидива (повторного совершения преступления) человеком, учитывая, что он совершил преступление в прошлом. Хотя это не так экстремально, как вынесение окончательного вердикта по конкретному делу, оно показывает варианты использования машинного обучения в системе правосудия. Компания Equivalent также создала множество других инструментов для систем правосудия, и если вам интересно, я настоятельно рекомендую заглянуть на их веб-сайт.

Машинное обучение все еще далеко от того, чтобы заменить присяжных на трибунах или судей в суде, но по мере того, как мы переходим в эпоху, в которой больше внимания уделяется данным, и технологии прогнозирования становятся нормой, возможно, однажды с машинным обучением мы могут единогласно согласиться с тем, что правосудие действительно слепо.

Спасибо за прочтение!