Мысли и теория

Причинный вывод с использованием обработки естественного языка

Оценка причинно-следственных связей текстовых переменных с применением методов НЛП и их применение в исследованиях в области социальных наук.

Недавно мне выпала честь дать интервью для авторского внимания редактора TDS Бен Хубермана. Я воспользовался возможностью, чтобы выделить свой коннекционистский подход к изучению науки о данных. В частности, я обсуждал свое желание постоянно связывать идеи - эта склонность отвечает за эту статью, которая объединяет два моих интереса: обработка естественного языка (НЛП) и причинный вывод. Меня вдохновил обзорный доклад по компьютерной лингвистике, опубликованный в начале этого месяца, в котором был дан всесторонний обзор использования НЛП для причинного вывода и, наоборот, использования причинности в улучшении моделей НЛП. Обратная связь применения причинности к исследованиям НЛП имеет последствия для повышения надежности и справедливости моделей ИИ; Я исследую эту связь в следующей статье. Здесь я сосредотачиваюсь на первой взаимосвязи с основной целью перевода недавних исследований в приложения для исследований в области социальных наук.

НЛП может помочь в оценке причинно-следственных связей - факт, который можно использовать для экономического анализа, исследований в области общественного здравоохранения, продаж и маркетинговых кампаний. В предыдущих статьях, посвященных эконометрии, я подробно описал статистическую проблему получения причинно-следственных оценок. Например, во вводном руководстве по причинным лесам я обсуждал структуру потенциальных результатов и обсуждал путаницу в руководстве по глубокому обучению с инструментальными переменными. В этой статье я возвращаюсь к обеим этим идеям, начиная с краткого обзора потенциальных результатов и роли смешивающих переменных в оценке причинных эффектов. Это приводит непосредственно к обсуждению сложности текстовых данных и проблем, связанных с предположениями о настройках, в которых текстовые переменные могут использоваться в качестве лечения, результата, посредника или как средство устранения искажений. Затем я использую причинно-следственные направленные ациклические графы (DAG), чтобы описать практический пример, взятый из ранее упомянутого обзора (Feder et al., 2021), который подчеркивает потенциал причинного вывода с помощью НЛП. Наконец, я обсуждаю несколько прикладных исследований, демонстрирующих универсальность использования текстовых переменных для причинного вывода.

Возможные результаты и несостоятельность

Чтобы оценить причинно-следственные связи на основе данных наблюдений, необходимо представить себе контрфактический сценарий. Следовательно, ключевым ингредиентом причинно-следственного вывода является определение контрфактических фактов, основанных на вмешательстве интереса. Более конкретно, причинный эффект определяется как величина, на которую переменная результата (Y) изменяется интервенционным изменением лечения на уровне единицы (T ∈ {0; 1}); другими словами, разница между результатами в реальном мире Y (1) и контрфактическом мире Y (0). Когда представляющий интерес причинный эффект представляет собой средний лечебный эффект (ATE), связь между фактическим наблюдением и контрфактическим наблюдением может быть описана, как показано на изображении ниже.

Более того, чтобы показать, что лечение вызывает результат (Y), изменение лечения (T) должно вызывать изменение результата (Y) , в то время как все другие ковариаты (X ) остаются постоянными; такое изменение лечения называется вмешательством.

Однако фундаментальная проблема причинного вывода состоит в том, что невозможно непосредственно наблюдать контрфактический результат. Следовательно, потребность в структуре потенциальных результатов, которая описывает статистическую модель причинно-следственной связи с контрфактическими условными выражениями, которые являются утверждениями, которые были бы верными при различных обстоятельствах. Структура потенциальных результатов также определяет несколько предположений, которые должны быть выполнены для причинно-следственного вывода. Если мы на мгновение проигнорируем предположения о ковариатах (X), есть три соответствующих предположения: игнорирование, положительность и последовательность.

Невежество требует, чтобы назначение лечения не зависело от реализованных контрфактических результатов. Обычно это выполняется случайным назначением; однако при использовании данных наблюдений это может оказаться невозможным. В таких случаях необходимо полагаться на условную игнорирование, где ковариаты X - это набор переменных (x), таких что назначение лечения (T) и потенциальные результаты (Y (1) и Y ( 0)) не имеют оснований на уровнях X. Это предположение показано на изображении ниже.

Однако условная игнорирование требует твердого предположения об отсутствии ненаблюдаемых искажающих факторов. Смешение возникает, когда переменная (конфаундатор) влияет как на лечение (T), так и на результат (Y), вызывая ложную корреляцию. Эта взаимосвязь показана на изображении ниже, где W - смешивающая переменная.

Далее, положительность - это предположение, что вероятность получения лечения ограничена от 0 до 1. При условной игнорировании положительность предполагает, что для всех ковариат (x), таких что Pr (X = x ) ≠ 0,

Позитивность также подразумевает, что статус лечения не может быть точно предсказан с учетом ковариат X. Наконец, согласованность требует, чтобы наблюдаемый результат при данном статусе лечения для данной единицы (i) был таким же, как мог бы наблюдалось, если этот блок был назначен для лечения. Это предположение о согласованности также может называться Предположение о стабильной единице лечебной ценности (SUTVA), и оно показано на изображении ниже.

Предположение о согласованности делает два утверждения о связи между контрфактическими результатами и наблюдаемыми. Во-первых, нет никакого вмешательства, так что на результат для отделения (i) влияет только его статус лечения, а не статус лечения других отделений; во-вторых, есть только один вариант лечения. В следующем разделе описываются проблемы с предположениями, с которыми сталкиваются при настройке различных текстовых переменных.

Роль текстовых переменных в причинно-следственных связях

Традиционно модели НЛП используют статистические корреляции для прогнозирования и полагаются на обычное предположение, что обучающие и тестовые данные распределены одинаково. Причинно-следственный вывод, однако, представляет собой проблему другого типа, особенно с неструктурированными текстовыми данными. Тем не менее, в случае с текстом существует возможность использовать знания предметной области о причинной структуре процесса генерации данных (DGP), который может указывать на индуктивные смещения, ведущие к более надежным предикторам. Более того, что касается справедливости, случайный взгляд на предсказатель может объяснить его внутреннюю работу, что является значительным преимуществом перед непричинными черными ящиками.

Текст имеет гибкость в кодировании лечения или результатов, представляющих интерес, или даже посредников, которые представляют собой промежуточный способ, которым лечение (независимое) может повлиять на результат (зависимое). Настройка посредника описана на изображении ниже, где W - это переменная-посредник, на которую влияет лечение, а сама она влияет на результат.

С помощью текстовых данных также можно устранить искажения, что позволяет оценить причинные эффекты. Вмешательство может быть связано с темой, стилем письма или тоном; следовательно, включая текстовые элементы управления для этих смешивающих факторов, что позволяет нам предположить условную игнорирование.

Важно отметить, что текст имеет большие размеры, и необходимо извлекать информацию из текста таким образом, чтобы можно было оценить причинно-следственные связи. Это означает, что для измерения семантически значимых факторов, таких как темы, требуется сложное языковое моделирование. Такие разработки в НЛП, как тематические модели и контекстные вложения слов, позволяют использовать текст для ответа на причинно-следственные вопросы. Проблема заключается в разработке новых предположений, которые гарантируют, что использование методов НЛП приведет к обоснованным причинно-следственным выводам.

Например, с текстом в качестве результата ключевой вопрос заключается в том, как преобразовать текстовые данные большой размерности в интересующую деталь низкой размерности. Становится необходимым разработать модель измерения со ссылкой на данные; однако при этом статус лечения одного наблюдения может повлиять на результат другого наблюдения через выбор измерения. Это приводит к двум проблемам: во-первых, это нарушение согласованности, а во-вторых, есть и другие проблемы, если бы мы исследовали несколько разных показателей для одних и тех же данных. Решением этой проблемы является разработка модели измерения с данными, отличными от данных, используемых для оценки причинно-следственных связей. Остальная часть этого раздела обсуждает оставшиеся сценарии текстовых переменных в следующем порядке: обработка, вмешательство и посредник.

Используя текст как лечение, нас интересует причинно-следственная связь, которую язык может иметь с последующими решениями, поведением и другими результатами (Feder et al., 2021). Рассмотрим открытие лечения, подход, который создает интерпретируемые особенности текста, которые могут быть причинно связаны с результатами. Такой подход к анализу эффектов текста может быть реализован с помощью скрытых измерений влияния, таких как темы или лексические характеристики, такие как n-граммы (Pryzant et al., 2018). Также можно оценить причинные эффекты определенных свойств, извлеченных из текста (Wood-Doughty et al., 2018).

Текст как метод лечения причинно-следственного вывода сталкивается с тремя проблемами. Первый связан с выбором, который люди делают для чтения определенного текста - причина их выбора часто связана с интересующим результатом; следовательно, предположение о незнании нарушается. Случайное назначение текста читателям может решить эту проблему; однако это не всегда возможно. В таких случаях для оценки влияния свойств текста потребуется строгое предположение, что текст содержит все противоречащие друг другу факторы. Это означает, что если существуют ненаблюдаемые причины, влияющие на то, какие тексты читает человек и их результат, то предположение о незнании не выполняется. Политическая принадлежность человека - пример ненаблюдаемой причины.

Вторая уникальная проблема связана с предположением о положительности. Например, если предположить, что текст содержит все противоречащие друг другу факторы, такие как тема, тон и стиль письма, если бы мы пытались оценить причинное влияние вежливого языка на время ответа по электронной почте, было бы невозможно представить вежливые электронные письма, написанные в непристойном стиле ( Федер и др., 2021 ). Третья и последняя проблема - это та же проблема измерения, что и ранее упоминавшаяся для текста как установка результата. В целях обеспечения согласованности и создания обоснованных выводов необходимо разработать меру лечения с использованием данных, отличных от данных, используемых для оценки причинно-следственного эффекта.

При попытке использовать текст в качестве средства устранения смешения, проблема состоит в том, как использовать методы НЛП, чтобы обусловить текст таким образом, чтобы блокировать смешение. Есть два подхода к этой проблеме: обучение без учителя и обучение с учителем. Во-первых, можно использовать методы неконтролируемого уменьшения размерности, которые уменьшат текстовые данные большой размерности до набора переменных меньшей размерности. Эти методы включают модели скрытых переменных, такие как тематические модели (например, LDA), методы встраивания (например, встраивание предложений-BERT) и автокодировщики (например, вариационные автокодировщики). Второй подход заключается в использовании контролируемых моделей для корректировки искажающих текстов; это может быть сделано путем адаптации предварительно обученных языковых моделей (например, BERT) или контролируемых тематических моделей (например, sLDA) для прогнозирования лечения и результата. Например, Vietch et al. (2020) адаптированные текстовые вложения для причинно-следственного вывода путем изучения низкоразмерных переменных, которые предсказывают лечение и результат; они доказали, что в текстовых данных присутствуют смешивающие свойства.

Важно отметить, что при использовании НЛП для корректировки искажений это требует сильных допущений относительно игнорирования, особенно потому, что текст как искажающий фактор применяется к настройкам, в которых доступны только данные наблюдений. Это означает, что для допущения игнорирования необходимо, чтобы все аспекты смешения были измерены с помощью модели. Поскольку текст является многомерным, включение всех возможных искажающих факторов означает, что существует большое количество переменных, на которые следует опираться, что рискует нарушить позитивность. Дополнительную озабоченность вызывает то, что при использовании переменных-коллайдеров (переменных, на которые причинно влияют несколько переменных) существует риск открытия бэкдора, который в противном случае был бы закрыт. Для простого ознакомления с критерием бэкдора (Жемчуг, 1993) я предлагаю этот Средний пост. После обсуждения текста в качестве настройки посредника в следующем разделе представлены причинные группы доступности базы данных, где я более подробно остановлюсь на критериях бэкдора.

Посредники действуют как факторы, влияющие на внешнюю достоверность, то есть неспособность учесть посредничество в текстовой настройке означает, что причинным оценкам не хватает обобщаемости. В настройке посредничества лечение (T) не может напрямую влиять на результат (Y), кроме как через посредника-посредника (W). Следовательно, если текст выступает в роли посредника, необходимо учитывать его при причинно-следственной оценке. Часто представляющий интерес причинный эффект представляет собой естественный прямой эффект (NDE), который показан на изображении ниже в виде стрелки, которая напрямую связывает лечение (T) с результатом (Y).

На изображении выше посредник представлен буквой W, и для оценки прямого причинного эффекта Z = f (W) должно представлять части W, которые опосредуют T и Y. Таким образом, прямой эффект лечения (𝛽) - средняя разница в исходе, вызванная назначением лечения каждой единице (i), если распределение Z было таким, как если бы каждая единица получала лечение (Veitch et al., 2020). Этот расчет описан с использованием схемы потенциальных результатов на изображении ниже.

В следующем разделе представлены причинные группы доступности базы данных и используются практические примеры для демонстрации всех параметров текстовых переменных, включая текст в качестве посредника.

Причинно-направленные ациклические графы

В терминологии графа DAG имеет вершины и ребра, где каждое ребро направлено от одной вершины к другой без образования замкнутого цикла, оно обязательно ациклично, т.е. нет петель обратной связи. Рассмотрим изображение ниже, где направленные грани от конфаундер (W) и обработки (T) до результата (Y) показаны сплошными стрелками, а двунаправленная пунктирная стрелка между W и T указывает, что они коррелированы.

На изображении выше изменение значения лечения (T) может изменить распределение результатов (Y), а W и T коррелированы. В этом примере DAG, W представляет текст в качестве мешающего фактора, поэтому текст коррелирует с обработкой (T), а также оказывает влияние на результат (Y).

Гендер - это социальная конструкция, тем не менее, гендерная предвзятость вызывает беспокойство как офлайн, так и онлайн. На примере из Feder et al. (2021 ), предположим, что на платформах социальных сетей пользователям разрешено указывать предпочтительный пол с помощью значка. В этих условиях было замечено, что те, кто идентифицировал себя со значком женщина, как правило, получали меньше лайков на своих постах. Возникает причинный вопрос: вызывает ли восприятие женщины снижение популярности поста? Другими словами, каково причинное влияние того, что вас воспринимают как женщину (лечение), на количество лайков, получаемых постом (результат). Ответ на причинно-следственный вопрос поможет понять, оказывает ли политика разрешения информации, позволяющей идентифицировать пол в профилях пользователей, отрицательное причинно-следственное воздействие.

Однако предположения необходимы для выявления контрфактических запросов, чтобы выразить запросы как функцию наблюдаемых результатов. Создание причинно-следственной группы DAG для этого сценария помогает нам понять, будет ли модель, которую мы кодируем, удовлетворять допущениям, необходимым для создания причинных выводов. Контрфактический вопрос можно сформулировать так: если бы можно было манипулировать значком, определяющим пол (T) в конкретном посте, сколько лайков было бы получено (Y)? В этом примере корреляция может происходить по двум причинам: во-первых, истинный причинный эффект и, во-вторых, ложная корреляция, вызванная искажающими факторами (W). Это описывается причинным DAG, показанным ниже.

Следовательно, текст сообщения (W) можно использовать для устранения искажений, которые коррелируют как с лечением (T), так и с результатом (Y). Кроме того, помимо устранения смешения, можно использовать текст в качестве результата, когда лечение воспринимается как пол (T), а результатом является тональность текстового ответа, который получает сообщение (Y). Также можно использовать текст в качестве обработки, где обработка - это стиль письма, и нас интересует причинное влияние стиля письма (T) на количество лайков, получаемых постом (Y).

Возвращаясь к тексту в качестве настройки конфаундера, создав причинную группу DAG, как показано выше, можно считать все необходимые мешающие факторы (W) на основе критериев бэкдора, используя алгоритм, полученный из d-разделения Джудей Перл. Алгоритм d-разделения был изобретен для вычисления всех отношений условной независимости, вытекающих из DAG. Критерий бэкдора можно объяснить следующим образом: если задана упорядоченная пара переменных лечения и результата (T, Y) в DAG, набор переменных (W) будет удовлетворять критерию бэкдора относительно (T, Y), если следующие два критерия которые встретились. Во-первых, ни один узел / переменная в W не может быть потомком T, а во-вторых, W должен блокировать каждый путь между T и Y, который будет содержать ребро / стрелку, направленную в T. Как упоминалось ранее, если мешающие факторы содержат переменные-коллайдеры, тогда там есть риск открыть бэкдор, нарушив игнорирование. К счастью, рассмотрение текста сообщения (W) как мешающего фактора удовлетворит условное игнорирование, пока нет ненаблюдаемых искажающих факторов (сильное предположение).

Наконец, мы можем рассматривать текст как настройку посредника, где, как показано на изображении ниже, посредник W является посредником, с помощью которого T влияет на Y.

В примере со значком, идентифицирующим пол, естественным прямым эффектом (ОСО) будет ожидаемая разница в количестве лайков (Y) между постом, помеченным, как написано мужчиной, и постом, помеченным как написанное мужчиной, и постом, помеченным как написанное женщиной, где ожидалось ожидание. по распределению постов, написанных мужчинами (Z = f (W)). Здесь Z представляет части W, которые опосредуют T и Y. Использование текста сообщения для адресации посредничества W позволяет нам оценить прямой причинный эффект от значка гендерной идентификации (T) до количества лайков, полученных постом ( Y).

Применение причинно-следственного вывода в НЛП

Есть несколько областей, в которых можно использовать текстовые переменные для оценки причинно-следственных связей, и в некоторых областях появились новые области исследований. Например, Algaba et al. (2020) использовать эконометрическую методологию для преобразования качественных данных о настроениях в количественные переменные настроений, а затем использовать эти текстовые переменные, полученные из НЛП, в эконометрическом анализе. Они называют эту развивающуюся область сентометрикой, которая представляет собой сумку настроений и эконометрики. Исследователи также хорошо использовали огромное количество текстовых данных с открытым исходным кодом, предоставляемых платформами социальных сетей, такими как Twitter. Tan et al. (2014) изучали влияние формулировок на распространение сообщений, где они контролировали путаницу, просматривая твиты, содержащие один и тот же URL-адрес и написанные одним и тем же пользователем, но использующие разные формулировки.

В социальных науках лингвистика играет важную роль в разработке методов, использующих НЛП для причинного вывода. Pryzant et al. (2018) разработали способ деконфигурирования индукции лексики, чтобы сделать возможным интерпретируемое исследование социальных наук. Они используют два алгоритма глубокого обучения, где первый разделяет объяснительную силу текста и искажающих факторов, а второй заставляет смешивать инвариантные текстовые кодировки. Эти два алгоритма создают лексикон со словами, которые связаны с повествовательным убеждением, которое является более предсказуемым и менее связанным с ошибками, чем стандартные методы взвешивания признаков. Pryzant et al. протестировать свой метод в нескольких практических условиях: сначала они контролируют продукт и оценивают ответы на жалобы потребителей, во-вторых, они контролируют тему и оценивают зачисление на основе описаний курсов, и, наконец, они контролируют продавцов и оценивают продажи на основе описаний продуктов. Wang & Culotta (2019) рассматривают влияние лексического выбора на восприятие аудитории; например, то, как пользователи описывают себя в своем профиле в социальных сетях, может повлиять на их воспринимаемый социально-экономический статус.

В документе, на который я ссылался несколько раз ранее в этой статье (Veitch et al., 2020), адаптированы вложения BERT для причинно-следственного вывода путем прогнозирования оценок предрасположенности и потенциальных результатов наряду с целью моделирования замаскированного языка (MLM). В дополнение к Causal BERT Veitch et al. также разработать причинно-амортизированную тематическую модель для создания причинных вложений, которая была адаптирована из исходной модели LDA (Blei et al., 2003). Эти адаптированные текстовые вложения использовались как в тексте в качестве посредника, так и в тексте в качестве параметров настройки.

Есть три важных применения текста в качестве исходных данных для причинного вывода. Sridhar & Getoor (2019) рассматривает причинное влияние тона на онлайн-дебаты; используя дискурс в социальных сетях, они показывают, что существует причинный эффект тона ответа в дебатах на языковые и эмоциональные изменения в последующих ответах. Gill & Hall (2015) рассматривают причинно-следственный эффект судебной гендерной или расовой идентичности (обращения) на язык судебных решений (результат). Королева и др. (2019) измерить семантическое сходство результатов клинических испытаний, исследование, которое включало тестирование BERT, BioBERT и SciBERT на текстовых результатах.

Заключительные мысли

Методы НЛП сделали возможным использование текста для причинного вывода, и уже есть несколько интересных приложений в рамках исследований в области социальных наук. Проблема, которую следует учитывать, заключается в том, что невозможно создать эталонные тесты для проверки точности таких причинно-следственных моделей. Поскольку потенциальные результаты по определению ненаблюдаемы, набор контрольных данных, который предполагает знание контрфактов, делает сильное предположение о DGP, которое обязательно невозможно проверить (Feder et al., 2021).

Кроме того, все описанные выше настройки и приложения относятся к среднему локальному эффекту лечения (ПОЗДНЕЕ); однако из-за возможности неоднородных эффектов лечения может потребоваться оценка условного среднего эффекта лечения (CATE). Чтобы уточнить, тексты читаются и интерпретируются по-разному разными людьми, поэтому, когда текст является обработкой, один и тот же текст может иметь разное (разнородное) воздействие на разных людей из-за различий в интерпретации. Согласно Feder et al. (2021 г.), это очень интересная область для дальнейших исследований, которые потребуют новых контрфактических вопросов, предположений и методов.

Я приветствую отзывы и любые вопросы, не стесняйтесь связываться со мной в Linkedin.