Часто нам нужны быстрые ответы с ограниченными ресурсами. Мы должны выносить суждения в мире, полном неопределенности. Мы не можем все измерить. Мы не можем проводить все эксперименты, которые нам нужны. У вас может не быть ресурсов для моделирования продукта или влияния решения. Как найти баланс между быстрым и правильным ответом? Как минимизировать неопределенность с ограниченными ресурсами?

Есть разные типы неопределенности. Существует неопределенность из-за ограниченного количества точек данных (шум или случайная ошибка), неопределенность из-за математических инструментов в вашем анализе (которые могут быть случайными или систематическими, например, с использованием смещенной оценки), а также неопределенность из-за отсутствия знание того, как устроен мир, то есть причинно-следственной структуры. Этот третий тип может возникнуть из допущений моделирования, например предположения о том, какие переменные включить или исключить из вашего анализа. Первые два источника ошибок хорошо знакомы большинству специалистов по данным, но о третьем я слышал гораздо меньше. Этот тип будет в центре внимания данной статьи.

Можно быстро и легко сопоставить уровень образования человека с его доходом и показать, что чем более образован человек, тем выше вероятность, что он будет иметь высокий доход. Вы можете рассказать историю «Чем больше вы обучаете людей, тем лучше их жизнь». Как узнать, правильная ли это история? Откуда вы знаете, что корреляция не связана с незаметными общими причинами, такими как доход родителей, или просто с тем, какую карьеру вы хотите продолжить. Если хотя бы одна из этих причин является реальной причиной корреляции, то правильная история могла бы быть больше похожа на «Вы преуспеваете в жизни, когда ваши родители играют активную роль в вашей жизни, как через образование, так и через помощь в формировании вашей карьеры».

Является ли коррелятивный результат (без интерпретирующей истории) полезным для чего-либо, независимо от того, является ли он причинным? Причинно-следственную связь обычно гораздо труднее установить, чем корреляцию (обычно с помощью контролируемого эксперимента). Причинно-следственная связь также намного мощнее. Если существует прямая причинно-следственная связь между колледжем и доходом, мы можем действовать в соответствии с ней: вы отправляете в колледж больше людей, и они будут зарабатывать больше денег. Если отношения связаны с ненаблюдаемыми общими причинами, то отправка большего количества людей в колледж не повлияет на доход. Причинно-следственную связь найти сложно, но она очень сильна. Корреляцию найти легче, но она менее эффективна.

В этом посте мы подробно рассмотрим, когда корреляция дает правильный ответ, а когда нет. Мы увидим, в чем именно он ломается, и выработаем понимание, которое позволит нам принимать обоснованные решения, чтобы мы могли сбалансировать скорость и точность.

Только корреляция

Во-первых, давайте посмотрим на игрушечный пример, в котором правильнее всего использовать только корреляцию.

Одна из ложных корреляций в этом блоге (которая почти наверняка связана с отказом от тренда, а также небольшим размером выборки) - это сильная корреляция между утоплением в бассейне и потреблением энергии в США. . Позвольте этому мотивировать наш игрушечный пример и предположим, что он возник в результате надлежащего анализа большого временного ряда данных без тренда. Вместо того, чтобы утонуть, давайте посмотрим на владение бассейном. Для нашего примера с игрушкой (рис. 1) давайте представим, что корреляция между владением бассейном и потреблением энергии полностью обусловлена ​​искажающей предвзятостью, связанной с богатством, из-за следующих механизмов: (1) богатые люди с большей вероятностью будут владеть бассейнами; (2) богатые люди также чаще потребляют больше электроэнергии. Я понятия не имею, правда ли это, но в этом гипотетическом мире это так. В этом мире богатство смешивает владение пулами и потребление энергии.

Предположим, мы хотим продавать игрушки для бассейна. Мы хотели бы разослать объявление, но у нас ограниченные средства. Есть ли способ использовать наши знания о мире, чтобы убедиться, что мы доставляем рекламу людям, которые с большей вероятностью купят игрушки для бассейна?

Оказывается, этой корреляции достаточно для построения стратегии: если мы хотим выбрать популяцию, которая превышает индекс владения пулом, то все, что нам нужно сделать, это нацелить коррелированный признак. В этом случае мы можем сотрудничать с энергокомпанией, чтобы разослать нашу рекламу клиентам с более высокими счетами за электроэнергию. Обратите внимание, что более высокое потребление энергии не обязательно должно приводить к владению пулом, чтобы это работало. Мы используем тот факт, что люди, которые потребляют больше энергии, завышают индекс владения пулом, чтобы ориентироваться на население.

Из этого примера мы можем разработать наше первое правило: если вы хотите выбрать популяцию, в которой наблюдается чрезмерное индексирование признака, тогда выбор на основе коррелированного признака - это нормально.

Что, если мы хотим пойти дальше? Что, если мы хотим использовать корреляцию для построения стратегии, в которой мы вмешиваемся в одну наблюдаемую переменную, чтобы управлять другой? Полезно посмотреть, на чем заканчивается этот пример. Давайте посмотрим, как выглядит вмешательство на этих рисунках, и посмотрим, где нарушается корреляция.

Корреляция, когда вам нужна причинно-следственная связь

В нашем примере на рис. 1, нет прямой причинно-следственной связи между использованием энергии и владением бассейном: абсурдно предполагать, что побуждение людей к потреблению большего количества электроэнергии приведет к тому, что больше людей будут владеть бассейном (и, таким образом, повысить продажи игрушек для бассейнов). Как выглядит «вмешательство» в систему? Вмешательство в этом примере - это когда вы исправляете значение некоторой переменной независимо от ее обычных причин (вы можете обрабатывать более общие вмешательства в этой структуре, но для этого обсуждения мы просто рассмотрим «Атомарное» вмешательство по исправлению одной переменной, независимо от ее обычных причин). Вы выбираете уровни потребления энергии людьми, а затем выполняете некоторые действия, чтобы установить для них выбранные значения (смешными примерами могут быть: отключите их питание или проведите удлинитель от их дома к энергопотребляющему устройству). Я нарисовал картину «интервенционного» мира на рис. 2. В этом мире мы вмешались, чтобы изменить потребление энергии людьми. Это нарушает обычные причинно-следственные связи, которые стимулируют использование энергии. Энергопотребление теперь приобретает выбранную нами ценность. Эти отношения определяют корреляции, которые мы обнаруживаем в наших неинтервенционных (наблюдательных) данных. В результате богатство больше не коррелирует с использованием энергии в этом мире, и поэтому использование энергии больше не коррелирует с владением пулом.

Корреляция была обусловлена ​​общей причиной, богатством, которое присутствовало в данных наблюдений. Вмешательство приводит к богатству, больше не вызывающему как использования энергии, так и владения пулом. Вы можете прочитать непосредственно из второй диаграммы, что «если вы вмешаетесь, чтобы установить потребление энергии людьми (сократив потребление энергии), то потребление энергии не будет коррелировано с владением бассейном (а также со склонностью покупать игрушки для бассейна) - нет причинно-следственных или смешанных путей, связывающих их ».

Ясный и простой способ моделирования вмешательств в систему - это один из аспектов причинных моделей (эти картинки), который делает их такими мощными. Существует целый расчет вмешательства, который вы можете применить к этим моделям для оценки эффектов политических вмешательств, а также логическую систему для моделирования более сложных вмешательств.

Есть второе правило, которое мы здесь обнаружили: если ваша стратегия включает вмешательства с одной из коррелированных переменных для изменения другой, то одной корреляции недостаточно. Вам нужна причинно-следственная связь.

Когда корреляция является причинной

Наша цель - узнать, когда достаточно простого и быстрого ответа. Корреляция быстрая, причинно-следственная связь (обычно) медленнее. Причина этого в том, что корреляции обнаруживаются с простыми данными наблюдений, а причинно-следственная связь (обычно) исходит из экспериментальных данных. Мы хотели бы иметь силу причинного результата со скоростью коррелятивного результата. Мы получаем это только в особом случае: когда наблюдение эквивалентно вмешательству.

Ранее мы видели, что наличие смещения из-за искажающего фактора привело к корреляции, которая исчезла, когда мы вмешались в систему. Оказывается, это иллюстрирует более общий принцип, который является (частным случаем) вторым правилом исчисления вмешательства: корреляция подразумевает причинно-следственную связь (и наоборот) всякий раз, когда нет предвзятости. Мы подробно рассказали, как выглядит предвзятость, в последнем посте этой серии.

Это подводит нас к нашему последнему правилу, которое обязательно является нечетким в быстро меняющемся контексте высокой неопределенности: если вам нужен причинно-следственный результат, а все, что у вас есть, это данные наблюдений, можно действовать только на основе корреляции, если вы уверены. нет предвзятости. То есть, если оставить в стороне проблемы с оценкой, вы уверены, что нет никакого смешения и нет систематической ошибки отбора.

Это большое «если». Это может быть не столько полезным рабочим правилом, сколько предупреждением: если вы принимаете решения в контексте неуверенности в том, как устроен мир, вот почему они могут пойти совсем не так. Правило, вероятно, должно выглядеть примерно так: если вы должны принять решение, то спросите себя, есть ли какие-либо существенные факторы, мешающие вам, и есть ли какое-либо существенное смещение выбора. Если ответ на любой из этих вопросов - «Да», то ваш результат не является причинным. Если ответ «Нет», то, хотя вы, возможно, не закончили со всеми практическими аспектами, которые вам необходимо рассмотреть, вы, по крайней мере, проявили должную осмотрительность, чтобы попытаться проверить, является ли ваше решение неправильным из-за фундаментального непонимания того, как мир работает.

И последнее замечание: по моему личному мнению, знание того, насколько быстро решения могут потерпеть неудачу, является отличным оправданием для построения причинно-следственных диаграмм для продуктов. Если вы уже сделали основу для построения причинно-следственной диаграммы до, когда вам нужно было ее использовать, то у вас есть быстрые, причинно-следственные ответы. Это лучшее из обоих миров. Диаграмма сводится к власти принятия решений. Вы знаете о предубеждениях и можете попытаться использовать кондиционирование для их устранения, сообщая о результатах наблюдений.