От корреляции к причинно-следственной связи, понимание причинно-следственного вывода и его методов, предположений, приложений и лучших практик в науке о данных

Введение

В науке о данных понимание причинно-следственных связей имеет решающее значение для создания точных прогнозов и принятия эффективных мер. Понимание причинно-следственной связи позволяет нам определить основные механизмы, которые управляют системой, и понять, как различные факторы взаимодействуют для получения определенного результата. Однако вывод причинно-следственной связи из данных наблюдений может быть сложной и сложной задачей.

Данные наблюдений часто подвержены предвзятости и путанице, что может затруднить установление причинно-следственной связи. Кроме того, наборы данных часто бывают неполными или зашумленными, что может еще больше усложнить процесс установления причинно-следственной связи. Несмотря на эти проблемы, вывод причинно-следственных связей на основе данных наблюдений является важнейшим аспектом науки о данных и имеет множество приложений в самых разных областях, включая здравоохранение, экономику и бизнес.

В этой статье мы рассмотрим основы корреляции и причинно-следственной связи, методы установления причинно-следственной связи, а также проблемы и лучшие практики для причинно-следственного вывода в науке о данных. Мы углубимся в различные методы и подходы, которые специалисты по данным могут использовать для установления причинно-следственных связей и преодоления ограничений данных наблюдений.

Основы корреляции и причинно-следственной связи

При анализе данных важно понимать разницу между корреляцией и причинно-следственной связью.

Корреляция

Корреляцияотносится к взаимосвязи между двумя переменными, например взаимосвязью между продажами мороженого и уровнем преступности. Корреляция между двумя переменными является мерой силы и направления их связи.

причинность

Напротив, причинно-следственная связь относится к взаимосвязи между действием и результатом, например, к взаимосвязи между употреблением мороженого и развитием головной боли.

Установление причинно-следственной связи требует соблюдения определенных критериев. Наиболее важным из них является временной приоритет, то есть причина должна возникнуть раньше следствия. Это важно, потому что помогает исключить альтернативные объяснения, такие как обратная причинно-следственная связь или ложная корреляция. Еще одним важным соображением является наличие альтернативных объяснений, причинно-следственная связь должна быть более вероятной, чем любое другое объяснение.

Типы причинно-следственной связи

Причинность можно разделить на два типа: детерминированную и вероятностную. Детерминированная причинность относится к фиксированной и определенной связи между причиной и следствием, например, если вы нажмете кнопку, загорится свет. Вероятностная причинно-следственная связь относится к взаимосвязи между причиной и следствием, которая является неопределенной и может быть определена количественно с помощью распределения вероятностей, например, если вы примете определенное лекарство, вы выздоровеете с определенной вероятностью. Понимание типа причинно-следственной связи может помочь разработать соответствующий метод и стратегию для причинно-следственного вывода.

Методы установления причинно-следственной связи

Существует несколько методов, которые можно использовать для установления причинно-следственной связи.

Рандомизированный контролируемый эксперимент

Наиболее действенным методом является рандомизированный контролируемый эксперимент, в котором исследователь контролирует назначение лечения и может непосредственно измерить причинный эффект. Однако во многих случаях эксперименты могут быть неосуществимыми или неэтичными. В этих случаях можно использовать наблюдательные исследования, такие как исследования случай-контроль или когортные исследования.

Соответствие

Другой подход заключается в использовании методов причинно-следственного вывода, таких как сопоставление, сопоставление показателей склонности или инструментальные переменные, которые позволяют делать причинно-следственные выводы на основе данных наблюдений. Эти методы используют свойства данных и исследовательский вопрос для оценки причинно-следственной связи.

Методы сопоставления, например, объединяют людей, получавших лечение, с аналогичными людьми, которые не получали лечения, и сравнивают их результаты. Сопоставление показателей склонности — это более мощный метод. Он взвешивает людей на основе вероятности того, что они получили бы лечение, а затем сравнивает их результаты. Методы инструментальных переменных используют внешнюю переменную, которая коррелирует с лечением, но не с результатом. Эту переменную можно использовать в качестве инструментальной переменной для оценки причинного эффекта.

Предположения и компромиссы

У каждого метода есть свои допущения и компромиссы, и важно выбрать подходящий метод для конкретного исследовательского вопроса и набора данных. Исследователи должны помнить о предположениях каждого метода и быть прозрачными в отношении любых ограничений. Кроме того, важно оценить устойчивость результатов к различным предположениям и неопределенности.

Проблемы в причинно-следственном выводе

При выводе причинно-следственной связи из данных наблюдений необходимо решить несколько проблем. Основными проблемами являются путаница, ошибка измерения и систематическая ошибка отбора.

Вмешательство означает наличие скрытых переменных, которые могут повлиять как на лечение, так и на результат.

Ошибка измерения относится к неточностям при сборе и записи данных.

Систематическая ошибка отбора относится к неслучайному отбору лиц для участия в исследовании.

Для решения этих задач можно использовать несколько методов.

  1. Выбор контрольной группы, например, можно использовать для контроля помех.
  2. Сопоставление оценок склонности можно использовать для учета систематической ошибки выбора и ошибки измерения.
  3. Анализ чувствительности можно использовать для проверки устойчивости результатов к различным допущениям и неопределенностям.
  4. Кроме того, важно быть прозрачным в отношении любых ограничений или неопределенностей в данных и предварительно зарегистрировать дизайн исследования и план анализа, чтобы свести к минимуму систематическую ошибку.

Приложения причинного вывода

Причинно-следственный вывод является важным аспектом науки о данных и имеет множество приложений в различных областях.

Например, в здравоохранении его можно использовать для оценки эффективности лечения и определения наиболее эффективного лечения определенного состояния.

В экономике причинно-следственный вывод можно использовать для понимания влияния политических решений на экономические результаты и для оценки эффективности различных политик.

В бизнесе причинно-следственный вывод можно использовать для выявления движущих сил результатов бизнеса и оптимизации маркетинговых стратегий. Он также широко используется в A/B-тестировании, онлайн-рекламе и социальных сетях, чтобы понять эффект различных вмешательств и стратегий.

В дополнение к этим конкретным областям причинно-следственный вывод также важен во многих других областях исследований, таких как социальные науки, политология и науки об окружающей среде, где его можно использовать для понимания основных механизмов, которые управляют сложными системами, и для улучшения. решения.

Заключение

В этой статье мы рассмотрели основы корреляции и причинно-следственной связи, методы установления причинно-следственной связи, а также проблемы и лучшие практики для причинно-следственного вывода в науке о данных. Понимание причинно-следственной связи является важным аспектом науки о данных, но это может быть сложным и трудным.

Используя соответствующие методы, внимательно рассматривая ограничения и передовой опыт, специалисты по данным могут делать обоснованные выводы и делать более точные прогнозы и решения. Важно отметить, что причинно-следственную связь не всегда легко вывести и что для получения более надежных результатов можно использовать несколько подходов. Специалисты по обработке и анализу данных должны быть прозрачными в отношении ограничений и сильных сторон своих методов и соответствующим образом сообщать о своих результатах и ​​выводах.

Связаться с автором

Если вам понравилась эта статья и вы хотите оставаться на связи, не стесняйтесь подписаться на меня в Medium и связаться со мной в LinkedIn. Я хотел бы продолжить разговор и услышать ваши мысли на эту тему.

Рекомендации

  1. https://towardsdatascience.com/causal-inference-an-overview-736efdfe01c4
  2. https://towardsdatascience.com/from-correlation-to-causation-49f566eea954