Почему мы должны знать о наших данных

Работа с эндогенным типом II

Примеры из литературы, посвященной эндогенности II типа

С введением и рассмотрением более простой формы эндогенности (Тип I) в этой части исследуется более сложная проблема эндогенности посредством одновременности. Одновременность возникает, когда Y вызывает X, а X вызывает Y (богатый становится еще богаче).

Проблема сложна, поскольку:
1. добавление инструментальных переменных (IV) может не помочь
2. это наиболее распространенное и трудное для диагностики (или распознавания)
3. стандартное предположение того, что X является iid, не выполняется (эффект количества купонов в январе может продлиться до марта).

Если одновременность не исправлена, пагубные последствия неправильной модели и уверенность в неправильной модели все еще действительны для одновременности (как описано в Части II для пропущенных переменных). В большинстве компаний, где покупателю выдаются купоны, они решаются на основе некоторой стратегии (это может быть модель, построенная предыдущим специалистом по данным).

Одновременность не может быть освещена в блоге. Итак, несколько указателей с примерами того, где читать об одновременности.

Пример 1. Подробная информация о лекарствах. Фармацевтические компании тратят средства на рекламу для врачей. Они тратят больше на врачей с большим количеством рецептов. Специалисты по обработке данных могут использовать запаздывающие рецепты в модели, где текущие рецепты зависят не только от текущего уровня детализации, но и от предыдущих рецептов.

Пример 2. Фильмы / продукты / шоу выпускаются последовательно в разных городах, в зависимости от конкурирующих фильмов, показываемых в кинотеатрах, и обзоров фильмов из городов, где ранее был выпущен фильм. Таким образом, решение о том, где и в каком городе запускать фильм, зависит от его качества. Выбрав правильные инструментальные переменные (или управляющие переменные, которые делают «равными другие параметры»), можно справиться с эндогенностью. Идея такова: экзогенные переменные, которые определяют кассовые сборы в предыдущих городах, будут определять кассовые сборы в следующем городе. Таким образом, поиск правильных IV может помочь противостоять одновременности. В документе они использовали показатели из конкурирующих фильмов в качестве IV.

Пример 3. Компания может выдавать купоны покупателю на основе значений R, F, M (очень часто используются: «Давность», «Частота» и «Деньги»). RFM в t-1 можно использовать в качестве контрольных переменных (поскольку они не будут коррелированы с ошибкой в ​​t). Подход с функцией управления (часть II) также может быть рассмотрен, где R, F, M регрессируют как функцию R, F, M в момент t-1, а разница между прогнозируемыми и фактическими значениями R, F, M используется как независимая переменная при моделировании продаж.

Пример 4. В примере с продавцом мороженого вместо температуры в качестве IV можно использовать совместное распределение вероятностей цены и error_i. В то время как IV, модели подхода к контролю нуждаются в точной структуре сбора данных, она не всегда доступна. Модель, рассмотренная в примере 1, предполагает знание модели отклика (как X | Y приводит к Y), и это также неизвестно. Метод Copula - это безмодельный подход, который использует совместное распределение регрессора X и error_i. Копула - это функция, которая связывает m-мерное многомерное распределение с m одномерными маргиналами. Этот метод использует максимальную вероятность для получения совместного распределения.

Я надеюсь, что эти три части могли дать некоторое представление о важности знания источника данных (как они были созданы или собраны). Хотя современные методы машинного обучения позволяют обрабатывать эндогенность с помощью пропущенных переменных, одновременность требует некоторого мозгового штурма перед построением модели .

Ссылки:

  1. Нетехническое руководство по эндогенности (базовый документ для Части I, II блога)
  2. Детализация лекарств: журнал маркетинговых исследований.
  3. Влияние отзывов пользователей на качество фильма: Наука о маркетинге
  4. Использование связок для обработки эндогенности: Marketing Science
  5. Купоны на доход: Наука управления

Первоначально опубликовано на https://medium.com 2 июня 2019 г.