Какими бы мощными ни были данные для обеспечения понимания и информирования решений, каждый руководитель данных должен знать о некоторых способах неправильного понимания данных из-за плохой подготовки статистики или когнитивных предубеждений, которые у нас уже есть.

Вот пара примеров:

Когнитивные предубеждения

Заблуждение Макнамара: полагаться исключительно на показатели в сложных ситуациях и упускать из виду общую картину. Также известное как количественная ошибка.

Опасность сводных показателей: анализируются только сводные показатели и отсутствуют большие различия в необработанных данных.

Пример показателей McNamara и сводных показателей: если компания за счет своих рекламных акций увеличила количество подписчиков по электронной почте. На первый взгляд это похоже на отличный знак, но не обязательно. Что, если увеличится количество людей, которые никогда не открывают электронную почту? Без чтения электронной почты увеличение количества подписчиков было бы бесполезным, а слепое измерение метрики могло бы ввести в заблуждение.

Предвзятость публикации. Скорее всего, будут опубликованы интересные результаты исследований, искажающие наше представление о реальности.

Пример: Новости сообщают только о громких преступлениях, поэтому восприятие безопасности искажено, чтобы чувствовать себя более незащищенным, даже несмотря на то, что в городе гораздо больше случаев мирных событий.

Эффект Хоторна. Наблюдение за кем-либо может повлиять на его поведение и привести к ложным выводам. Также известен как эффект наблюдателя.

Пример: наблюдение за производственными рабочими во время поездки по контролю качества положительно влияет на их качество.

Эффект кобры: установка стимула, который случайно приводит к результату, противоположному запланированному. Также известно, что извращенный стимул.

Пример: Схема четно-нечетных автомобильных номеров в Джакарте, Индонезия, намеревалась сократить движение на главных улицах в рабочие дни, но непреднамеренным последствием стало то, что жители Джакарты купили две машины как с четными, так и с нечетными номерами, что усугубило проблему дорожного движения в городе.

Предубеждение в отношении выживаемости: выводы на основе неполного набора данных, поскольку эти данные «пережили» некоторые критерии отбора.

Пример: Допустим, вы только начали ходить в спортзал. Каждый раз, когда вы там, вы видите одни и те же подтянутые и целеустремленные лица. Через несколько дней вы впадаете в депрессию, потому что не можете придерживаться графика и мотивации, в то время как другие в тренажерном зале могли. Вы начинаете чувствовать себя меньше, чем средний посетитель тренажерного зала, однако вы не понимаете, что многие из тех, кто не посещает тренажерный зал, предвзято относятся к тем, кто «выживает» и приходит в тренажерный зал.

Ошибки статистики

Выбор вишни: выбор результатов, соответствующих вашему утверждению, и исключение тех, которые не соответствуют.

Дноуглубительные работы: процесс «схем рыбалки» в данных, которые могут быть представлены как статистически значимые, без предварительного создания конкретной гипотезы относительно лежащей в основе причинно-следственной связи. А также p-hacking.

Действительно хороший пример извлечения данных: https://fivethirtyeight.com/features/science-isnt-broken/#part1

Ложная причинность: ложное предположение, когда два события связаны между собой, что одно должно было вызвать другое.

Пример: «Каждый день я ем хлопья на завтрак. Однажды вместо этого я съел булочку, и в моем городе произошло сильное землетрясение. С тех пор я ем хлопья.

Gerrymandering: манипулирование географическими границами, используемыми для группировки данных, с целью изменения результата. Вот youtuber CGP Gray, объясняющий это дальше: https://www.youtube.com/watch?v=Mky11UJb9AY

Ошибка выборки. Выводы на основе набора данных, не репрезентативных для населения, которое вы пытаетесь понять.

Пример: опрос учащихся в международной школе о том, какие они предпочитают платформу обмена сообщениями, и использование этого мнения, чтобы сказать: «Учащиеся в США больше используют WeChat». Это ошибочно из-за того, что первоначальная выборка не представляла население.

Заблуждение игрока: ошибочное предположение, что, поскольку что-то происходило чаще, чем обычно, вероятность того, что это произойдет в будущем, меньше (и наоборот).

Пример: при подбрасывании последних восьми монет решка была решена, поэтому теперь "должно" быть решкой. На самом деле вероятность того, что при следующем подбрасывании монеты выпадет орел, по-прежнему составляет 50–50, независимо от предыдущего подбрасывания монеты.

Заблуждение регрессии. Когда происходит что-то, обычно хорошее или плохое, со временем оно возвращается к среднему значению.

Пример: ваш любимый спортивный игрок без новых тренировок или стратегий внезапно выигрывает больше игр, чем ожидалось. Это могло произойти из-за «удачи» и через некоторое время вернется к его / ее средним способностям.

Парадокс Симпсона. Когда тренд появляется в разных подмножествах данных, но исчезает или меняет направление на противоположное при объединении групп. Вот отличный пример парадокса Симпсона в средней зарплате в США: http://blog.revolutionanalytics.com/2013/07/a-great-example-of-simpsons-paradox.html

Переоснащение: создание модели, которая чрезмерно адаптирована к уже имеющимся у вас данным и не отражает общую тенденцию.

Пример: это распространенная проблема в моделях данных и машинном обучении, особенно когда модель дает 100% точный ответ. Это означает, что модель машинного обучения действительно оптимизирована для набора обучающих данных, а не для реального мира.

Что еще более важно, важно знать, что концепции модели (взаимосвязь входных и выходных данных) могут меняться со временем, и их необходимо учитывать (также известный как дрейф концепций) https://machinelearningmaster.com/gentle-introduction -концепция-дрейф-машинное обучение /

Так что в следующий раз, когда вы будете принимать решение на основе данных, помните о некоторых из них и уменьшите риск вводящих в заблуждение ошибок.