На прошлой неделе произошел шквал электронных писем с SHPO и DOT штата на Восточном побережье, которые были смесью грусти, недоумения и разочарования. Скандал все еще разворачивается в реальном времени, поэтому я не буду говорить о конкретном штате, пока не услышу их ответ (хотя даже районные археологи знают, в каком штате он находится на данный момент).

Ниже вы найдете почему модель за 365 тысяч долларов бесполезной, а затем описание того, почему - на мой взгляд - это произошло. Вторая часть, безусловно, самая важная, поэтому не стесняйтесь пропустить ее.

Семена горького урожая

Несколько лет назад DOT посетили некоторые феи хороших идей, которые поручили им создать прогнозную модель для доисторических археологических памятников в масштабе штата. Естественно, в конечном итоге они стали партнером одной из крупных инженерных фирм, которая постоянно должна оплачивать археологические изыскания.

Циничный человек может задаться вопросом, почему некоторая компания, которая должна регулярно оплачивать опросы, получает заказ от своего регулирующего органа, чтобы предоставить модель того, где им не нужно проводить опросы, но я предпочитаю смотреть на ситуацию более снисходительно.

За ничтожную сумму денег налогоплательщиков в размере 365 900,70 долларов эта фирма согласилась предоставить самую блестящую из всех блестящих моделей с наложением ГИС, которую SHPO / DOT может предоставить археологам.

Эта модель позже (и на момент написания статьи все еще используется) потребуется для использования в большинстве проектов DOT и во всех крупных проектах, требующих изучения культурных ресурсов.

Доставка

После работы над этой моделью с середины 2013 года до нового 2015 года консультанту, нанятому по контракту, удалось доставить модель и 7 томов документации в DOT.

К сожалению, до сих пор документацию никто не читал. Модель, вероятно, выдает бессмысленные цифры. Ниже приводится очень упрощенное обсуждение того, почему.

Консалтинговая компания использовала все неизведанные земли этого штата в качестве отрицательного набора данных.

Надеюсь, это заставит вас сказать: «Подождите. Разве это не та самая земля, о которой мы хотим, чтобы модель делала прогнозы? " Поздравляю. Вы могли бы спасти это состояние от ошибки в 1/3 миллиона долларов.

Использование нулевых данных вообще в моделях (смесь регрессий и случайного леса), как правило, в любом случае нецелесообразно. И это определенно не следует использовать в качестве отрицательных данных. Но даже если нулевая часть данных находилась в независимых переменных вместо зависимой, вы все равно можете нанести ущерб своим моделям.

То, как они проверяли свою работу, не учитывало передовых методов обработки данных.

Почему специалисты по обработке данных консультанта не осознали, что они напортачили на Шаге 1, прежде чем трудиться полтора года? Это связано с тем, как они проверяли свою работу.

Обычно золотой стандарт - сдерживать случайно выбранную часть вашей модели. Затем, обучив модель, вы сможете увидеть, действительно ли она работает при наличии реальных данных.

Здесь этого не делали.

Теперь есть причина, почему. Причина в том, что специалист по анализу данных выполнил этот тип проверки в каждой модели. К сожалению, этого недостаточно. Мы не будем вдаваться в технические причины почему, но вам нужны вложенные уровни проверки - вы хотите проверять свою работу как внутри модели, так и снаружи.

Теперь, израсходовав все хранилище данных при запуске моделей, как консультант проверил их работу? По сути, они использовали некоторые загадочные статистические методы. И они, наверное, должны были работать. Но они этого не сделали.

Они рассматривали известные сайты как результат случайной выборки.

Все мы знаем, что даже в пределах проектной зоны не все земли отбираются с одинаковой частотой. Просто чтобы использовать лопату (поскольку количество STP легко подсчитать), предположим, что у вас есть 100 акров земли. Вы считаете 50 акров «высокой» вероятностью, а 50 акров - «низкой» вероятностью, и вы проверяете их с разными интервалами - обычно 15 метров и 30 метров.

Это означает, что 80% ваших испытаний проводится на земле с высокой вероятностью - потому что вы можете провести ~ 16 тестов лопаты на акре с интервалом 15 метров против ~ 4 на 30 метрах. Таким образом, вам нужно найти 80% ваших сайтов на участке с высокой вероятностью просто для того, чтобы установить, что обе области имеют равную вероятность создания сайтов.

Так. У вас есть куча известных сайтов. Но они не были обнаружены на основе случайной выборки ландшафта. Их нашли, посмотрев там, где, как мы думали, мы их найдем.

Интуитивно большинство археологов это знают. Почему здесь это важно? Это важно, потому что для этих тайных статистических тестов использовалось распределение независимых переменных для известного (положительного) набора данных. И это распределение было предвзятым, о чем ученый не знал и не мог отчитаться.

Видите ли, это своего рода причина, по которой мы удерживаем последний транш данных.

Но подождите! Мы еще не дошли до скандала!

Я мог бы глубже вникнуть в моделирование и понять, почему оно срезало некоторые углы, но какой-то парень совершил математическую ошибку не в чем дело. Нет, это намного хуже.

Вопрос не в том, почему модель была сделана неправильно, а в том, почему этого не заметили до последних вздохов 2020 года, когда какой-то случайный человек (я) случайно прочитал документацию в рамках фонового обзора моделей, используемых в разные агентства.

Где был начальник этого парня?

Вы могли подумать, что за 365000 долларов вы не бросите одного парня в комнату в течение нескольких лет, а затем позволите ему передать готовый продукт, не осмотрев его.

Очевидно, что на этот проект не было «второй пары глаз». Еще в начале 2014 года в третьем томе документации, доставленной в DOT, уже была сделана фатальная ошибка (использование нулевых данных в качестве отрицательных данных).

Неужели у этого проекта не было никакого надзора? Вы даже не сможете написать художественный рассказ на 100+ страниц без редактора. Почему высокотехнологичная модель ГИС и машинного обучения не заслуживала взгляда кого-то другого, будь то коллега или начальник, прежде чем взимать с DOT сотни тысяч долларов?

Где была должная осмотрительность DOT?

После того, как документация была доставлена, кто из DOT ее читал? Думаю, это либо никто, либо никто не понимал.

Это чистое предположение с моей стороны, но я хотел бы предположить, что документация была прочитана, но не полностью, и не кем-то, кто считал, что знает достаточно о технической стороне, чтобы, по их мнению, мог бы прокомментировать.

Учитывая основной характер самой большой ошибки, нарушающей модели, любой, у кого за плечами бакалаврский курс статистики, должен был уловить проблему. Но, как заметил друг, очень мало программ направляют археологов на занятия по математике, и поэтому очень немногие археологи могут спокойно критиковать умных людей за сложную методологию.

Почему это не было проверено за последние полвека, если оно использовалось для составления планов полевых работ?

SHPO прислал мне небольшой информационный документ за 2017–2018 годы, в котором они попытались обобщить, если не оценить, модель и реальные данные.

Напор их данных наводил на мысль, что они не понимали, как оценивать модель, и, к их чести, автора SHPO и стажера, который она расширяет, заявлено как таковое.

Мне удалось извлечь достаточно данных из этого документа, чтобы просмотреть выборку из 133 отчетов за 2017 год в трех регионах этого штата, чтобы дать нам некоторое представление о прогностической силе модели. Обратите внимание, что приведенные ниже числа являются моими собственными расчетами, поскольку я не видел и не слышал о каких-либо попытках количественной оценки модели SHPO / DOT.

Выборка показала, что каждый уровень вероятности включает следующие сайты: низкий: 11,76%, средний: 5,88%, высокий: 82,35%. Это привело бы к наивной оценке, согласно которой следует ожидать, что нижние области этих регионов будут содержать около 11% сайтов. Большинство археологов останавливаются на этом.

Но с поправкой на тот факт, что низкая площадь составляет 67% земли в этих регионах и составляла только около 39% земли, мы получаем средневзвешенное значение: Низкое: 34,16%, Среднее: 8,02%, Высокое: 57,82%. .

Теперь я не делал поправок ни на что другое - например, на большее количество образцов на акр Высокого района, - поскольку у меня не было этой информации. Но обратите внимание, как ожидаемое количество сайтов в области "Низкое" увеличилось с 11% до 34%, и все, что я сделал, это учел недостаточное / избыточное представление каждого уровня вероятности в их выборке.

Менее интенсивный отбор проб на акр для низкой области по сравнению с высокой областью определенно подтолкнет ожидаемые участки в неисследованной низкой области выше. Обратите внимание, что по мере того, как вы приближаетесь к 67% участков, ожидаемых в Низкой области, вы делаете только так, как подбрасывает монету (поскольку 67% всей земли в этих регионах - Низкая).

А как насчет средней площади, а? Это 23% земли по площади, а на основании этой выборки ожидается, что на ней будет находиться только 8% участков? Это прекрасное время, чтобы указать на то, что уровни вероятности не следует называть так, как «средний», потому что на самом деле они могут иметь наименьшую вероятность.

TL; DR Takeaway

На это потрачено 365 тысяч долларов денег налогоплательщиков. Это демонстрирует бесцеремонный подход к контролю качества как в крупной компании, так и в DOT, которому она продала эту модель. Это также показывает, что сломанная модель в настоящее время используется для крупных, значительных проектов. Я надеюсь, что он никогда не играл роли при выборе маршрута для выдающихся доменных проектов.

И, честно говоря, если вам нужна прогностическая модель, купите что-нибудь примерно за 3–5% от стоимости этой. Сделайте это простым, чтобы вы могли обновить его и протестировать самостоятельно. Сложная математика работает не лучше, чем простая математика, даже без множества проблем с контролем качества, связанных с этой моделью.

В настоящее время я жду ответов SHPO и DOT, так как сообщил им только в конце прошлой недели. Должен отметить, что я не работаю в таком состоянии и не планирую делать это в ближайшем будущем. Мне не платили или иным образом не платили за то, чтобы я изложил эту критику DOT и SHPO. Моя мотивация в основном состоит в том, что я смущен профессионально из-за отсутствия навыков счета / контроля, которые привели к тому, что эта модель использовалась для руководства политикой.

Я готов вносить предложения и просматривать больше ваших данных - в определенных пределах - для тех, кто работает в этих организациях (я полагаю, они знают, кто они, после того, как мое первоначальное электронное письмо было распространено).