Растущая область науки о данных / машинного обучения в значительной степени заимствует статистику, но убивает ее. Например, «фиктивная переменная» становится «горячим кодированием», «независимые переменные» становятся «функциями». Этот сдвиг в номенклатуре приводит к потере методологического смысла, присущего исходным названиям; например, при обычном поиске в Google по набору данных «auto-mpg» будет выведено множество страниц с инструкциями, почти все из которых рассматривают переменные как «функции» и бросают все (включая не независимые переменные) в модель.

Эта демократизация науки о данных переносит приоритет с объяснения на производство. Подход «как сделать» контрастирует с принципами «почему не делать» классов статистики (или, по крайней мере, в мое время). В результате смысл вывода, основанного на триангулированных доказательствах и рассуждениях, все больше смещается в сторону чисто математической или вычислительной проблемы.

Что уникально для науки о данных / машинного обучения, так это набор чисто алгоритмических подходов (например, генетические алгоритмы, нейронные сети, усиление и накопление), которые все больше раздумываются из-за их превосходного «вывода», когда они могут превзойти другие методы / людей / какой соломенный человек под рукой.

Эти алгоритмические подходы позиционируются как «обучение на основе данных», но даже эта концепция была искажена - байесовский подход корректировки вероятностей на основе существующих данных был сокращен до алгоритма, который по существу пытается подогнать кривую к как можно большему количеству точек. возможный. Короче говоря, вывод пошел от снайпера, стремящегося поразить цель как можно ближе, к стрельбе из дробовика в надежде, что он попадет близко к цели с помощью грубой вычислительной силы.

Статистический вывод тесно связан с распределениями вероятностей - гауссовское, пуассоновское, биномиальное и т. Д. - это подтвержденные доказательствами функции плотности вероятности, соответствующие конкретным характеристикам события. Существуют области приложений, в которых алгоритмические подходы полностью подходят (например, генетические алгоритмы в робототехнике) и даже необходимы (нейронные сети и классификация изображений), когда сложно операционализировать плотность вероятности (а объем данных и контекст ограничены).

На иллюстрации выше показано, почему специалисты по анализу данных, применяющие новейший алгоритмический подход в области с известной плотностью вероятности, рискуют пожертвовать предсказательной силой ради точности модели. Они либо соблазнены последними «причудами», либо не знают, что алгоритмические подходы не могут предсказывать за пределами диапазона их входных данных. Что еще более важно, точность модели не должна быть единственной целью, потому что точность и переоснащение - две стороны одной медали.

Все это означает, что сейчас как никогда важно практиковать 3 критерия оценки модели, которые обычно отбрасываются в начале занятий по исследованиям / статистике, а после им уделяется мало внимания.

Экономия - самая простая из возможных моделей - лучшая модель. Это означает, что в какой-то момент происходит переоснащение путем добавления дополнительных переменных, и что каждый метод вносит свои собственные предубеждения и предположения о данных.

Валидность - устранение потенциальных предубеждений в данных и триангуляция результатов с внешними источниками по сравнению с принятием метрик, созданных на основе модели, за истину.

Надежность - это степень воспроизводимости результатов в различных / реальных контекстах. Текущее доверие к метрикам точности в машинном обучении аналогично тому, как научное сообщество полагается на p-значения. Сама по себе высокоточная модель или статистически значимое исследование не гарантирует, что она будет работать аналогичным образом в другом / реальном контексте.

Эта проблема постоянно увеличивающегося скопления огромных массивов неизученных опубликованных исследований вынудила Американскую статистическую ассоциацию (ASA) опубликовать заявление о p-значениях в 2016 году, в котором по сути говорилось, что они не должны использоваться в качестве единственной основы для оценки и являются не заменяет научные рассуждения.

Специалисты по обработке данных / эксперты по машинному обучению и т. Д. Также должны принимать во внимание то же самое (особенно в областях, связанных со случайными процессами, смещением временных рядов и т. Д.), Поскольку обычно требуется менее 10% входного шума / дисперсии, чтобы нарушить прогнозы.