"Дьявол кроется в деталях". Машинное обучение не ускользает от него.

Человек — единственное животное, которое дважды спотыкается об один и тот же камень. Вы уверены, что вы не один из них?

Какой алгоритм выбрать? Какие предположения разумны? Когда мы создаем новое решение или продукт машинного обучения, существуют разные варианты их реализации, и все они предполагают разные вещи.

Не чувствуйте себя глупо поначалу. Понятно, что все мы ошибаемся.

Но для вас, кто может быть новичком в мире машинного обучения, вы хотели бы знать некоторые из ошибок, которые совершаются чаще всего. Если все пойдет хорошо, это поможет вам создавать более надежные решения и создавать реальную ценность.

Если вы хотите узнать больше, посетите oscargarciaramos.com

Начнем с самых распространенных…

Позвольте мне использовать мой любимый алгоритм для всех задач!

Как вы понимаете, одна и та же деталь не подходит для всех головоломок. Сколько людей заканчивают свое первое руководство и начинают использовать один и тот же алгоритм для любого варианта использования, который может придумать? ОШИБКА.

Позвольте данным выбрать модель за вас. Привыкайте к тому, что после обработки данных необходимо скармливать разные модели и сравнивать их результаты, чтобы знать, какие из них работают лучше всего, а от каких следует отказаться.

Мы продолжаем с…

Выбросы не важны!

Извините меня?! Вы поняли контекст вашего варианта использования? Выбросы могут быть важными или полностью игнорироваться, но ВЫ ДОЛЖНЫ СМОТРЕТЬ КОНТЕКСТ. Или не важно выявить пик продаж компании? Вы потеряете не только деньги, но и доверие.

С более технической точки зрения выбросы могут иметь разную чувствительность в зависимости от случая и модели, с которой мы работаем. Примером может служить сравнение чувствительности модели AdaBoost, (Adaptive Boosting), где выбросы обрабатываются как «сложные» случаи и на них возлагаются большие большие веса и Дерево решений, где выброс может быть идентифицирован как ложная классификация.

В-третьих… Среднеквадратическая ошибка всегда велика!

Хорошо, мы все знаем, что это хорошее значение по умолчанию, но когда мы экстраполируем и говорим о реальном мире, эта функция ошибки обычно менее оптимальна для варианта использования, который мы пытаемся решить.

Ярким примером может служить обнаружение мошенничества. Представьте, что мы хотим наказывать ложные отрицательные результаты из-за суммы денег, потерянной из-за мошенничества. Мы могли бы использовать среднеквадратичную ошибку, она даст нам сумму денег, но, конечно, далекую от реальной. И помните, мы говорим о деньгах!

А когда мы говорим о деньгах, ошибки недопустимы.

Дни, часы, месяцы… Что делать с цикличностью?

Когда мы говорим о часе 23, мы должны убедиться, что час 0 установлен прямо рядом с ним. Одна ошибка, которая обычно совершается, заключается в том, что эти функции не преобразуются в представления, которые могут сохранить информацию в ее исходном значении, и этот случай происходит с циклическими функциями.

Решение? Не забудьте вычислить компоненты синуса и косинуса, чтобы представить их в виде координат (x, y) окружности. Таким образом, если мы хотим представить время, 23 всегда будет идти рука об руку со временем 0, как и должно быть.

А регрессии? …

Понимание коэффициентов

Линейная регрессия обычно возвращает p-значения для каждого из коэффициентов. Какая самая распространенная ошибка? «Выше коэффициент — выше важность» → Ошибка.

Помните, масштаб переменной полностью меняет значение коэффициента. Если переменные или характеристики коллинеарны, коэффициенты могут меняться от одного к другому. Следовательно, чем больше наш набор признаков, тем больше вероятность того, что они будут коллинеарными и, следовательно, менее надежными будут изолированные интерпретации.

Напоминаем: Если переменная X1 является линейной комбинацией (коллинеарной) другой переменной X2, это означает, что обе связаны выражением X1 = b1 + b2X2, причем b1 и b2 постоянны, поэтому коэффициент корреляции между обе переменные будут равны 1.

Мы должны знать важность или вес признаков, но коэффициенты не сообщают вам всей реальности, а лишь ее часть.

Ну наконец то…

Упорядочить без стандартизации, НЕТ!

Как вы знаете,обучение состоит в нахождении коэффициентов, минимизирующих функцию стоимости. Регуляризация заключается в добавлении штрафа к функции затрат. Однако иногда мы забываем о важности стандартизации перед регуляризацией. Представьте себе сумму денег, которую мы потеряли бы, если бы разработали модель, в которую мы включили бы переменные, которые выражают себя в долларах, а другие — в центах. ДЕПОЗИТ.

Ну и что дальше?

Как видите, «дьявол кроется в деталях». Даже самые надежные, проработанные и стабильные модели могут иметь смещения и ошибки.

Работайте усердно, проверяйте дважды и не будьте самоуверенны.

Все можно улучшить, все можно развить.

Не стесняйтесь оставлять комментарии, аплодировать или делиться этой публикацией. Подпишитесь на me для будущих публикаций.

А если вы хотите узнать больше, вы можете найти меня на oscargarciaramos.com