Итоги дня 028

В день 028 мы узнали о создании полезных входных данных для машинного обучения с упором на функции, о том, как создавать, выбирать и обрабатывать функции, чтобы получать хорошие результаты от наших алгоритмов обучения.

То, мы продолжим с того места, на котором остановились в день 028.

Что делает хорошую функцию?

Независимо от алгоритма обучения, который мы используем, есть несколько свойств, на которые мы хотим обращать внимание при выборе наших функций.

Во-первых, каждая функция должна иметь отношение к проблеме обучения. Мы видели, что нерелевантные функции могут повредить точности моделей, особенно для алгоритма ближайшего соседа, но также и для некоторых других алгоритмов. В лучшем случае нерелевантные функции могут замедлить наше обучение и увеличить требования к вычислительной памяти и обработке, поэтому мы стараемся их избегать.

Во-вторых, в идеале мы хотели бы, чтобы наши измерения характеристик имели как можно меньше шума. Другими словами, если объекты, которые мы измеряем, находятся в одном состоянии в один момент времени и в том же состоянии в другой момент времени, мы хотели бы, чтобы наши измерения характеристик для этих двух моментов времени были идентичными или, по крайней мере, очень , очень похожий. По мере того, как мы будем продолжать эту серию, вы увидите некоторые приемы, которые можно использовать для уменьшения шума.

В-третьих, нам не нужно слишком много функций. Хотите верьте, хотите нет, но большее количество функций часто может затруднить обучение, даже если все эти функции актуальны и бесшумны. Как правило, чем больше у вас функций, тем больше обучающих примеров вам нужно, чтобы алгоритм обучения мог эффективно обучаться в этом многомерном пространстве. Это известно как проклятие размерности.

По ссылкам ниже вы можете подробнее прочитать о проклятии размерности.





В-четвертых, в то же время мы хотим, чтобы наши признаки в целом давали нам достаточно информации, чтобы примеры, близкие по пространству признаков, имели тенденцию быть похожими друг на друга. Мы хотели бы сделать предположение, что очень близкие примеры, вероятно, будут членами одного и того же класса или приведут к очень похожим значениям регрессии.

Вы можете видеть иллюстрацию выше, где слева у нас есть проблема с одной функцией, которую невозможно будет точно изучить с помощью любого классификатора. Здесь мы определенно не можем сказать, что примеры, которые близки друг к другу, как правило, являются членами одного и того же класса, но если мы добавим еще одну дополняющую функцию, как вы можете видеть справа на иллюстрации ниже, мы сможем построить очень хороший классификатор.

Поэтому, даже если мы можем говорить о достоинствах каждой функции в отдельности, важно помнить, что мы полагаемся на целый набор функций, когда приходит время построить модель на основе данных.

Удивительно знать, что ты все еще здесь. Мы подошли к концу дня 029. Надеюсь, вы нашли это информативным. Спасибо, что нашли время в своем графике и позволили мне быть вашим проводником в этом путешествии.

Справочник

https://www.kadenze.com/courses/machine-learning-for-musicians-and-artists-v/sessions/sensors-and-features-generating-useful-inputs-for-machine-learning