Вопрос 1. С какими распространенными проблемами машинного обучения может помочь обучение без учителя?

Вот некоторые распространенные проблемы, с которыми может помочь обучение без учителя:

Недостаточно размеченных данных. Для обучения с учителем требуется много размеченных данных, чтобы модель работала хорошо. Обучение без учителя может автоматически помечать неотмеченные примеры. Это будет работать путем кластеризации всех точек данных, а затем применения меток от помеченных к неотмеченным.

Подгонка. Алгоритмы машинного обучения иногда могут подгонять обучающие данные, извлекая слишком много из шума в данных. Когда это происходит, алгоритм запоминает тренировочные данные, а не учится обобщать знания тренировочных данных. Неконтролируемое обучение может быть введено как регулятор. Регуляризация – это процесс, который помогает упростить алгоритм машинного обучения, помогая ему улавливать сигнал в данных без чрезмерной подстройки к шуму.

Выбросы. Качество данных очень важно. Если алгоритмы машинного обучения обучаются на выбросах (редкие случаи), то их ошибка обобщения будет ниже, чем если бы они были проигнорированы. Обучение без учителя может выполнять обнаружение выбросов с помощью уменьшения размерности и создавать решения специально для выбросов и отдельно решение для обычных данных.

Разработка функций. Разработка функций — жизненно важная задача, которую должен выполнять специалист по обработке и анализу данных, но она очень трудоемка и требует от человека творческого подхода к разработке функций. Обучение представлению на основе обучения без учителя можно использовать для автоматического изучения функций нужного типа, которые помогут в решении поставленной задачи.

Вопрос 2. Какие существуют типы методов выбора признаков?

Методы фильтрации: выберите функции на основе статистических показателей, таких как корреляция или критерий хи-квадрат. Например, выбор функций на основе корреляции, тест chi2, SelectKBest и F-значение ANOVA.

Методы обертки. Выберите функции, оценив их комбинации с помощью прогностической модели. Например, рекурсивное устранение признаков, удаление признаков назад, выбор признаков вперед.

Встроенные методы: выбирайте функции, узнавая их важность во время обучения модели. Например, регрессия Лассо, регрессия гребня и случайный лес.

Гибридные методы. Объедините сильные стороны фильтров и методов-оболочек. Например, SelectFromModel

Методы уменьшения размерности. Уменьшите размерность набора данных и выберите наиболее важные функции. Например, pca, lda и ica.

Вопрос 3. В чем разница между проектированием функций и выбором функций?

Разработка функций позволяет нам создавать новые функции из уже имеющихся, чтобы помочь модели машинного обучения делать более эффективные и точные прогнозы. Вот некоторые из задач, которые подразумевают проектирование признаков:

Заполнение пропущенных значений в переменной.

Кодирование категориальных переменных в числа.

Переменная трансформация.

Создание или извлечение новых функций из имеющихся в наборе данных.

Выбор функций, с другой стороны, позволяет нам выбирать функции из набора функций (включая любые недавно разработанные), которые помогут моделям машинного обучения более эффективно прогнозировать целевые переменные. эм>. Для этого используются два распространенных метода: методы-оболочки и фильтры. Эти методы почти всегда контролируются и оцениваются на основе производительности результирующей модели в наборе данных удержания.

В типичном конвейере машинного обучения мы выполняем выбор функций после завершения разработки функций.

Вопрос 4. Назовите некоторые преимущества выбора функций.

1. Многие функции и низкое соотношение выборки/функции внесут шум в ваш набор данных. В таком случае ваш алгоритм классификации, скорее всего, переобучится и даст вам ложное ощущение хорошей производительности.

2. Уменьшение количества функций сократит время выполнения на более поздних этапах. Это, в свою очередь, позволит вам использовать алгоритмы более высокой сложности, искать больше гиперпараметров или выполнять больше оценок.

3. Меньший набор функций более понятен людям. Это позволит вам сосредоточиться на основных источниках предсказуемости и более точно разработать функции. Если вам придется объяснять свою модель клиенту, вам лучше представить модель с 5 функциями, чем модель с 200 функциями.

В5. В чем разница между прямым и обратным выбором функций?

Выбор прямой функции включает в себя оценку каждой отдельной функции, начиная с функции с более высоким баллом, а затем добавляя по одной функции за раз, чтобы расширенное подмножество улучшало выбранный показатель. Мы можем продолжать добавлять функции, пока выбранный набор функций достигает порогового значения метрики, которая выбирается в соответствии с контекстом проблемы или с использованием метода случайных функций для получения отсечного значения.

Выбор функций назад, с другой стороны, начинается с полного набора и оценивает показатель для набора без каждой функции. На каждом этапе набор сокращается на функцию, которая дает наименьшее снижение целевой метрики. Мы можем продолжать удалять функции до тех пор, пока производительность не улучшится или не изменится. То есть остановитесь, когда станет хуже.

В6. Можем ли мы использовать PCA для выбора функций?

Выбор функции означает выбор подмножества функций из полного набора функций.

В PCA мы получаем ось основных компонентов, это линейная комбинация всего исходного набора переменных признаков, которая определяет новый набор осей, которые объясняют большинство изменений в данных.

Поэтому, несмотря на то, что PCA хорошо работает во многих практических условиях, он не приводит к разработке модели, основанной на небольшом наборе исходных функций, поэтому по этой причине PCA не является методом выбора функций. .

Вопрос 7. Каковы рекомендуемые варианты значений импутации?

Для числовых функций:

Если данные нормально распределены, используйте среднее значение.

Если данные искажены или имеют много выбросов, используйте медианное значение.

Для категориальных функций:

Если данные можно сортировать, используйте медианное значение.

Если данные не поддаются сортировке, используйте режим.

Для логических функций:

Используйте частоту функции true.

Вопрос 8. Как работает метод рекурсивного устранения признаков (RFE)?

Рекурсивное исключение признаков (RFE) — это метод отбора признаков, при котором из модели удаляется n признаков путем многократной подгонки модели и удаления самых слабых признаков на каждом этапе. Объекты ранжируются по атрибутам модели coef_ или feature_importances_, и, рекурсивно удаляя небольшое количество объектов на цикл, RFE пытается устранить зависимости и коллинеарность, которые могут существовать в модели.

Q9: Как выполнить выбор признаков с помощью Категориальных данных?

Выбор характеристик — это процесс определения и выбора подмножества входных характеристик, наиболее релевантных целевой переменной.

Двумя наиболее часто используемыми методами выбора признаков для категориальных входных данных, когда целевая переменная также является категориальной (например, прогнозное моделирование классификации), являются статистика хи-квадрат и взаимная информационная статистика.

Вопрос 10. Почему мы используем функцию Permutation Feature Importance и как работает этот алгоритм?

Важность признаков перестановки — это метод проверки модели, который можно использовать для любого подогнанного "оценщика", когда данные представлены в виде таблицы. Это особенно полезно для нелинейных или непрозрачных оценщиков. Важность признака перестановки определяется как уменьшение оценки модели при случайном перемешивании одного значения признака [1]. Эта процедура разрывает связь между функцией и целью, поэтому снижение оценки модели указывает на то, насколько модель зависит от функции. Этот метод выигрывает от того, что он не зависит от модели, и его можно вычислять много раз с различными перестановками функции.

Вопрос 11. Как выполнить вменение конца хвоста?

Вменение в конце хвоста эквивалентно вменению произвольного значения, но автоматически выбирает произвольные значения в конце распределений переменных.

• Если переменная имеет нормальное распределение, мы можем использовать среднее плюс-минус, умноженное на 3 стандартного отклонения.

• Если переменная искажена, мы можем использовать правило близости IQR.

Вопрос 12. Когда использовать точную настройку вместо извлечения признаков в трансферном обучении?

Извлечение признаков – это представление данных иначе, чем в моделях.
Точная настройка – это обучение уже обученной модели выполнению другой задачи.

Извлечение признаков можно использовать для уменьшения размерности данных, а тонкую настройку можно использовать для адаптации предварительно обученной модели к конкретной

Вопрос 13. В чем разница между анализом основных компонентов и анализом независимых компонентов?

PCA или анализ основных компонентов — это метод сокращения, используемый для уменьшения размеров больших наборов данных путем их преобразования в более мелкие и сохранения всей необходимой информации без изменений.

Анализ независимых компонентов (ICA) – это статистический метод, который выявляет скрытые факторы, стоящие за наборами случайных величин, измерений и сигналов.

Различия:

ICA удобен для поиска независимых подэлементов ваших данных, а PCA обеспечивает представление с пониженным рангом.

PCA сжимает данные, а ICA разделяет их.

В PCA компоненты являются ортогональными; в ICA их может и не быть. В ICA вы ищете независимо размещенные компоненты.

В то время как PCA максимизирует дисперсию входного сигнала и основных компонентов, ICA минимизирует взаимную информацию между найденными компонентами.

PCA ранжирует признаки от наиболее значимых до наименее значимых. Однако в ICA компоненты по существу неупорядочены и равны.

PCA уменьшает размеры, чтобы предотвратить переоснащение, а ICA берет смешанный сигнал и превращает его в сигналы независимых источников.

PCA фокусируется на максимизации дисперсии, тогда как ICA не концентрируется на дисперсии.

Вопрос 14. Как бы вы улучшили производительность Random Forest?

1. Укажите максимальную глубину деревьев. По умолчанию деревья расширяются до тех пор, пока все листья не станут либо чистыми, либо будут содержать меньше выборок, чем минимальное значение для разделения. Это все еще может привести к переобучению или недообучению деревьев. Поэкспериментируйте с гиперпараметром, чтобы найти оптимальное число для max_depth.

2. Увеличьте или уменьшите количество оценщиков. Как изменение количества деревьев влияет на производительность? Больше деревьев обычно означает более высокую точность за счет более медленного обучения. Если вы хотите ускорить свой случайный лес, уменьшите количество оценщиков. Если вы хотите повысить точность своей модели, увеличьте количество деревьев.

3. Укажите максимальное количество функций, которые будут включены в каждое разделение узла. Это очень сильно зависит от вашего набора данных. Если ваши независимые переменные сильно коррелированы, вам нужно уменьшить максимальное количество признаков. Если ваши входные атрибуты не коррелированы и ваша модель имеет низкую точность, увеличьте количество включаемых функций.