Привет, ребята,

Высокая размерность создает проблемы с точностью производительности моделей машинного обучения. В этой статье я исследовал важность уменьшения размерности при построении моделей машинного обучения и обсудил, почему высокая размерность влияет на производительность моделей машинного обучения/статистических моделей. Здесь я коснулся следующих вопросов:

  • Что такое высокая размерность?
  • Какие трудности вызывает высокая размерность?
  • Что такое проклятие размерности?
  • Каковы преимущества уменьшения размерности?

Что такое высокая размерность?

Количество функций или входных переменных, которые способствуют процессу прогнозирования для прогнозирования цели или результата в модели машинного обучения, называется размерностью. Однако замечено, что все переменные признаков не имеют одинакового значения/вклада в результат. Модели машинного обучения, такие как регрессия и классификация, построены на обучающем наборе данных. Размер набора данных играет решающую роль в производительности модели. Существуют модели машинного обучения, которые используют весовые коэффициенты для прогнозирования вывода неизвестных данных. Переменные размеров или признаков оказывают существенное влияние на точность модели. Поэтому перед обучением модели машинного обучения необходимо определить соответствующие функции, которые способствуют выходу/цели, и этот процесс называется уменьшением размерности. Уменьшение размерности необходимо по следующим причинам:

  • Чтобы уменьшить сложность модели

Большее количество функций / высокая размерность приведет к созданию сложной модели, особенно когда в переменных функций существует высокая корреляция. Таким образом, полезно выбрать правильный набор функций для преодоления этой проблемы.

  • Чтобы предотвратить переоснащение

Набор данных с высокой размерностью иногда может привести к переоснащению модели машинного обучения, поскольку модель также фиксирует ключевые функции и шум. Таким образом, модель хорошо работает при обучении модели, но ухудшается при тестировании на неизвестных данных.

  • Для достижения вычислительной эффективности

Модель машинного обучения с низкой размерностью требует меньше времени на обучение модели, потому что она требует меньше времени на вычисления.

Основная цель уменьшения размерности — найти низкоразмерное представление набора данных, которое сохраняет как можно больше информации. Другими словами, уменьшение размерности — это средство уменьшения числа рассматриваемых произвольных переменных за счет получения набора ключевых переменных.

Какие трудности вызывает высокая размерность?

Высокая размерность создает несколько проблем и отрицательно влияет на точность модели. Некоторые из примечательных моментов:

  • Это может привести к высоким вычислительным затратам.
  • Это может привести к переоснащению во время обучения модели, что означает, что модель работает хорошо во время обучения, но точность производительности ухудшается во время тестирования на новых выборках данных.
  • Чем больше число переменных признаков, тем сложнее визуализировать обучающий набор.
  • Высокая размерность также может иметь больше шансов на высокую корреляцию данных.

Что такое проклятие размерности?

Размерность указывает количество переменных/функций в наборе данных, которые используются для обучения модели машинного обучения. Когда количество переменных/функций велико по сравнению с количеством наблюдений в наборе данных, что резко снижает производительность модели, это называется проклятием размерности.

Например, если я строю модель линейной регрессии (модель машинного обучения) для прогнозирования цены дома, мне нужно учитывать только примечательные характеристики, такие как площадь, количество спален, количество ванных комнат, мебель, возраст дома, населенный пункт и т. д. Выбор несущественных признаков, таких как сумма кредита, доход владельца, количество квартир в обществе и т. д., окажет негативное влияние на точность работы регрессионной модели.

Каковы преимущества уменьшения размерности?

Существует несколько преимуществ уменьшения размерности. Некоторые из наиболее важных преимуществ:

  • Он устраняет незначительные функции из набора данных, что повышает производительность модели, поскольку нерелевантные функции или шум отрицательно влияют на точность работы модели, основанной на машинном анализе.
  • Полезно сократить время обучения модели и снизить требования к хранению данных.
  • Предотвращает проклятие размерности
  • Это устраняет множественную коллинеарность, что приводит к повышению производительности модели.

Заключение

В этой статье я «исследовал, что такое высокая размерность?» И затронул некоторые важные аспекты многомерности, например, какие трудности вызывает многомерность? что такое проклятие размерности? и каковы преимущества уменьшения размерности? Я уверен, что создам фундаментальное понимание высокой размерности.

Завершая заметки, не стесняйтесь делиться своими комментариями и отзывами. Ваши аплодисменты и комментарии, безусловно, помогут мне лучше представить содержание. Увидимся на следующей неделе.