Наиболее часто используемые жаргонизмы в машинном обучении

Машинное обучение и наука о данных — одна из горячих тем. Мы слышим много терминов, связанных с этими областями. Давайте узнаем о нескольких популярных терминах.

контролируемое обучение

Обучение под наблюдением обычно начинается с установленного набора данных и определенного понимания того, как эти данные классифицируются. Обучение с учителем предназначено для поиска закономерностей в данных, которые можно применить к процессу аналитики. Эти данные имеют помеченные функции, которые определяют значение данных.

Например, вы можете создать приложение с машинным обучением, которое различает фрукты по цвету.

Неконтролируемое обучение

Неконтролируемое обучение — это обучение машины с использованием информации, которая не классифицирована и не помечена, и позволяющее алгоритму действовать на этой информации без руководства. Здесь задача машины — группировать несортированную информацию по сходствам, закономерностям и различиям без предварительной подготовки данных.

Например, изображение множества фруктов, которые машина никогда не видела и, следовательно, не может классифицировать их.

Предвзятость

Смещение — это разница между средним прогнозом нашей модели и правильным значением, которое мы пытаемся предсказать. Модель с высоким смещением очень мало внимания уделяет обучающим данным и чрезмерно упрощает модель. Это всегда приводит к высокой ошибке на обучающих и тестовых данных. Это приводит к недостаточной подгонке

Дисперсия

Дисперсия — это изменчивость предсказания модели для данной точки данных или значения, которое говорит нам о разбросе наших данных. Модель с высокой дисперсией уделяет большое внимание обучающим данным и не обобщает данные, которые она раньше не видела. В результате такие модели очень хорошо работают на обучающих данных, но имеют высокий уровень ошибок на тестовых данных. Это приводит к переоснащению.

Классификация

Эта модельная функция классифицирует данные по одному из множества уже определенных определенных классов. Классификация — это процесс изучения модели, объясняющей различные заранее определенные классы данных. Это двухэтапный процесс, состоящий из этапа обучения и этапаклассификации. На этапе обучения строится модель классификации, а на этапе классификации построенная модель используется для предварительного определения меток классов для заданных данных.

Регрессия

Регрессия — это специальное применение правил классификации. Регрессия полезна, когда значение переменной прогнозируется на основе кортежа, а не сопоставления кортежа данных из отношения с определенным классом. Некоторыми распространенными алгоритмами классификации являются дерево решений, нейронные сети, логистическая регрессия и т. д.

Кластеризация

Кластеризация — это метод организации группы данных в классы и кластеры, при котором объекты, находящиеся внутри кластера, будут иметь большое сходство, а объекты двух кластеров будут непохожи друг на друга. Некоторыми распространенными алгоритмами кластеризации являются k-mean, k-medoids.

Различия между классификацией и кластеризацией

Классификация — это процесс классификации данных с помощью меток. где кластеризация похожа на классификацию, но в ней нет предопределенных меток классов.
Классификация известна как обучение с учителем, тогда как кластеризация известна как обучение без учителя.
В методе классификации предоставляется обучающая выборка, в то время как в случае кластеризации обучающие данные не предоставляются.

Древо решений

Дерево решений — самый популярный инструмент для задач классификации и прогнозирования. Дерево решений представляет собой блок-схему с древовидной структурой, где каждый внутренний узел обозначает проверку атрибута, каждая ветвь представляет результат проверки, а каждый конечный узел содержит метку класса.

Нейронная сеть

Нейронная сеть представляет собой серию алгоритмов, которые пытаются распознать основные отношения в наборе данных с помощью процесса, имитирующего работу человеческого мозга. Нейронные сети могут адаптироваться к изменению входных данных; поэтому сеть генерирует наилучший возможный результат без необходимости переделывать критерии вывода.

Глубокое обучение

Глубокое обучение — это функция искусственного интеллекта, которая имитирует работу человеческого мозга при обработке данных и создании шаблонов для использования при принятии решений. Глубокое обучение — это подмножество машинного обучения в области искусственного интеллекта (ИИ), в котором есть сети, способные учиться без присмотра на неструктурированных или немаркированных данных. Также известно как глубокое нейронное обучение или глубокая нейронная сеть.

Этого достаточно?

Нет, у нас все еще есть много терминов и концепций в машинном обучении, но выше приведены несколько терминов, которые помогут нам больше узнать о машинном обучении и науке о данных.