«Область исследования, которая дает компьютерам возможность учиться без явного программирования» — Артур Сэмюэл, 1959 г.

Люди учатся на опыте. Традиционно компьютеры работают с использованием программ или набора инструкций, написанных людьми. В машинном обучении компьютер учится на своем опыте работы с данными. В контролируемой задаче машинного обучения, такой как прогнозирование того, разовьется ли у пациента диабет, мы даем компьютеру набор входных данных (функций), которые сопоставляются с выходными данными (меткой). В этом сценарии признаками могут быть индекс массы тела, семейный анамнез диабета, уровень глюкозы в крови натощак и т. д., результатом или целью является наличие или отсутствие диабета. Как только эти данные вводятся в компьютер, он отображает модель (математическую структуру) для прогнозирования этих результатов (меток) на основе доступных входных данных.

Как только компьютер смоделировал взаимосвязь между входными и выходными данными, мы можем использовать эту модель для прогнозирования выходных данных, используя данные, невидимые компьютеру.

Другими словами, если вы подбрасываете кучу данных в алгоритм машинного обучения, он пытается идентифицировать математический паттерн. Если мы предоставим данные хорошего качества для обучения алгоритма, мы получим лучшие прогнозы. Прогнозы работают, только если данные обучения отражают проблему, которую вы пытаетесь решить. По сути, модели машинного обучения представляют собой оптимизированную математическую функцию для данной задачи.

Чтобы увидеть наглядное объяснение машинного обучения, нажмите здесь.

Чтобы посмотреть MIT OpenCourseWare о машинном обучении, нажмите здесь. Если вы просто хотите услышать объяснение машинного обучения, переходите к 8:58 и смотрите до 11 минут.

Алгоритмы машинного обучения

Алгоритмы машинного обучения можно разделить на обучение с учителем, обучение без учителя и обучение с подкреплением.

контролируемое обучение

Если у нас есть размеченные данные, можно использовать контролируемое обучение. Сначала мы используем данные с правильными метками (значение, которое мы пытаемся предсказать) для обучения модели. Затем мы можем использовать эту обученную модель для прогнозирования меток для совершенно новых данных. Например, если у нас есть большой набор данных, содержащий возраст пациента, пол, ИМТ, уровень глюкозы натощак, панель липидов (характеристики) и наличие у них диабета (метка), мы можем использовать это для создания модели машинного обучения. Позже мы можем использовать эту модель для прогнозирования вероятности развития диабета у неизвестного пациента с использованием этой модели.

Обучение с учителем можно использовать для прогнозирования непрерывных значений, таких как необходимое количество инсулина на основе уровня глюкозы в крови, углеводов в пище и уровня активности. Его также можно использовать для присвоения метки, доброкачественного или злокачественного. Прогнозирование непрерывных значений называется регрессией, а прогнозирование метки — классификацией.

Давайте посмотрим на пример. Регрессию можно использовать для прогнозирования заработной платы врача. На следующем графике показана взаимосвязь между средним количеством пациентов, принимаемых за день, и средней годовой зарплатой врачей. Как видите, существует линейная зависимость между количеством осмотренных пациентов и заработной платой.

Математически линия регрессии/тренда на графике может быть представлена ​​как

y = mx + c

Где m — наклон линии, а c — точка пересечения (где линия пересекает ось x). X — среднее количество пациентов, y — прогнозируемая зарплата. Чтобы узнать больше об уравнении прямой, нажмите здесь.

Проще говоря, если у нас есть много точек данных со средним количеством пациентов и зарплатой врачей, модель линейной регрессии может вычислить значения для m и c. Если вы хотите узнать больше о модели линейной регрессии, нажмите здесь.

Другой клинический пример контролируемого обучения — прогнозирование потребности в инсулине у пациента с диабетом 1-го типа. Традиционно инсулин перед едой для пациента с диабетом 1 типа рассчитывается на основе соотношения углеводов (количество инсулина, необходимое для утилизации 1 углеводной единицы) и чувствительности к инсулину (падение уровня глюкозы на 1 единицу инсулина короткого действия). Это можно записать с помощью следующей формулы.

Если мы хотим создать компьютерную программу для вывода дозы инсулина, мы можем жестко закодировать это в компьютерной программе. Но если у нас есть много данных о потребляемых углеводах, глюкозе до и после еды и количестве принятого инсулина, мы можем создать модель машинного обучения, чтобы лучше определить взаимосвязь между этими переменными. В следующий раз, когда пациент захочет есть, он сможет ввести данные в модель и получить рекомендацию о том, сколько инсулина нужно принимать. Мы можем улучшить эту модель, добавив другие переменные, такие как его уровень активности с фитнес-трекера и т. д.

Алгоритмы классификации, такие как деревья решений, могут использоваться для предоставления меток для набора функций. Допустим, у вас есть база данных с цитологическими признаками узловых образований щитовидной железы с атипией неопределенной значимости (АУЗ) наряду с фактической хирургической патологией. Эта база данных может быть использована для создания модели машинного обучения для прогнозирования злокачественности на основе цитологических особенностей узлов с AUS.