Прогнозирование заболеваний с помощью искусственного интеллекта

Классификация остается первостепенной задачей врача. По большей части пациенты не ценят сложные оценки риска и показатели выживаемости (особенно последний). Помимо эмоциональной поддержки, когда кто-то посещает врачей, он хочет узнать, есть ли у него определенное заболевание и что они могут сделать для его лечения.

Люди хорошо разбираются в классификации, но компьютеры лучше. В Великобритании врачу требуется 5-6 лет обучения в медицинской школе и как минимум 5 лет обучения (в зависимости от специальности), прежде чем он станет полностью независимым. Большинство алгоритмов машинного обучения требуют на порядок меньше времени для обучения классификации болезней. Из многих алгоритмов K-Nearest Neighbor - один из моих любимых из-за его простоты. Я расскажу вам об основах и приведу пример его применения в здравоохранении.

Люди хорошо разбираются в классификации, но компьютеры лучше.

Во-первых, в чем проблема классификации? Это присвоение значимой группировки наблюдению. Мы можем наблюдать за возрастом, полом, симптомами и физическим осмотром людей. Если их характеристики соответствуют инфекции грудной клетки, врач классифицирует это наблюдение (или пациента) как имеющее это заболевание. В машинном обучении мы берем тысячи (иногда миллионы) наблюдений и изучаем правила болезни, чтобы предсказать, здоров ли новый пациент (наблюдение).

K-Nearest Neighbor использует метрику расстояния, чтобы находить наблюдения, которые «близки» к новым данным, и группировать эти наблюдения на основе известных классификаций «близких» данных. Существует много разных способов вычисления расстояния между точками на графике, однако чаще всего используется евклидово расстояние. Вы можете узнать этот метод из школьного урока математики, это базовая тригонометрия.

Если это слишком абстрактно, чтобы следовать ему, давайте рассмотрим пример в двух измерениях. Возьмем набор из 10 пациентов (или наблюдений), о которых мы знаем 3 вещи. Каждое наблюдение имеет следующие характеристики:

  • Высокая температура
  • Частота кашля
  • Подтверждение респираторного заболевания

Важно, чтобы результат (респираторное заболевание) был подтвержден, насколько нам известно, с помощью мазков из зева и изображений, например (наземная правда). Теперь мы можем нанести признаки (лихорадку и кашель) на оси X1 и X2 графика. Если мы назначим оранжевый цвет корпусам и синий цвет элементам управления, мы сможем визуализировать, как K-Nearest Neighbor решает проблему классификации.

Единственный параметр, который нам нужно установить в этом алгоритме машинного обучения, - это количество наблюдений, учитываемых при классификации новых данных. Мы называем это значение «k». Если k = 3, класс наших новых данных будет предсказан на основе трех «ближайших» обучающих наблюдений.

Чтобы быть более ясным, когда у нас появляется новый пациент с кашлем и высокой температурой, мы можем нанести эту точку данных на график и проверить 3 «ближайших» соседей к новому наблюдению и классифицировать в зависимости от класса большинства из них. множество соседей. Если все наблюдения, относящиеся к новой точке данных, имеют респираторное заболевание, то вполне вероятно, что у нового пациента также есть респираторное заболевание. Это должно быть довольно ясно из 2D-изображения выше.

Эта концепция может быть расширена на многие другие измерения. В сфере здравоохранения у нас есть богатые наборы данных с множеством функций, что означает, что наши графики становятся «n-мерными». Если вы можете абстрагировать вышеупомянутое на другие измерения, значит, вы взломали ближайшего соседа и его основные атрибуты.

Как всегда, я хочу предоставить вам пример использования этого алгоритма машинного обучения на практике. Рак груди является одним из наиболее распространенных видов рака, поражающих женщин во всем мире, и является причиной значительной части смертей от рака, особенно в развивающихся странах. Когда кто-то обращается в клинику с опухолью в груди, ранняя и точная диагностика имеет решающее значение для уменьшения бремени болезни. "ЧАС. Раджагуру и др. »Использовали как деревья решений, так и алгоритмы K-ближайшего соседа, чтобы определить, представляют ли опухоли груди рак или доброкачественное заболевание после биопсии.

Если на этом этапе вам интересно, что такое деревья решений, загляните сюда.

Исследовательская группа смогла достичь ошеломляющей точности 95,6% наряду с некоторыми другими впечатляющими показателями производительности. Нечто подобное может быть легко расширено, чтобы позволить врачу принимать решения среди других интересных применений.

Если вы нашли эту статью полезной, подумайте о том, чтобы дать ей аплодисменты и подписаться на data-doctor для еженедельных публикаций, подобных этой. Наконец, загляните на мой канал YouTube, чтобы увидеть больше подобного контента!