Мысли и теория

Машинное обучение в медицине — Журнал Клуб

Критическая оценка использования методов машинного обучения в клинической литературе

Призыв к установлению стандартов документации для описания моделей машинного обучения в научных журналах

Введение

Использование методов машинного обучения в биомедицинских исследованиях резко возросло за последние несколько лет, о чем свидетельствует резкое увеличение количества журнальных статей, индексируемых в PubMed по термину «машинное обучение», с 3200 в 2015 году до более 18000 в 2020 году. Хотя благодаря машинному обучению стали возможны существенные научные достижения, внутренняя работа большинства алгоритмов машинного обучения остается чуждой многим клиницистам, большинство из которых хорошо знакомы с традиционными статистическими методами, но имеют небольшую формальную подготовку по продвинутым компьютерным алгоритмам. К сожалению, рецензенты и редакторы журналов иногда довольствуются тем, что машинное обучение рассматривается как операция черного ящика, и не могут анализировать результаты, полученные с помощью моделей машинного обучения, с тем же уровнем тщательности, который применяется к другим клиническим и фундаментальным научным исследованиям.

Цель этого клуба журналов — помочь читателям развить знания и навыки, необходимые для усвоения и критики биомедицинских журнальных статей с использованием методов машинного обучения. Рецензенту трудно понять, какие вопросы задавать, если он/она не понимает, как работают эти алгоритмы. Мы сосредоточимся не на содержании или клинических последствиях исследования, а на методах и технических деталях, связанных с методами машинного обучения. Мы надеемся выделить некоторые подводные камни и распространенные ошибки, которые допускают исследователи при внедрении машинного обучения в клинические исследования, и подчеркнуть важность критической оценки в научных публикациях.

Статья

Ху К., Анджур В., Сабу К., Редди К.Р., О'Лири Дж., Тандон П., Вонг Ф., Гарсия-Цао Г., Камат П.С., Лай Д.С., Биггинс С.В., Фэллон М.Б., Тулуват П., Субраманиан Р.М., Малиаккал Б., Варгас Х., Такер Л.Р., Айер Р.К., Баджадж Дж.С. Низкая предсказуемость повторных госпитализаций и смерти с использованием машинного обучения при циррозе печени. Am J Gastroenterol. 2021 1 февраля; 116 (2): 336–346. doi: 10.14309/ajg.00000000000000971. PMID: 33038139.

Мы выбрали эту недавно опубликованную статью из Американского журнала гастроэнтерологии в качестве первой статьи нашего клуба журналов, потому что в ней подчеркивается необходимость установления формального стандарта или, по крайней мере, общепринятого соглашения для документирования моделей машинного обучения так же, как и в большинстве систематических обзоров. или метаанализы сообщают о своих методах и результатах.

Для тех, кто не знаком с областью гастроэнтерологии, американский журнал гастроэнтерологии является официальным журналом Американского колледжа гастроэнтерологии, который сам по себе является высшим профессиональным сообществом в этой области. Журнал широко известен как один из лучших журналов в этой области, и в 2018 году его импакт-фактор составил 10,241.

Фон

Пациенты с циррозом печени подвержены более высокому риску повторной госпитализации и смерти после выписки из больницы, чем население в целом, что, вероятно, связано со сложностью заболевания, а также другими психосоциальными/социально-экономическими факторами, уникальными для этой популяции пациентов. Возможность объективно оценить риск повторной госпитализации и смертности у отдельного пациента имеет клиническое значение с точки зрения планирования выписки и смены лечения.

Модель терминальной стадии заболевания печени (MELD), первоначально разработанная для прогнозирования 3-месячной смертности у пациентов, которым планируются трансъюгулярные внутрипеченочные портосистемные шунты, была тщательно изучена и внешне подтверждена как предиктор смертности у пациентов с циррозом печени.

Несмотря на то, что шкала MELD является наиболее широко используемым объективным показателем тяжести заболевания печени, она далека от совершенства. Его дискриминационная способность в низких диапазонах (‹15) очень плохая, о чем свидетельствует почти плоская кривая смертности на рисунке 5 этой статьи. Мы также знаем, что дискриминационная способность шкалы MELD зависит от основной этиологии заболевания печени, как показано в таблице 1 этой статьи, а также от других клинических переменных, не отраженных в шкале MELD.

Гипотеза и конкретные цели

В этой статье авторы выдвигают гипотезу о том, что модели машинного обучения можно использовать для прогнозирования этих рисков и что эти модели превзойдут «традиционные клинические данные и биостатистику».

Конкретной целью статьи является использование машинного обучения «для прогнозирования 30- и 90-дневной повторной госпитализации и смерти в многоцентровой когорте пациентов с циррозом печени в Северной Америке».

Методы

  • Формат исследования — многоцентровое ретроспективное обсервационное когортное исследование.
  • Исследуемая популяция — субъекты, включенные в Североамериканский консорциум по изучению терминальной стадии заболевания печени (NASCELD), в который входят 14 больниц третичного уровня.
  • Критерии включения — пациент с подтвержденным циррозом печени, госпитализированный без выборки.
  • Критерии исключения — ВИЧ-инфекция и пересадка органов в анамнезе.
  • Срок исследования — 90 дней после выписки.

Сбор данных

Переменные при поступлении — демографические данные, тяжесть цирроза и баллы MELD, MELD-Na и Чайлд-Пью, синдром системного воспалительного ответа при поступлении, лекарства при поступлении и причины госпитализации.

Переменные госпитального курса — повторные инфекции, недостаточность отдельных органов и острая хроническая печеночная недостаточность.

Переменные при выписке — Лабораторные значения и тяжесть цирроза, такие как MELD и лекарства.

Разработка модели

В эту статью были включены три различных метода машинного обучения, включая логистическую регрессию, метод опорных векторов и случайный лес.

Логистическая регрессия (LR)

  • sklearn.linear_model.LogisticRegression с использованием регуляризации L2 по умолчанию и силы обратной регуляризации по умолчанию, равной 1,0.

Машина опорных векторов (SVM)

  • sklearn.svm.SVC с использованием ядра RBF по умолчанию и силы обратной регуляризации по умолчанию 1,0.

Случайный лес (RF)

  • sklearn.ensemble.RandomForestClassifier, использующий только 20 оценок и максимальную глубину 5. Предполагается, что для всех гиперпараметров установлены значения по умолчанию.

Интересно отметить, что авторы включили в модели только те признаки, которые значительно отличались (p ‹ 0,05) между субъектами с положительными результатами и субъектами с отрицательными результатами. Обоснование этого решения в документе не упоминалось.

Производительность модели оценивалась по площади под кривой рабочей характеристики приемника (ROC) (AUC) с использованием 10-кратной перекрестной проверки.

Результаты

Окончательный анализ включал 2170 человек со средним возрастом 57 лет, в основном (61%) мужчины и в основном (79%) белые. Средний балл MELD-Na при поступлении составил 20,7. Частота реадмиссии в течение 30 дней составила 28%, а частота реадмиссии в течение 90 дней — 47%. Летальность в течение 90 дней составила 13%.

Хотя значительная часть документа была посвящена обсуждению различных полученных клинических переменных, только таблицы 4–6, часть которых воспроизводится здесь для целей обсуждения, имели отношение к машинному обучению.

Авторы пришли к выводу, что модель LR и модель RF работают лучше всего. Они предположили, что может быть значительное совпадение многих клинических переменных между двумя классами (повторно госпитализированы или нет, умерли или нет), что затрудняет алгоритму определение оптимальной гиперплоскости. Они также предположили, что производительность модели LR и модели SVM могла быть затруднена включением многих категориальных функций. Что наиболее важно, авторы пришли к выводу, что полные модели, созданные с помощью всех трех методов машинного обучения, были лишь незначительно лучше, чем модели, созданные с использованием только оценки MELD-Na, и что «прогностические возможности нескольких методов ИИ посредством машинного обучения были субоптимальными».

Критика статьи

Прежде чем мы углубимся в содержание статьи, стоит отметить, что термин «машинное обучение» был использован только один раз в основном тексте статьи в следующем предложении: «нам нужны другие методы, такие как машинное обучение и искусственный интеллект ( ИИ) методы прогнозирования этих результатов». На протяжении всей статьи авторы называли модели машинного обучения «моделями ИИ». Хотя различие между «искусственным интеллектом» и «машинным обучением» чисто семантическое, его неправильное использование в статье, опубликованной в одном из ведущих журналов GI, вызывает подозрение, что авторы и редакторы, возможно, не очень хорошо разбирались в предмете. . Представьте, что мы читаем статью об использовании аргоноплазменной коагуляции в лечении артериовенозных мальформаций, а авторы продолжают называть ее электрохирургической операцией. Для справки, искусственный интеллект — это общий термин, который используется для описания использования технологий для имитации естественного интеллекта. Машинное обучение — одно из приложений искусственного интеллекта. Другие приложения включают робототехнику, компьютерное зрение, распознавание речи и обработку естественного языка.

Показатели эффективности

Начнем наш анализ с основного вывода статьи о том, что модели машинного обучения имеют низкую предсказуемость повторной госпитализации или смерти у пациентов с циррозом печени. Если мы внимательно посмотрим на числовые данные, представленные в таблицах 4, 5 и 6, мы увидим, что не было статистически значимых различий между полными моделями и моделями только MELD-Na по всем трем исходам (30-, 90 повторная госпитализация и 90-дневная смертность), все три метода машинного обучения (LR, SVM и RF) и оба показателя производительности (точность и AUC). На самом деле показатели производительности всех трех методов машинного обучения были подозрительно близки друг к другу, несмотря на то, что все эти модели были построены с использованием гиперпараметров по умолчанию без оптимизации. Мы подозреваем, что это любопытное наблюдение, вероятно, вызвано неудачным выбором показателей производительности.

Важным обучающим моментом здесь является то, что точность и AUC не следует использовать в качестве показателей производительности в наборе данных с несбалансированными результатами. Легче продемонстрировать эту ловушку, используя точность. Представьте, что мы строим модель для прогнозирования редкого заболевания с распространенностью ‹1%, если модель каждый раз дает отрицательный прогноз, модель будет иметь точность, близкую к ›99%, несмотря на то, что на практике она совершенно бесполезна. Действительно, мы можем видеть, что точность моделей 30-дневной реадмиссии и 90-дневной смертности была очень близка к 30-дневной частоте отсутствия повторной госпитализации (100%-28% = 72%) и 90-дневной выживаемости. (100%-13%=87%). AUC страдает от той же проблемы, когда сталкивается с сильно несбалансированным набором данных, как описано в этой статье. По сути, результаты, представленные в таблицах 4, 5 и 6, мало что информировали нас о производительности этих моделей, за исключением того, что базовый набор данных был сильно несбалансирован. Авторы должны были использовать кривую точности-отзыва и оценку F-1, на которые не влияет дисбаланс классов.

Была еще одна проблема с тем, как в статье использовались две метрики производительности. Помните, что выход модели машинного обучения — это числовое значение, которое представляет вероятность принадлежности субъекта к определенному классу. Кривая ROC и кривая PR представляют собой графическое представление изменений различных показателей производительности (TPR и FPR для ROC, точность и полнота для PRC) при увеличении вероятности от 0 до 1. Следовательно, площадь под этими кривыми соответствует внутренняя дискриминационная способность модели. Прежде чем мы сможем фактически применить модель в клинической практике, мы должны сначала определить соответствующий порог вероятности, который зависит от относительной стоимости различных ошибочных классификаций (например, стоимость отсутствия диагноза рака при колоноскопии по сравнению со стоимостью ненужной биопсии). ). Некоторые показатели производительности, в том числе точность и оценка F-1, относятся к определенному порогу вероятности (т. е. представляют отдельные точки на кривой). Их не следует использовать для сравнения производительности различных моделей машинного обучения. В этой статье авторы не раскрывают, как были определены пороги вероятности, связанные с точностью (предположительно, они просто используют значение по умолчанию 0,5), и они также, похоже, использовали точность в качестве альтернативной меры дискриминационных способностей моделей.

Настройка гиперпараметров

Наиболее любопытной частью этой статьи является тот факт, что все три модели машинного обучения были построены по существу с использованием гиперпараметров по умолчанию (за исключением количества деревьев и глубины дерева модели случайного леса). Крайне маловероятно, что эти гиперпараметры по умолчанию дадут наиболее оптимизированные модели, особенно с учетом сложности функций. Не было никакого объяснения, почему авторы выбрали такое малое количество деревьев, равное 20, и относительно малую глубину деревьев, равную 5, для модели случайного леса. Этот недостаток является ярким примером того, почему должен существовать формальный стандарт для документирования процесса разработки модели машинного обучения. Диапазоны гиперпараметров, оцениваемых авторами, должны быть четко задокументированы. В идеале в дополнительных материалах должны быть цифры, показывающие изменение производительности модели по отношению к каждому гиперпараметру. Обоснование выбора необычно высокого или низкого гиперпараметра должно быть четко объяснено. Для модели LR выбор признаков должен был выполняться с использованием пошагового выбора признаков, и должны быть четко указаны связанные статистические показатели для каждого шага процесса. Для модели RF следует указать важность признаков на основе примесей, чтобы убедиться, что включенные признаки действительно вносят вклад в окончательную модель. Суть в том, что рецензентам и читателям статьи должно быть предоставлено достаточно информации для воспроизведения и проверки, при необходимости, заявлений авторов, как и в любых других фундаментальных научных и клинических исследованиях.

Предварительная обработка данных

Еще одна серьезная проблема с этой статьей — отсутствие документации по предварительной обработке данных. Авторы упомянули в дополнительном содержании, что «предварительная обработка состояла из двух основных шагов: очистка набора данных и затем поиск новых функций. Очистка набора данных включала обработку неправильных, избыточных или отсутствующих значений в данных, в то время как анализ признаков включал выявление новых признаков из данных». Подробные операции, выполняемые на этих этапах предварительной обработки данных, такие как доля обнаруженных отсутствующих данных и использованный метод вменения, не раскрываются. Поскольку признаки состоят как из числовых, так и из категориальных признаков различных диапазонов и мощностей, вполне вероятно, что числовые признаки должны быть нормализованы, а категориальные признаки должны быть закодированы до того, как они будут применены к моделям. Как упоминалось выше, точные параметры нормализации и схемы кодирования должны быть раскрыты, чтобы рецензенты и читатели могли при необходимости воспроизвести модель.

Сводка

В этой статье была предпринята попытка решить клинически важный вопрос, а именно прогнозирование повторной госпитализации и смертности у пациентов с циррозом печени с использованием методов машинного обучения. Поскольку задача, по сути, представляет собой простую проблему классификации (повторный допуск или нет, смерть или нет), использование простых моделей классификации машинного обучения, включая логистическую регрессию, метод опорных векторов и случайный лес, кажется подходящим. Авторы смогли собрать большое количество высококачественных обучающих данных из хорошо зарекомендовавшей себя многоцентровой когорты, что помогает максимизировать внешнюю валидность исследования.

К сожалению, в этой статье есть несколько серьезных проблем с реализацией и анализом моделей машинного обучения. Важная документация, касающаяся этапов предварительной обработки данных и разработки модели, отсутствовала, что делало практически невозможным для рецензентов и читателей воспроизвести/проверить результаты. Модели не были полностью оптимизированы (или, по крайней мере, не было документации по процессу оптимизации). Используемые показатели производительности, а именно точность и AUC, не подходили для целей этой статьи (помните, что точность — это точечная мера, зависящая от порога вероятности, в то время как AUC не является точным в сильно несбалансированном наборе данных).

Несмотря на то, что статья была опубликована в одном из ведущих журналов по GI, она содержит достаточно недостатков в применении методов машинного обучения, чтобы сделать выводы и выводы недействительными. Исследователей следует поощрять к попыткам создания других моделей машинного обучения для прогнозирования повторной госпитализации и смертности у пациентов с циррозом печени.

Очки обучения

  • Площадь под кривой рабочих характеристик приемника и точность могут быть неподходящими в сильно несбалансированном наборе данных.
  • Детали, связанные с процессом разработки модели машинного обучения, включая вменение отсутствующих значений, нормализацию, кодирование и настройку гиперпараметров, должны быть четко задокументированы.