Принуждение моделей машинного обучения к работе везде может просто привести их к посредственности

Скажем, вы врач, планирующий хирургическую процедуру, и вы хотите быть готовым к любым потенциальным послеоперационным проблемам, которые могут возникнуть у пациента. У больницы есть доступ к новому инструменту машинного обучения, который будет делать прогнозы относительно того, какие последующие осложнения могут возникнуть, на основе истории болезни пациента, текущих показателей жизнедеятельности, типа процедуры, которую он будет проходить, и соответствующей информации. Вы вводите эту информацию, и она дает вам ответ.

Насколько вы уверены в этом прогнозе?

Это похоже на ответ типа «это зависит». Например, изменится ли ваша уверенность в себе, если вы работаете в небольшой сельской больнице? Будет ли модель хорошо работать с конкретными группами пациентов, с которыми вы обычно сталкиваетесь?

Доверие и уверенность в прогнозах моделей очень важны, поэтому эти важные вопросы станут более распространенными по мере внедрения прогностических моделей в здравоохранение.

Элемент, лежащий в основе всех этих вопросов, связан с «обобщаемостью» модели.

Обобщаемые модели

Одно из предположений при создании модели ИИ состоит в том, что когда она будет завершена и готова к использованию внешним миром, она должна быть обобщаемой. Обобщение можно определить по-разному, но, возможно, проще всего представить его здесь как способность модели работать в разных больницах (географических регионах). Модель, которая хорошо обобщает, будет столь же хорошим прогнозом для больницы в Нью-Йорке, как и для больницы в Сан-Франциско или в сельской Пенсильвании. Это распространяется на группы пациентов. Мы предполагаем, что хорошая модель будет давать хорошие прогнозы для большинства пациентов независимо от того, где она используется.

Это желание показать, что модель можно обобщить, по своей сути исходит из того, как эти модели создаются и проверяются. У вас есть данные, которые изначально используются для обучения модели. Затем, чтобы показать другим, что он действительно работает так, как вы говорите, вы показываете точность его прогнозов на новом наборе данных (наборе тестовых данных). Эти тестовые данные никогда не были видны модели во время обучения. В медицинских приложениях ИИ это желание продемонстрировать обобщаемость обычно приводит к требованию (в публикации или клиническом испытании) показать, что модель работает одинаково во всех учреждениях с внешними когортами пациентов.

Эта цель, как правило, имеет большой смысл, поскольку обычно вы пытаетесь показать, что построенная вами модель работает не только для ваших данных, но и для любого набора данных, который вы ей подбрасываете.

Так почему же обобщение может быть проблемой?

По сути, это сводится к проблеме усреднения. Требуя широкой обобщаемости, нам теперь нужно найти в данных прогностические функции, которые дают информацию во всех ситуациях и контекстах. Функции с высоким уровнем прогнозирования, но только в определенных условиях, будут «размыты» по мере того, как в обучении будет использоваться все больше и больше данных, чтобы они хорошо работали в различных средах. Это было показано рядом групп (например, [1]), и мы видели вариант этого в моей собственной исследовательской группе, где у нас была модель, которая хорошо работала на национальном уровне, но делала плохие прогнозы для нашего собственного учреждения.

В конце концов, вы превращаете модель, которая отлично работает в одном контексте, в модель, которая работает «просто нормально» во многих.

Что усугубляет эту проблему, так это то, что публикация этих моделей в большинстве медицинских журналов или журналов по машинному обучению требует, чтобы вы продемонстрировали, что ваша модель обобщает. Это касается и клинических испытаний таких систем. Таким образом, система проверки, помогающая повысить нашу уверенность в модели, сама по себе помогает поддерживать процесс, который препятствует повышению производительности на любом конкретном участке.

Эта проблема медленно привлекала внимание, но ситуация меняется, отчасти из-за общей неудовлетворенности реальными характеристиками некоторых высококлассных моделей в клинике. В действительно хорошей статье 2020 года, написанной Футомой и его коллегами, описаны некоторые проблемы, и ее стоит посмотреть.[2] Обобщение также является частью проблем, лежащих в основе предвзятости в моделях ИИ, поэтому эти проблемы не исчезнут в ближайшее время.

Что может быть сделано?

В идеале было бы здорово, если бы мы могли создавать модели, которые действительно хорошо обобщают, делая высокоточные прогнозы независимо от того, где они используются. Это может быть достижимо в тех случаях, когда сами входные данные ограничены и строго контролируются. В качестве возможности приходит на ум диагностика маммограмм по рентгеновским снимкам. Но для более широкого круга случаев, когда прогностические модели могут помочь в принятии клинических решений, это может быть нелегко достижимо.

Пока не будут найдены способы решения этой проблемы, разработка моделей с самого начала для пошива одежды будет казаться хорошим путем вперед. Одним из подходов является использование трансферного обучения для адаптации или обновления моделей к конкретным клиническим условиям.[1]

Процессы на уровне системы здравоохранения также должны быть внедрены для обслуживания, поскольку популяции пациентов, больничные процессы и даже медицинский персонал со временем меняются, и эти изменения приведут к снижению точности этих подходов.

Немедленно, предоставляя больше гибкости при рассмотрении и проверке этих моделей, с акцентом на обеспечение большей прозрачности в отношении того, при каких условиях модель, как ожидается, будет работать хорошо, а какие нет, будет иметь огромные преимущества.

Как эгоистичный пациент, я хочу лучшую модель. Я не хочу, чтобы он делал «просто хорошие» прогнозы или диагнозы для меня и пациента в больнице по всей стране. Мне нужна модель, которая поможет лечащему меня врачу принять наилучшее возможное решение. Отказ от предполагаемой необходимости обобщения поможет ИИ превратиться в настоящий инструмент для точной медицины и выполнить обещание улучшить результаты лечения пациентов.

Примечания и ссылки

[1] Ян Дж., Солтан А.А.С., Клифтон Д.А. 2022. Обобщаемость машинного обучения в медицинских учреждениях: результаты многоцентрового скрининга COVID-19. Цифровая медицина NPJ 5:69. (Открытый доступ — бесплатно для всех)

[2] Футома Дж., Саймонс М., Панч Т., Доши-Велес Ф., Чели Л.А. 2020. Миф об обобщении клинических исследований и машинного обучения в здравоохранении. Ланцет. Цифровое здоровье 2:e489–e492. (Открытый доступ — бесплатно для всех).