Об автоматическом создании отчетов о медицинской визуализации

Авторы Баою Цзин, Пэнтао Се и Эрик П. Син

Если вы еще не читали наши первые две статьи об искусственном интеллекте для здравоохранения Прогнозирование приема лекарств при выписке и Автоматизация кодирования МКБ, посмотрите их! В этом посте мы обсудим, как наша специализированная для здравоохранения платформа машинного обучения (ML) генерирует отчеты из медицинских изображений с использованием глубокого обучения.

Медицинские изображения, такие как рентгенологические и патологические изображения, широко используются в больницах и клиниках для диагностики и лечения многих заболеваний, таких как пневмония, пневмоторакс и сердечная недостаточность. Считывание и интерпретация медицинских изображений обычно проводится специализированными медицинскими работниками - например, радиологические изображения считываются радиологами, а изображения патологий - патологоанатомами. Эти специалисты пишут отчеты, подобные показанному на рис. 1, чтобы описать результаты, касающиеся каждой области тела, которая была исследована в визуализирующем исследовании; в частности, была ли обнаружена каждая область нормальной, ненормальной или потенциально ненормальной.

Для менее опытных рентгенологов и патологов, особенно тех, кто работает в сельской местности, где качество здравоохранения относительно низкое, составление отчетов о медицинских изображениях является сложной задачей и требует множества навыков, которыми они, возможно, еще не обладают. Для опытных рентгенологов и патологов, особенно тех, кто работает в многолюдных местах, чтение и написание сотен отчетов о визуализации в день утомительно и отнимает много времени.

Это побудило нас изучить возможность автоматического создания отчетов о медицинских изображениях. Наша первая проблема заключалась в том, что полный диагностический отчет состоит из нескольких разнородных форм информации, которые технически сложно объединить в единую структуру. Как показано на рис. 1, отчет о рентгенографии грудной клетки содержит три раздела с разными типами текста: одно предложение (Впечатление), абзац ( Результаты) и список ключевых слов (MTI Tags). Чтобы решить эту проблему, мы создали многозадачную структуру (показанную на рис. 2), которая рассматривает предсказание списков слов (Теги) как многозадачность. классификация этикеток »(MLC) и рассматривает создание длинных описаний (Впечатлений и Выводов) как задачу генерации текста .

В рамках этой структуры мы сначала использовали сверточную нейронную сеть (CNN) для извлечения визуальных характеристик рентгеновского отчета. Эти функции затем используются для генерации ключевых слов (тегов MTI) с помощью классификации по нескольким меткам. Затем мы применили иерархическую сеть долгосрочной краткосрочной памяти (LSTM) для генерации более длинных частей медицинского заключения (Результаты и Впечатление). В иерархическом LSTM мы использовали модуль совместного внимания, чтобы локализовать аномальные области и сосредоточиться на определенных ключевых словах, которые направляют LSTM-предложение и LSTM-слово для создания более точного диагностического отчета.

Мы протестировали эту модель на общедоступном наборе рентгеновских данных из Коллекции рентгеновских снимков грудной клетки Университета Индианы (IU X-Ray), который содержит 7 470 пар изображений и отчетов. Сначала мы сравнили полную модель (Ours-CoAttention) с несколькими современными моделями субтитров к изображениям (CNN-RNN, LRCN , Soft ATT и ATT-RK ) стандартными методами оценки подписи к изображениям: BLEU , METEOR , ROUGE , и СИДЕР. Результаты в Таблице 1 показывают, что предложенная нами модель значительно превзошла современные модели. Таблица 1 также показывает, что наша полная модель превзошла Ours-no-Attention (наша полная модель без модуля совместного внимания), что указывает на эффективность модуля совместного внимания. .

Как показано на рисунке 3, наша полная модель Ours-CoAttention смогла правильно описать многие реальные аномалии на изображениях (три верхних изображения), в то время как Soft Модели Attention и Ours-No-Attention обнаружили только несколько отклонений в изображениях, и отклонения, которые они обнаружили, были неправильными.

Для третьего изображения модель Ours-CoAttention успешно обнаружила аномальную область («правую нижнюю долю»), однако не смогла точно описать эту аномалию как «событийность». Вдобавок модель также обнаружила аномалии «интерстициального помутнения» и «атеросклеротической кальцификации», которые на самом деле не считаются аномалиями специалистами-людьми. Потенциальная причина этих неправильных описаний может заключаться в том, что это рентгеновское изображение темнее (по сравнению с изображениями выше), и наша модель может быть очень чувствительна к этому изменению.

На изображении внизу показан случай отказа модели Ours-CoAttention. Однако, несмотря на то, что модель ошиблась в оценке основных аномалий изображения, она обнаружила некоторые необычные области: «боковую прозрачность» и «левую нижнюю долю». Вдобавок удивительно обнаружить, что модель пыталась рассуждать о результатах, используя выражение «это может указывать».

Мы также можем заметить, что как в сгенерированных абзацах, так и в абзацах с достоверной информацией есть больше предложений, описывающих нормальные области, чем аномальные области. Этим можно объяснить, почему модель Наши-без внимания достигла относительно высоких баллов, хотя и не выявила правильных отклонений - она ​​может просто генерировать абзацы, состоящие из описаний нормальных областей, чтобы получить более высокие оценки. оценка в оценочных системах.

Рисунок 4 представляет визуализацию того, как наша модель совместного внимания работает для прогнозирования правильных тегов для данного изображения. Sentence-LSTM может генерировать разные темы на разных временных шагах, поскольку модель фокусируется на разных областях изображений и разных тегах для разных предложений. Визуальное внимание может помочь нашей модели сосредоточиться на соответствующих областях изображения. Например, третье предложение первого примера касается «кардио», и визуальное внимание концентрируется на областях около сердца. Аналогичное поведение можно найти и для семантического внимания; что касается последнего предложения в первом примере, наша модель правильно концентрируется на «дегенеративном изменении», которое является темой предложения. Наконец, первое предложение последнего примера представляет собой неправильное описание, вызванное неправильным семантическим вниманием к тегам. Мы считаем, что подобное некорректное внимание можно уменьшить, создав более совершенный модуль прогнозирования тегов.

Наша работа демонстрирует, что применение методов глубокого обучения для автоматического создания диагностических медицинских отчетов очень многообещающе, хотя определенно есть возможности для улучшения. Наша команда продолжит попытки разрабатывать более сложные модели глубокого обучения для создания более точных диагностических отчетов, и мы будем рады делиться обновлениями об этой работе по мере того, как мы добиваемся прогресса.

Подробности читайте в нашей статье: https://arxiv.org/abs/1711.08195.