Машинному обучению в здравоохранении может не понадобиться столько размеченных данных, как раньше

Сегодня я прочитал статью о неконтролируемом обучении для классификации изображений рентгенограмм грудной клетки. Я нашел эту статью благодаря новостной рассылке deeplearning.ai «The Batch». Источник статьи можно найти внизу этой статьи.

Недавние достижения в области глубокого обучения и доступность предварительно обученных онлайн-моделей открывают путь к применению глубокого обучения во все большем количестве областей. В области здравоохранения одна конкретная подобласть, по-видимому, больше выигрывает от этого контекста: классификация изображений рентгенограмм.

Рентгенография — это метод визуализации, который помогает выявить внутреннюю структуру тела: кости, суставы, камни в почках и т. д. Для анализа и понимания этих изображений обычно требуется участие человека-эксперта, например рентгенолога. Благодаря глубокому обучению и, в частности, современным легкодоступным моделям, можно обучить модель глубокого обучения выполнять диагностику по рентгенограммам, обучая ее классифицировать рентгенограммы здоровых и нездоровых пациентов. Предыдущие исследования показали, что такая модель превосходит экспертов-людей.

Для обучения модели глубокого обучения задаче классификации необходимо сначала создать обучающий набор: набор изображений, связанных с их маркировкой, или истинной реальностью. Например, в случае рентгенограмм грудной клетки для классификации плеврального выпота (прогнозирование наличия у пациента плеврального выпота на основании рентгенограммы грудной клетки) наша модель потребует сначала собрать десятки изображений и пометить их как «представляющие плевральный выпот» и «без плеврального выпота». Чем больше размеченных данных мы получим, тем лучше будет модель.

По понятным причинам создание больших наборов размеченных данных в здравоохранении затруднено, поскольку требует много времени от группы экспертов-людей, которые и без того очень заняты. Зная об этих недостатках, авторы сегодняшних статей нашли способ значительно улучшить производительность модели в таких задачах без добавления каких-либо дополнительных размеченных данных.

Их метод основан на получении как рентгеновских изображений, так и их описания из медицинской карты пациента для создания пар изображение-текст. Например, рентгенограмма больного с кардиомегалией может сопровождаться текстом типа «на рентгенограмме больного отмечена выраженная кардиомегалия». Этот тип данных, как мы можем легко понять, содержит информацию, которую мы ищем, пока мы можем извлечь ее неконтролируемым образом (то есть без ручной маркировки).

Затем авторы обучили модель представлять как изображения, так и тексты таким образом, чтобы их векторные представления (последовательности чисел, изображающие входные данные) были максимально близки друг к другу. Например, возьмем изображение яблока, связанное с текстом «Это яблоко!». Такую ассоциацию пары изображений можно легко найти в Интернете. Мы можем попросить алгоритм превратить эти две информации в числа. Допустим, наш наивный алгоритм превращает изображение яблока в число 1, а текст, связанный с яблоком, в число 99. Затем мы вычисляем разницу между этими двумя числами (которое здесь показывает, насколько они близки) и выводим 98. Затем мы спрашиваем алгоритм обновления себя, чтобы связать изображение и текст с более близкими числами, скажем, 49 и 50. Если мы научим модель машинного обучения выполнять такую ​​задачу, мы получим модель, способную представлять любое изображение-текст ассоциации с двумя рядами чисел, близких друг к другу.

В частности, авторы отправили данные изображений через модель ResNet50 и текстовые данные в модель BERT, чтобы получить 2 вектора представления как для изображения, так и для текста. Затем они взяли эти два вектора и вычислили потери, которые аналогичны сумме взаимной информации изображения и текста и взаимной информации текста и изображения. Чем ближе векторы, тем меньше ошибка. Это помогает модели обновлять векторы представления, чтобы они сохраняли взаимную информацию между двумя векторами из одной пары. После точной настройки векторов представления они взяли несколько наборов данных классификации, связанных с рентгенограммами, и использовали на них свою ранее обученную модель. Для этого они извлекли конвейер «изображения» из своей архитектуры и повторно использовали его для классификации изображений.

Они обнаружили, что их модель, обученная на неконтролируемых парах изображение-текст, работала значительно лучше, чем предыдущие современные модели. Они объясняют, что такой подход может значительно помочь моделям глубокого обучения повысить их точность в задачах, связанных со здравоохранением, без необходимости использования больших помеченных наборов данных.

Источник: Zhang, Y., Jiang, H., Miura, Y., Manning, C.D. и Langlotz, CP, 2020. Сравнительное изучение медицинских визуальных представлений на основе парных изображений и текста. препринт arXiv arXiv:2010.00747.