По состоянию на 2018 год мы видим плоды, казалось бы, незначительных изменений, произошедших 9 лет назад в системе здравоохранения США, которые могут коренным образом изменить наши представления о медицине и здравоохранении: переход на системы электронных медицинских карт (EHR) и накопление стандартизированных медицинских карт. данные.

История официально начинается примерно в феврале 2009 года, сразу после экономического спада 2008 года. В рамках пакета стимулов, направленных на сохранение и создание рабочих мест, президент Обама подписал закон Закон об информационных технологиях здравоохранения для экономического и клинического здравоохранения (HITECH). HITECH в первую очередь стимулировала медицинские институты по всей территории США к переходу на сертифицированное государством программное обеспечение EHR, чтобы использовать его для улучшения ухода за пациентами и снижения затрат. Конечно, изменение всего рабочего процесса огромного института, а также настройка и доводка программного обеспечения, доступного во всех частях больницы и для всех уровней персонала, — непростая задача, и, как и следовало ожидать, на это ушло несколько лет. болезненный для большинства больниц переход на новый рабочий процесс и обучение всего персонала работе с этим программным обеспечением, которое в основном представляло собой универсальные интерфейсы. Помните, как все и их бабушки жаловались, когда Facebook немного изменил формат своей стены? Ну а теперь представьте, как может отреагировать гордый 55-летний занятой хирург, когда ей/ему велят вводить свои данные таким образом и кликать туда-сюда по каждому пациенту… Скажем так, есть еще много понятных жалоб на разные часть рабочего процесса, для полного решения которой, вероятно, потребуются десятилетия. Но, увы, хорошо это или плохо, но денежные стимулы сработали, и к 2014 году или около того новые рабочие процессы на основе электронных медицинских карт начали внедряться, и данные стали поступать со все меньшим количеством ошибок.

Данные — наиболее важный компонент любой успешной задачи машинного обучения. Прежде чем мы перейдем к техническим аспектам, позвольте мне рассказать вам, что мы подразумеваем под медицинскими данными. Если вы заглянете сюда [healthit.gov: между прочим, у них масса интересной статистики], вы увидите, что, когда мы говорим медицинские данные, полученные в системах EHR, мы в настоящее время говорим о жизненные показатели (например, кровяное давление и т. д.), результаты сканирования изображений, такие как все радиологические и патологические/биопсийные тесты, статус курения, все медицинские записи, все результаты лабораторных исследований, демографическая информация и семейный анамнез, все медицинские записи всех, кто оказывал какую-либо помощь пациент, все записи о заболеваниях и процедурах и т. д.. Посмотрите:

Обратите внимание, что, например, генетические данные в настоящее время не являются частью систем EHR, поэтому, даже если они доступны в некоторых больницах, их еще нелегко связать с остальными данными. (Мы оставляем данные о геномике для отдельного поста, так как это удивительно круто, противоречиво и чувствительно!)

Теперь, когда мы знаем, что содержится в медицинских данных, давайте также подумаем об Объеме. Все современные методы машинного обучения основаны на больших объемах данных. Я ненавижу термин большие данные, но он определяет один из столпов успешного инструмента машинного обучения. Благодаря Интернету и пользовательскому контенту, начиная с середины 2000-х годов, текст, изображения, речь, видео, шаблоны кликов, просмотры страниц и т. д. становятся все более распространенными. Неслучайно через пару лет после накопления данных мы наблюдаем все эти технологические бумы, такие как самоуправляемые автомобили (имеют много общего с хорошими системами распознавания изображений), речевые инструменты, такие как Alexa и Siri (имеют много общего с хорошими системами распознавания речи) и текстовыми сервисами, такими как перевод Google и Facebook. Это положительные сервисы. У прогнозирования поведения пользователей и таргетинга рекламы есть и отрицательные стороны, о которых я не буду говорить в этой статье. Также неслучайно компании, владеющие этими данными (т. е. Google, Facebook, Microsoft и т. д.), входят в число лидеров исследований и практики в области машинного обучения. Успешное машинное обучение в настоящее время невозможно без больших объемов данных. Хорошая новость для сферы медицины заключается в том, что теперь данные их собственной области также становятся генерируемыми пользователями (т. е. пользователи здесь — врачи и медсестры, которые генерируют данные, когда они лечат пациентов каждый день), и будут органически расти каждую минуту. Давайте сделаем некоторые цифры, чтобы получить некоторые оценки объема медицинских данных:

В настоящее время (4 января 2018 г.) в США проживает 323,1 миллиона человек. Центр контроля заболеваний (CDC) сообщил здесь, что 83% взрослых и 93% детей имели контакт с системой здравоохранения в 2015 году, а на человека в среднем приходилось 2,8 визита в офис и 0,4 визита в больницу. посещения. Всего в 2015 году в США было совершено около 1,009 миллиарда посещений. Учитывая, что к настоящему времени до 77% врачебных кабинетов и практически все больницы имеют системы ЭМК, речь идет о количестве от 700 миллионов до 1 миллиарда посещений в год, добавляемых к медицинскому обслуживанию. системы. Каждое посещение, конечно, включает в себя ряд элементов данных, от изображений и сканирований до результатов лабораторных исследований, информации о заболеваниях, процедурах, лекарствах и т. д. Каждое посещение также обычно имеет связанную с ним примечание с произвольным текстом, подписанное лицом, проводившим медицинское обследование. услуга.

Сейчас мы говорим о годных к употреблению данных за 3-4 года адаптации ЭМК (данные до 2014 года я отложил на всякий случай, потому что крайний срок перехода был 2013 год). С каждым годом это число будет расти, и, как вы понимаете, о более распространенных заболеваниях будет больше данных, а о более редких заболеваниях — меньше. На самом деле, вы можете оценить, сколько образцов на каждое заболевание у вас будет, основываясь на статистике этого заболевания, и как только у вас будет более 100 000 точек данных, вы можете быть уверены, что сможете получить несколько полезных, достойных стартапа. , разрушительная и революционная модель из него! 100 000 — это очень грубое число, которое я здесь выбрасываю, и вы, вероятно, также можете обойтись 10 000 в зависимости от того, что вы хотите сделать, но я хочу сказать, что если у вас есть только 100 точек данных, не ожидайте, что какие-либо мощные модели будут работать. с этим. Чтобы улучшить здравоохранение, нам нужно начать с пересечения, где есть достаточно данных и возможность для улучшения.

В оставшейся части этой серии я буду обсуждать в произвольном порядке некоторые темы, включая, помимо прочего, основы машинного обучения и различные подходы, включая глубокое обучение, то, как мы открываем новые методы лечения прямо сейчас и как мы можем улучшить их с помощью машинного обучения, разнообразный набор успешных моделей машинного обучения, которые были разработаны для улучшения здравоохранения, некоторые мысли и предупреждения, связанные с справедливостью и этикой при работе с предвзятыми наборами данных, конфиденциальностью и конфиденциальностью данных о здоровье, а также время от времени некоторые футуристические мечты. Объединение миров машинного обучения и медицины завораживает, и нам предстоит многому научиться и сделать. Быть в курсе!