Выражение «большие данные» наводит на довольно разумные предположения: 1) вам нужны огромные объемы данных для машинного обучения и 2) чем больше, тем лучше. Ни то, ни другое не особенно полезно в здравоохранении.

Обычно мы имеем дело с небольшими наборами богатых, но беспорядочных данных (размеры выборки исчисляются сотнями или тысячами). 10 000 строк и 10 млн строк данных о претензиях, как правило, одинаково полезны (или бесполезны) для большинства проблем. Меньшие наборы данных, которые фиксируют состояние пациентов, клинические проблемы и действия, более полезны, чем миллиарды строк данных, собранных в другом месте, которые используются для создания общих моделей для «средних» пациентов. В здравоохранении возможность заключается в максимальном использовании релевантных данных.

Бывший. Мы помогаем хирургической больнице выявлять пациентов, которым, вероятно, предстоит более длительное пребывание в стационаре после ламинэктомии, используя только данные, которые у них будут на момент принятия решения, предоперационные обследования. 70% этих опросов представляют собой свободный текст, остальные — данные по шкале Лайкерта (от 1 до 5). У нас есть 429 примеров для изучения. Результаты превзошли подходы, основанные на утверждениях, а также проверенные показатели остроты зрения, используемые сегодня хирургами (оценки ASA). В отличие от стандартных оценок, где почти все получают 3 или 4 балла, мы можем предложить списки людей, в отношении которых мы на 95 % уверены, что они пробудут дольше, а также на 85 % и т. д. для обоснования принятия решений*. Я был бы рад получить более релевантные данные, и мы работаем над тем, чтобы получить более качественную до- и послеоперационную информацию на основе этого опыта. Но это совсем другой подход, чем подразумевает «большие данные».

Еще один пример с еще меньшими данными: мы работали в Департаменте по делам ветеранов, чтобы определить, получали ли ветераны с посттравматическим стрессовым расстройством помощь наилучшей практики в соответствии с заявленными показателями. Спойлер, их не было. Вот ссылка на исследование. Там у нас были терапевтические записи для 300 случаев.

Главный вывод: тем, кто надеется использовать свои данные для решения конкретных проблем в здравоохранении, лучше сосредоточиться на том, как максимально эффективно использовать релевантные (хотя и беспорядочные) данные, к которым у них есть доступ, а не собирать/форматировать большие наборы данных с «если». мы строим, они придут».

* Я могу поделиться более подробной информацией, если это будет полезно. Просто пытаюсь пройти тонкую грань между созданием впечатления и вопиющим маркетингом.

#bigdata #AI #machinelearning #healthcare