Или о том, как мы построили лучшую в отрасли модель повторной госпитализации с использованием групп риска, определяющих социальные факторы, и некоторых модных научных данных.

DataScience @ HF

Имеют ли значение показатели социальных детерминант?

В прошлый раз мы писали о силе использования машинного обучения для определения социальных потребностей участников и о способах подтверждения нашего подхода. Здесь я хотел поговорить об аналитической ценности девяти различных оценок риска, которые мы создали. В сфере здравоохранения приблизительное представление о том, насколько человек заболел, если пациент возвращается в больницу после выписки. Важность этого как с точки зрения медицинского обслуживания, так и с точки зрения политики невозможно переоценить. Итак, полезная эвристика, которую мы разработали при построении функций модели с помощью analytics @ hf, - это предсказывает ли X повторные допуски? Рад, что ты спросил, дорогой читатель. Это фактически создает

ЛИТЕРАТУРНАЯ МОДЕЛЬ ЧТЕНИЯ

Мы построили литературную модель с использованием только наших социальных детерминант персонажей… и сделали это за 20 минут с помощью DataRobot. Вот он - это glm-ансамбль деревьев xgBoosted с ранней остановкой, обнаружением некоторых аномалий, случайным лесом с важностью Джини, поэтапным полиномиальным классификатором признаков Vowpal (но это не имеет особого значения). Мы провели анализ за 20 минут благодаря DataRobot!

Помимо красивых графиков, дело в том, что мне даже не нужны другие функции для создания потрясающей модели повторного допуска. Фактически, когда я добавляю свой актив для моделирования столбцов 800ish (о котором я должен написать блог), AUC подскакивает до 0,80, что определенно стоит потраченных усилий, но соотношение усилий и вознаграждения должно быть сохранено. разум от менеджера проекта по науке о данных.

О чем говорят наши 9 оценок риска?

Наверное, две вещи. Посмотрим на корреляционную матрицу:

Уловка, позволяющая выполнить PCA на глаз и не сообщать учителям статистики, состоит в том, чтобы упорядочить корреляционную матрицу по углу собственных значений.

Используя стандартное ортогональное преобразование в функции PCA пакета R Psych, мы попытались выяснить, какие скрытые факторы лежат в основе этих 9 оценок.

Что мы находим? Итак, мы видим два реальных фактора дисперсии (93% дисперсии объясняется двумя факторами). Вы могли бы привести доводы в пользу того, что мы должны форсировать 3 фактора, учитывая, что жилищные обстоятельства одинаково нагружают оба, но мы не можем получить больше объяснений, связанных с этим. Поэтому мы называем скрытые факторы социальным положением и связанными с работой, и они имеют логический смысл. В дальнейшем мы будем использовать оценки компонентов для экономии.

Можно ли создать представление о социальном риске?

Давайте закончим это исследование анализом типа сегментации клиентов, только по социальным рейтингам. Согласно методу статистики разрыва мы должны ожидать в наших данных 18 кластеров (из 9 столбцов и 1,4 миллиона строк). Поэтому я проверил k-средние оценки риска и записал названия групп на основе их совокупных оценок риска. Я также создал оценку серьезности, чтобы бизнес-подразделение могло знать, какой когорте уделять первоочередное внимание, используя описания для подключения к социальным службам, таким как SNAP, PATH или продуктовые кладовые. В настоящее время мы используем эти оценки, чтобы помочь нашим менеджерам по медицинскому обслуживанию подключать участников к этим типам ресурсов через платформу социальных сетей под названием NowPow.

Это то, чем мы можем поделиться с лицами, принимающими решения, и клиницистами, чтобы помочь им определить приоритетность того, какие члены какого типа социальной поддержки нуждаются. Большинство наших членов несут низкий риск по большинству оценок. Конечная цель - получить четкое представление об уровнях риска, оценках вмешательств и рекомендуемых программах, чтобы помочь участникам подключиться к услугам, которые могут помочь им стать более здоровыми, безопасными и стабильными.

Подведение итогов

Итак, мы узнали две вещи. Вы можете получить лучшие в отрасли результаты прогнозирования, включив оценки социального риска в свои модели результатов для здоровья. У нас есть два или три скрытых фактора в описании социального риска, и мы можем использовать их для создания персонажей для более целенаправленного вмешательства.

И последнее, что нужно обсудить ... почему не все просто делают это? Я напишу об этом больше в одном из будущих постов, но для создания всего этого я использовал Python, R, Tableau, Excel, DataRobot и, самое главное, инструмент для обрезки. Не существует идеальной упаковки, нет ни одного вида красивого супа, просто сделайте работу как можно более качественно и как можно быстрее. Две переменные (скорость и полнота рассказа) для торговли по предельной кривой некоего экономиста; ваша ценность как аналитика заключается в том, на каком изгибе вы лежите.