"МНЕНИЕ"

Эти 9 идей, которые помогут правительству Великобритании справиться с COVID-19, изменят ваше мнение о науке о данных

Большинство специалистов по данным даже не обучаются и остаются незнакомыми с, пожалуй, наиболее полезной техникой контролируемого обучения, применявшейся во время пандемии COVID-19.

Статистика и Вторая мировая война

Чтобы свести к минимуму потери бомбардировщиков от огня противника во время Второй мировой войны, американские военные хотели бронировать самолеты в местах, где они наиболее необходимы (обозначены как точки, где самолеты были наиболее повреждены при возвращении).

Задача заключалась в том, чтобы определить, какое количество брони нужно надеть. Слишком большое количество сделало бы самолет тяжелым, что привело бы к большему расходу топлива и затруднениям в маневрировании. Слишком мало может оказаться недостаточным для защиты самолета.

Чтобы помочь с этим, военные обратились к Аврааму Вальду (венгерскому еврейскому математику, который позже стал пионером последовательного статистического анализа). Вальд дал неожиданный ответ. Вместо того, чтобы сосредотачиваться на тех областях, где самолет пострадал больше всего, он сказал, что следует сосредоточить внимание на тех местах, где он был наименьшим попаданием

Это теперь имеет смысл. В его расчетах учитывалась «систематическая ошибка выживания», чтобы указать, что возвращенные поврежденные самолеты не являются хорошим представлением о тех, которые были уничтожены огнем противника.

Уолд был одним из 18 членов Группы статистических исследований (SRG), секретной группы, расположенной на Манхэттене, штат Нью-Йорк. SRG была, пожалуй, одной из самых влиятельных групп, в которую входили Герберт Соломон (соучредитель отдела статистики в Стэнфорде), Фредерик Мостеллер (председатель-основатель статистического отдела Гарварда), будущие лауреаты Нобелевской премии (Джордж Стиглер и Милтон Фридман) и несколько других. которые затем сделали выдающуюся карьеру.

Конечно, было множество связанных с войной вопросов, которыми в то время занимались все союзники. Пожалуй, самый известный пример - работа, проведенная в Блетчли-парке, Англия, Аланом Тьюрингом, которому удалось взломать немецкий кодекс.

Статистика и Третья мировая война

Спустя 80 с лишним лет идет третья мировая война. Однако, в отличие от предыдущих раз, враг невидим. На сегодняшний день пандемия COVID-19 унесла жизни более 4 миллионов человек и так или иначе затронула всех на этой планете.

Хотя это не первая пандемия в мире, это первая пандемия в эпоху науки о данных и искусственного интеллекта, когда беспрецедентный объем данных продолжает генерироваться ежедневно, когда люди во всем мире упорно трудятся над борьбой с этим невидимым врагом.

Кого, черт возьми, я тебе все это рассказываю?

Великобритания была одним из ведущих игроков в мире, который лучше подготовил нас к борьбе с этой войной. Сотни ученых со всей страны работают над различными проектами, чтобы помочь информировать Научную консультативную группу Великобритании по чрезвычайным ситуациям (SAGE), которая затем направляется в Кабинет правительства Великобритании для помощи в принятии решений.

Я один из таких ученых из Великобритании, участвовал в руководстве и поддержке многих проектов COVID-19, таких как оценка воздействия COVID-19 на другие заболевания (опубликовано в Thorax), оценка эффективности вакцин (опубликовано в The Lancet), насколько они безопасны (опубликовано в Nature Medicine) и как делать прогнозы (опубликовано в The Lancet Digital Health).

Работая над такими проектами более года в качестве специалиста по данным, включая наставничество и подбор персонала, есть несколько уроков, которыми стоит поделиться с сообществом специалистов по анализу данных.

Эта война закончится. Однако идеи, которыми я собираюсь поделиться, широко применимы к отрасли науки о данных. Некоторые из них открыли мне глаза, а некоторые укрепили мои прежние взгляды на отрасль. Давайте погрузимся.

1. Простые методы были явными победителями, руки вниз

Вы могли подумать, что арсенал удивительных инструментов и методов искусственного интеллекта будет в авангарде формирования государственной политики по борьбе с этой пандемией. И ИИ действительно сыграл центральную роль в открытии вакцин и методов лечения COVID-19.

Однако, учитывая мое собственное прошлое, мне неприятно это говорить:

современные инструменты искусственного интеллекта не играли ведущей роли в большинстве последующих работ по борьбе с пандемией.

Скорее, на передний план выходили более традиционные, устоявшиеся методы.

Я не единственный в сообществе специалистов по анализу данных, который пришел к такому выводу. Центр этики и инноваций данных (CDEI) ведет общедоступный, актуальный репозиторий новых вариантов использования данных и ИИ, чтобы помочь бороться с пандемией. По их словам: в основе реакции на COVID-19 лежит традиционный анализ данных, не ИИ.

Почему?

Чтобы понять причины этого, я приведу вам один пример, связанный с моделированием прогнозирования рисков. Во время этой пандемии были проведены многочисленные исследования. В одной широко цитируемой статье, опубликованной ранее в этом году в BMJ, оценивались все модели прогнозирования для диагностики и прогноза COVID-19.

Из огромных 232 разработанных моделей почти ни одна из них не была признана достаточно подходящей для клинического использования. Это был вывод, несмотря на то, что некоторые алгоритмы сообщают, что AUC (площадь под кривой) составляет 0,99!

Нам, как сообществу, нравится пробовать новые алгоритмы с яркими названиями на данных. Для решения реальных проблем недостаточно пробовать!

2. Образование в области науки о данных немного запутано

Если и есть один класс методов, который действительно выделяется, то это анализ выживания (SA). Этот метод использовался, чтобы сказать нам, действительно ли вакцины работают в реальном мире. Этот метод также использовался, чтобы сообщить нам, кто подвергается наибольшему риску госпитализации или смерти от COVID-19. Это были важные вопросы, на которые требовалось срочно ответить, чтобы помочь информировать правительства и Всемирную организацию здравоохранения (ВОЗ).

SA - это метод обучения с учителем, и наиболее распространенный способ его применения - модель Кокса. Модель Кокса была изобретена почти 50 лет назад. Однако в большинстве традиционных курсов машинного обучения (ML) ничего не говорится об анализе выживаемости.

Возьмем, к примеру, курс машинного обучения Эндрю Нгса, возможно, самый популярный онлайн-курс за все время (большинство курсов машинного обучения, которые я видел, следуют его примеру). Сфера обычно делится на три типа обучения: контролируемое, неконтролируемое и подкрепление. В рамках контролируемого обучения мы делим его на классификацию и регрессию. Трудность, с которой приходится сталкиваться большинству новичков, - это разобраться в SA.

SA - это метод обучения с учителем, но он не соответствует описанию классификации или регрессии для начинающих. Это сочетание регрессии (результат непрерывный, время «выживания») и классификации (бинарный индикатор, позволяющий предположить, произошло событие или нет). Модель Кокса - это устоявшаяся, концептуально простая техника, которая аккуратно объединяет две части информации.

Почему мы не обучаем этому на вводных курсах? Бьет меня!

Использование SA не ограничивается здравоохранением. Существует множество приложений за пределами здравоохранения. Тем не менее, поскольку специалистов по данным не учили этому формально, они имеют тенденцию формулировать проблему контролируемого обучения либо как классификацию (и отбрасывать информацию о времени), либо как регресс (и отбрасывать случаи, когда событие не произошло). SA дает вам возможность избежать таких компромиссов. Несомненно, это был один из широко используемых методов во время пандемии.

Заявление об ограничении ответственности: специализация ИИ для медицины преподает SA, но эта тема заслуживает внимания и во вводных курсах; SA можно рассматривать как ограниченную регрессию, но это ненужное осложнение для начинающих прикладных курсов.

3. Инструменты и методы совершенно второстепенны

Эта пандемия бросила вызов миру, как никогда раньше, в наше время. Было сгенерировано много данных. Это была самая большая арена для сияния науки о данных. А там, где он действительно сиял, речь шла о решении проблемы. Части работы, которые были приняты всерьез, рассмотрены и приняты меры, касались решаемых ими проблем, а не инструментов или методов, которые они использовали.

Я сказал это ранее. Суть науки о данных не в использовании сложных инструментов или методов. Это использование данных для решения проблем.

Инструменты и модели вторичны. Они всего лишь помощники. В конце концов, не имеет значения, является ли проект личным, для организации, для страны или для всего мира. Есть проблема, которую нужно решить. И вы используете данные для решения этой проблемы, используя соответствующий инструмент из арсенала инструментов. По-честному.

4. Модели, основанные на данных

Во время пандемии было несколько вопросов, на которые мы хотели бы получить немедленный ответ, но мы были ограничены данными, а не моделями. Конечно, методы анализа быстро генерируемых данных требовали сложных методов обработки данных, а стандартных методов было недостаточно.

Тем не менее, самыми большими ограничениями были проблемы, связанные с данными. Институт Тьюринга в Великобритании провел 8 тематических семинаров с участием самых разных специалистов, чтобы лучше понять роль искусственного интеллекта и науки о данных в реагировании на пандемию COVID-19. При выявлении основных проблем, которые препятствовали возможности помочь в ответных мерах на пандемию, наиболее важными факторами были доступ к данным и их стандартизация. Либо данные были вообще недоступны. Или, даже если бы он был доступен, он не был должным образом отформатирован или задокументирован.

Таким образом, неудивительно, что Эндрю Нг возглавляет инициативу, побуждая сообщество специалистов по науке о данных сосредоточиться на ИИ, ориентированном на данные. На сегодняшний день мы все вместе сосредоточились на подходах, ориентированных на модель.

Я рекомендую вам без чувства вины тратить время на изучение своих данных. Ознакомьтесь и исследуйте свои данные. Лучше понять данные, прежде чем передавать их в конвейер моделирования. Никогда не забывайте концепцию информатики, которая сейчас уже стала клише: Мусор на входе, мусор на выходе (GIGO) ».

5. Наука о данных - это всесторонний командный спорт

Прошедший год еще раз убедил меня в том, что Data Science - это командная работа над значимым и результативным проектом.

Во время этой пандемии наиболее значимые проекты были в значительной степени междисциплинарными. Я был ошеломлен широтой опыта, который требовался в проектах. Вот список избранных навыков, необходимых для проектов, в которых я участвовал:

  • клиническая экспертиза для сбора данных,
  • навыки информатики для обеспечения адекватной технической инфраструктуры,
  • администрирование для обеспечения надлежащего решения вопросов управления данными,
  • специалисты по обработке данных, которые помогают анализировать данные,
  • как клинических, так и доклинических ученых, чтобы обеспечить правильные вопросы,
  • опыт публичных коммуникаций для обеспечения надлежащей передачи ключевых сообщений,
  • опыт управления проектами для обеспечения выполнения таких сложных междисциплинарных мероприятий и,
  • коллективный мозговой штурм для обеспечения правильной интерпретации результатов.

Конечно, бывают исключения. Одним из ярких примеров является Нейт Сильвер, который в одиночку превзошел современные на тот момент прогнозы о выборах. Он правильно определил 49 из 50 штатов на президентских выборах в США в 2008 году, используя для своего моделирования широко доступные общедоступные данные.

Однако, по большому счету, DS - это командный вид спорта, в котором участвуют люди с разными навыками, преследующие общую цель.

6. Вам нужны три шляпы: данные, модель и домен

В 2020 году в Англии произошло впечатляющее сокращение числа пациентов, обращающихся к своим врачам из-за приступа астмы. Использованные данные были фактическими, обычно собираемыми врачами данными. Данные были достоверными. Это сокращение произошло.

Но почему это произошло? Во всяком случае, COVID-19, возможно, должен был вызвать больше приступов астмы. Может, пациенты боялись ходить в клиники. Может быть, пациенты были осторожнее и регулярно принимали лекарства. Может быть, во время пандемии врачи записывали вещи по-другому. Объяснений может быть множество.

Это исследование было освещено в прессе, и мне удалось поговорить с несколькими журналистами. И все хотели знать причины.

Меня несколько раз ставили на место. BBC Radio Scotland позвонило мне рано утром в 6:30. Следующее, что я понял, это то, что я веду прямую трансляцию, и мне нужно тут же отвечать на новые вопросы.

Тогда ваш единственный друг - ясность. Ясность мысли можно получить только в том случае, если вы четко понимаете выбранный вами подход к моделированию, ограничения данных и понимание проблемы, которую вы пытаетесь решить.

Как специалист по данным, вы должны научиться носить три шляпы, быстро переключаясь вперед и назад по мере необходимости. Шляпа данных (чтобы вы могли понять свои данные, ограничения и способы их сбора), шляпа моделирования (чтобы вы могли понять предположения, лежащие в основе вашего подхода) и шляпа предметной области (чтобы вы могли правильно интерпретировать свое моделирование. Результаты). Если вы хотите преуспеть как специалист по данным, я рекомендую вам одинаково серьезно отнестись ко всем трем направлениям. Ни один из них не является обязательным.

7. Коммуникация - самый важный навык, которым должен овладеть каждый специалист по данным

Некоторые люди имеют стереотипное представление о том, на что должна быть похожа работа DS: сидеть за компьютером, ежедневно вычислять числа и строить красивые графики.

Конечно, нужно уметь программировать. Конечно, вам нужно уметь загружать данные, очищать их, применять модели и оценивать производительность. Это стандартные задачи DS. Однако один из самых недооцененных навыков DS - это ваши собственные коммуникативные способности.

Какая польза от проекта DS, если в нем есть самая удивительная модель с высокой производительностью, но человек, который ее разрабатывает, не может адекватно объяснить ее ключевым заинтересованным сторонам?

Эффективный проект DS должен не только разрабатывать модели, но и без особых усилий иметь возможность общаться слева, справа и по центру со всеми видами заинтересованных сторон. Вот так вы перемещаете иглу и превращаете создание модели в создание ценности.

8. Нет замены реальным проектам

Онлайн-курсы - отличный ресурс для изучения основ, в том числе для работы с заданиями по программированию для практических проектов. Kaggle также является отличным ресурсом для практических проектов.

Однако следует понимать ключевое различие между ними и реальным проектом. Многие реальные проекты изначально плохо сформулированы.

Шаги, необходимые для перехода от нечетко определенного проекта к хорошо сформулированной проблеме науки о данных, в значительной степени зависят от контекста. Следовательно, самый полезный способ изучить их - это испытать различные проекты на практике. Я не думаю, что есть другой способ обойти это.

Не ждите, что кто-то другой предложит вам хорошо сформулированную задачу с чистыми данными и определенную метрику производительности, которую вам нужно улучшить. Возьмите на себя полную ответственность за весь конвейер обработки данных. Реальные проекты движимы проблемой, которую необходимо решить, а не заранее определенной метрикой производительности, которую вы должны максимизировать.

9. Споры о машинном обучении и статистике окончены

Это статистика или ML? Подождите, разве ML - это не расширенная статистика? За 14 лет работы с данными я встречал несколько вариантов этих вопросов. По этой теме ведутся споры между известными экспертами, статьи и даже рецензируемые статьи в престижных журналах. Это безумие.

Честно говоря, это бесполезный, (казалось бы) безрезультатный спор. ML по определению занимается обучением на основе данных. Ключевой компонент обучения на основе данных часто требует преобразования необработанных данных в итоговые переменные. Хорошая статистика - это обобщение данных. Теперь у нас есть постоянно растущий объем данных, и нам необходимы оригинальные алгоритмические подходы. Многие из них были разработаны сообществом, работающим на факультетах информатики. Однако несколько подходов, которые пытаются понять параметры модели, исходят от людей, работающих в отделах статистики.

Конкретный пример

Приведу один конкретный пример. LASSO - отличный метод, который можно использовать как часть логистической регрессии во время регуляризации с использованием нормы L1, чтобы избежать переобучения и выбора функций. Его обычно используют большинство практиков машинного обучения. Это популяризировал Роберт Тибширани, работавший профессором статистического факультета Стэнфорда.

Однако концепция регуляризации с использованием норм L1 и L2 - это стандартные темы машинного обучения, которые преподают такие люди, как Эндрю Нг, который (раньше работал) в Стэнфордском факультете компьютерных наук.

Что я здесь имею ввиду? Инструменты и методы, разработанные людьми из статистических отделов и отдела CS, очень взаимосвязаны. Тем не менее, суть одна и та же: учиться на данных.

Мой собственный бакалавр, магистр и доктор философии. все в инженерии. Тем не менее, с годами мне пришлось брать стандартные книги по статистике и читать многие статьи из статистических журналов. Потому что это то, что мне было нужно в то время. А сейчас я сижу в медицинской школе, работаю вместе со статистиками и практиками по ОД. И если я нанимаю кого-то на роль DS, мне все равно, имеет ли он образование статистику или CS. Скорее я буду искать кандидата с нужными способностями и ожидать, что он / она будет время от времени выбирать книги / курсы / статьи по CS или статистике, работая над проектами DS.

Мой вердикт относительно дебатов по статистике и ML

Во время этой пандемии даже развитые страны оказались в дефиците. Однако происходило бурное развитие инфраструктуры (например, OpenSAFELY).

Дизайн базы данных, обеспечение соответствующей безопасности и прав доступа - все это работа CS. Одновременно нам требовалось много традиционных статистических знаний, чтобы ответить на неотложные вопросы политики, используя эти новые инфраструктуры данных.

В конце концов, достигнутый прогресс был бы невозможен, если бы любой из двух экспертов был недоступен. Во всех этих инициативах люди, которые называли себя статистиками, тесно сотрудничали с теми, кто считал себя специалистами по обработке данных и практиками ML.

Четких разграничений не было. Задачи были ориентированы на проблемы, а не на методы. Следовательно, пройдя через этот опыт сейчас, я считаю эту дискуссию бессмысленной и в значительной степени субъективной. Не ищите четких границ между ними, потому что их нет. И не беда ...

Последние мысли

Настало захватывающее время для специалиста по данным. Мы буквально тонем в данных. Однако настоящая ценность не в данных, а в том, что вы делаете с этими данными. Использование данных для решения неотложных задач - это наука о данных. Меньшего недостаточно!

Мы тонем в информации, но при этом жаждем мудрости. Отныне миром будут управлять синтезаторы, люди, способные собирать нужную информацию в нужное время, критически относиться к ней и мудро делать важные выборы (Э. О. Уилсон)