Многие специалисты по анализу данных думают о том, как они могут помочь в борьбе с вирусом SARS-CoV-2 и вызываемым им заболеванием «COVID-19. Эта статья написана в ответ на эту текущую катастрофу, но предназначена как общий совет для специалистов по обработке данных, которые хотят помочь с реагированием на стихийные бедствия.

Я работал в сфере постконфликтного развития в ООН в Западной Африке до того, как приехал в Кремниевую долину, чтобы получить докторскую степень по адаптации машинного обучения к языкам с ограниченными ресурсами в контексте здравоохранения и реагирования на стихийные бедствия. Я помогал реагировать на многие стихийные бедствия по всему миру, включая недавнюю вспышку лихорадки Эбола в Западной Африке, вспышку коронавируса MERS 10 лет назад, а также в качестве технического директора глобальной организации по отслеживанию эпидемий.

Тем не менее, я думаю, что оказал наибольшее влияние, помогая крупным технологическим компаниям поддерживать больше языков, а не в реальном реагировании на стихийные бедствия. Если вы не говорите на таком привилегированном языке, как английский, то, скорее всего, вы станете жертвой катастрофы и у вас будет меньше информации для принятия правильных решений о собственном восстановлении. Таким образом, обеспечение лучшего языкового покрытия жизненно важно. Когда я руководил первыми решениями AWS для обработки естественного языка (NLP) и машинного перевода и когда у меня были два крупнейших производителя телефонов в качестве клиентов для данных NLP и распознавания речи, я использовал свое влияние, чтобы обеспечить более разнообразную языковую поддержку в этих компаниях. Хотя это сложнее выразить количественно, я думаю, что в конечном итоге это могло сделать больше для помощи людям во время бедствий, чем все мое время в качестве лица, оказывающего помощь в случае бедствий.

Итак, если вы специалист по данным, работающий в компании, производящей широко используемые технологии, лучшее, что вы можете сделать, - это обеспечить более разнообразную языковую поддержку для ваших языковых технологий. Это будет и дальше помогать в будущих бедствиях.

Модерация контента также очень важна при бедствиях. Преступники охотятся на жертв стихийных бедствий, особенно на пожилых людей, с помощью финансовых махинаций и нападений на детей. Если в вашей компании есть системы модерации контента, которые отслеживают и сообщают о потенциальных финансовых махинациях и жестоком обращении с несовершеннолетними, то это очень важная работа.

Если вы не думаете, что можете помочь с языковым разнообразием или отслеживанием мошенничества / злоупотреблений в своей компании, и все же хотите внести свой вклад в борьбу с SARS-CoV-2, то вот 5 способов, которыми вы можете помочь:

1. Помогите окружающим интерпретировать информацию.

2. Переводите информацию от экспертов на другие языки.

3. Подготовьте данные, которые могут иметь прямое отношение к ответу.

4. Проанализировать данные, не связанные напрямую с ответом.

5. Исследования с использованием существующих наборов данных о реагировании на стихийные бедствия.

К сожалению, есть много действий, при которых вы скорее всего нанесете больше вреда, чем пользы. Более 90% ваших идей как специалиста по обработке данных на самом деле не реализуются на практике, и вам не следует ожидать большего успеха при реагировании на стихийные бедствия, особенно если у вас нет опыта в этой области. Итак, оставшиеся 5 способов помочь - это 5 вещей, которых следует избегать:

6. Не делитесь собственными выводами о том, как реагировать

7. Не работайте с организациями, которые не отвечают

8. Не начинайте работу, которую вы не можете поддерживать, пока это необходимо.

9. Не распространяйте фальшивые СМИ.

10. Не разглашайте личную информацию людей.

1. Помогите окружающим интерпретировать информацию.

Как специалист по анализу данных вы регулярно объективно оцениваете информацию и, вероятно, хорошо понимаете, как выглядит настоящая научная отчетность в здравоохранении, даже если у вас может не быть опыта в этой области. У многих из вашей семьи и других людей, вероятно, меньше опыта, чем у вас. Пришло время научить их, как интерпретировать шкалы журналов на графиках и почему они должны с подозрением относиться к любому графу без шкалы.

Это хороший пример вводящей в заблуждение информации, которой сейчас делятся в социальных сетях. Помимо необходимости интерпретировать шкалы журналов, в этом примере диаграммы следует обратить внимание на некоторые дополнительные моменты:

  1. По оси Y на этом графике показано общее количество случаев в каждой стране. Однако в двух нижних странах, Сингапуре и Гонконге, проживает всего около 2% населения США. Это приведет к смещению в сторону более пологих кривых для Сингапура и Гонконга.
  2. Ось абсцисс диаграммы начинается с 100 наблюдений для каждой страны. Для небольших стран это, как правило, будет позже в ответе и приведет к смещению в сторону более пологих кривых для этих стран.
  3. Кружки Маски / Без масок выглядят так, как будто они были добавлены позже человеком, который является экспертом по беспилотным автомобилям, но не имеет предварительного опыта в области здравоохранения от коронавирусов. Это может быть не очевидно для каждого человека, который видит это изображение, даже если человек, добавивший круги, возможно, пытался сделать его графически отличным. Следовательно, этот рисунок может заставить людей поверить, что он одобрен Джоном Хопкинсом, который хорошо известен в кругах здравоохранения, когда это не так.
  4. Существует бинарное различие между «масками» и «без масок», которое почти наверняка неверно. В разных странах будут разные уровни использования масок, все от 0% до 100%, но не крайние значения.
  5. Вы не можете сделать вывод о прямом причинно-следственном эффекте между масками и количеством случаев только на основе такого рисунка. Возможно, страны с нижним регистром ввели сразу много защитных мер, включая маски. Любая из других защитных мер могла бы изменить ситуацию, а может быть, и не имела никакого значения: это мог быть какой-то другой фактор или дополнительная осторожность в социальном дистанцировании, сопровождавшая эти защитные меры.
  6. В разных странах будут разные способы сообщения о количестве случаев. Например, некоторые будут сообщать только о людях с симптомами, а некоторые в первую очередь тестируют только людей с симптомами. Это не всегда возможно учесть.
  7. В разных странах есть группы населения, более или менее восприимчивые к вирусу и, следовательно, более или менее подверженные тестированию. Возраст - один из важных факторов в этом случае.
  8. В США случаев в 100 раз больше, чем в Японии, Сингапуре и Гонконге (обратите внимание на логарифмическую шкалу). Попросите людей оценить, что это означает. Несколько примеров вопросов: вы действительно думаете, что любое домашнее решение может предотвратить более 99% случаев? Как может существовать заговор, в который вовлечены миллионы медицинских работников, которые беспокоятся о своих близких?

Борьба с такой дезинформацией, которая распространяется в Интернете, может быть самой важной задачей, которую вы можете сделать как специалист по данным. Если кто-то из ваших близких приходит к вам с подобной информацией, укажите им на все эти проблемы, а затем спросите, почему тот, кто знает правду, может пытаться ввести их в заблуждение. Очевидно, фальшивая графика, подобная этой, может вызвать у кого-то недоверие к маскам. Это тоже было бы неправильно. Это не должно влиять на чье-то решение, и единственный совет должен быть следующим:

Прислушивайтесь только к советам надежных поставщиков медицинских услуг.

Вы также можете поговорить о том, почему медицинские организации не обсуждают подобные проблемы, потому что они не видят данных, которые говорят им, что это важно в данный момент. Если люди слишком много разделяют это, это может стать политическим и вынудить такие организации, как CDC и ВОЗ, принять ответные меры, которые будут мотивированы политикой, а не здоровьем. Таким образом, вы должны предостеречь людей от того, чтобы делиться такой информацией, независимо от того, согласны ли они с этим.

2. Переводите информацию от экспертов на другие языки.

Вы говорите на языке помимо английского? Особенно на менее распространенном языке? Есть большая вероятность, что много ценной информации не переводится на эти языки или, что еще хуже, распространяется большое количество дезинформации без наличия противоречащей правильной информации.

Будут полезны любые соответствующие данные, которые переведены и / или расшифрованы таким образом, чтобы их можно было использовать в моделях машинного перевода и распознавания речи. Например, два года назад я руководил проектом по созданию более 10 часов записей о стихийных бедствиях и здоровье, связанных с информационными сообщениями Красного Креста на суахили, с транскрипциями и переводами на английский язык. Эти данные были сделаны с открытым исходным кодом, и каждая служба машинного перевода и распознавания речи, которая использует эти данные, теперь более точна для сообщений, связанных с COVID-19. Если вы сможете создавать аналогичные наборы данных и использовать их с открытым исходным кодом, это поможет COVID-19 и любой будущей реакции на этих языках.

Если у вас нет существующих наборов данных, я рекомендую помочь такой организации, как Переводчики без границ. Они были одной из организаций, которые помогли с вышеприведенным набором данных на суахили и которые тесно сотрудничают с организациями, реагирующими на стихийные бедствия.

Если вы не являетесь профессиональным переводчиком, не переводите советы по профилактике или лечению COVID-19. Учебные материалы и медицинская терминология - одни из самых сложных в переводе. Я использовал самый большой краудсорсинг для перевода в условиях бедствия, поэтому, пожалуйста, прислушайтесь к моему совету по этому поводу.

3. Подготовьте данные, которые могут иметь прямое отношение к ответу.

Эпидемиологи - специалисты по обработке данных, и, как и все мы, большую часть времени они проводят за подготовкой данных. Если вы можете взять данные, которые могут иметь прямое отношение к ответу, и преобразовать их в более удобный формат, вы можете напрямую помочь с ответом.

Одним из примеров этого может быть выбор набора данных анонимных транспортных маршрутов, который содержит неоднозначные или нестандартные названия местоположений, и преобразование этих местоположений в однозначные географические местоположения. Другим примером может быть упрощение поиска по прошлым исследовательским работам о коронавирусах, чтобы вирусологи могли как можно более эффективно получать информацию о прошлых исследованиях.

Эпидемиологи обычно представляют социальные науки, поэтому ожидайте, что они будут более строгими, когда дело доходит до правильного статистического анализа данных, по сравнению с специалистами по данным, специализирующимися на машинном обучении.

4. Анализируйте и делитесь данными, которые не имеют прямого отношения к ответу.

Если вы не эпидемиолог, вирусолог или другой ученый с большим опытом реагирования на стихийные бедствия, то вы не сможете освоить целую область всего за несколько месяцев. Большинство вмешательств, которые вы могли бы предпринять, в конечном итоге навредили бы людям, вместо того, чтобы помогать им (см. Ниже).

Однако вы можете анализировать данные, которые говорят нам что-то важное о вспышке, но не имеют прямого отношения к самому ответу. Поведение людей меняется в результате COVID-19 разными способами. Большинство специалистов по реагированию на стихийные бедствия сконцентрируются на непосредственном реагировании и, возможно, не вернутся к другим важным данным позже.

Например, когда несколько лет назад произошла вспышка лихорадки Эбола в Западной Африке, я консультировал многие организации, потому что я жил и работал в Сьерра-Леоне и Либерии в дополнение к моему более общему опыту реагирования на стихийные бедствия. Я подсчитал, что одна вещь, не имеющая прямого отношения к вспышке, - это оценка количества людей, умерших не от лихорадки Эбола, а из-за того, что они избегали поликлиник. Я подсчитал, что на каждого человека, умершего от лихорадки Эбола, еще десять умерли от излечимых болезней:



Это косвенно помогло ответу, потому что мы использовали его, чтобы уменьшить количество вводящих в заблуждение новостей в странах. Слишком много средств массовой информации решили провести информационные кампании по всему региону, не задумываясь ни о чем, кроме снижения смертности от Эболы. Таким образом, я смог предоставить этот анализ международным организациям здравоохранения, которые использовали его, чтобы как можно больше информировать средства массовой информации.

Какие данные о человеческом поведении вы можете найти и проанализировать в отношении COVID-19, которые могут помочь косвенно? Например, видите ли вы, как сокращение количества дорожных происшествий и, как следствие, автомобильных аварий может высвободить больше больничных коек? Скорее всего, это может быть важное число, но никто не изучал это в национальном масштабе. Точно так же, насколько меньше смертей из-за меньшего загрязнения? Или какова чистая выгода от глобального углеродного следа теперь, когда мы можем фактически измерить результат сокращения загрязнения? Изменение климата в конечном итоге убьет больше людей, чем COVID-19, и это может быть одним из наших лучших шансов получить точные данные о глобальных изменениях в поведении людей.

Специалисты по обработке данных могут многому нас научить прямо сейчас без риска непосредственного вклада в ответ, и в конечном итоге они могут оказать большее влияние на мир.

5. Исследования с использованием существующих наборов данных о реагировании на стихийные бедствия.

Если вы действительно хотите сосредоточиться на реагировании на стихийные бедствия, тогда существует множество наборов данных, которые имеют отношение к реагированию на стихийные бедствия, и любое понимание этих прошлых наборов данных поможет нам построить модели сегодня для COVID-19 и для других стихийных бедствий в будущем.

Один набор данных НЛП, который я помог создать, содержит 30 000 сообщений, извлеченных из событий, включая землетрясение на Гаити в 2010 году, землетрясение в Чили в 2010 году, наводнение в Пакистане в 2010 году и супер-шторм Сэнди в США в 2012 году. Я помогал реагировать, и этот набор данных также включает новостные статьи, охватывающие большое количество лет и сотни других бедствий:



Важно отметить, что некоторые из этих данных представлены не на английском, а на других языках. Например, данные гаитянского крейоля использовались как общая задача на Семинаре по машинному переводу 2011 года. Этот набор данных также используется в классах AI4All, Udacity и университетов, включая Стэнфорд. Чем больше людей имеют опыт работы с данными о стихийных бедствиях, тем более подготовленными мы можем быть к будущему.

Если вы работаете в области компьютерного зрения, я рекомендую изучить системы, которые помогают специалистам в области здравоохранения интерпретировать изображения. Медицинские компании получат мало или не получат никакой пользы от системы компьютерного зрения, которая может обнаруживать только один тип инфекции и предоставляет только прогноз, а не интерфейс, чтобы помочь медицинскому работнику с его собственным диагнозом.

Избегайте исследований, которые популярны в академических кругах только потому, что данные легко собрать или проблему легко смоделировать. К ним относятся анализ социальных сетей только на английском языке в НЛП и автоматическая диагностика отдельных состояний на медицинских изображениях в компьютерном зрении. Результаты такого рода исследований не помогают нам решить, какой подход поможет нам в реальных стихийных бедствиях.

6. Не делитесь собственными выводами о том, как реагировать

Если вы не являетесь медицинским работником или экспертом по реагированию на стихийные бедствия, вам не следует высказывать свое медицинское мнение о том, как люди должны защищать себя. Несмотря на то, что я работаю в сфере реагирования на стихийные бедствия в течение десяти лет, я обращаюсь только к более авторитетным источникам. Вы не увидите, как я даю вам советы о том, как защитить себя или лечить себя в этой статье или в социальных сетях. Пожалуйста, сделай то же самое.

Более того, если вы цитируете опытных людей или организации, лучше указать людям на эти источники, чем копировать их на свой веб-сайт. Если вы не готовы постоянно следить за экспертами в области здравоохранения на предмет изменений в их рекомендациях и немедленно обновлять свой материал, чтобы отразить последние рекомендации, вы в какой-то момент распечатаете дезинформацию и создадите путаницу в отношении того, кто должен быть авторитетным источником.

Не поддавайтесь желанию принять участие в дискуссии. Абсолютно невозможно узнать достаточно информации, которая будет полезной за короткий промежуток времени. Например, подумайте, что бы произошло, если бы кто-нибудь прочитал самые популярные исследовательские работы по машинному обучению за последние несколько лет, но не имел другого опыта. Подготовит ли это их к выпуску полезных моделей машинного обучения для реальных приложений? Точно нет. В этих документах ничего не говорится о том, как заставить машинное обучение работать в реальном мире, и мы знаем, что на каждую статью приходилось сотни или тысячи экспериментов, которые показали отрицательные результаты.

То же самое верно для любой науки, непосредственно реагирующей на бедствие, будь то эпидемиология, вирусология или оборудование, такое как маски для лица. Чтение 100 наиболее подходящих статей не позволит вам внести полезный вклад. Вы будете предвзяты из-за конкретных проблем, которые отражаются в статьях о ранних исследованиях, и из-за предвзятости публикации только положительных результатов. Скорее всего, вы убьете людей.

7. Не работайте с организациями, которые не отвечают

Большинство организаций, которые обращаются к специалистам по обработке данных за помощью в борьбе с COVID-19, не напрямую помогают реагировать на COVID-19. Чтобы дать очень общее представление об индустрии помощи, вот диаграмма, показывающая, как многие гуманитарные организации работают в ответ на стихийные бедствия:

Если кто-то просит вас о помощи, как узнать, действительно ли он отвечает? Лучшая организация, которая может помочь, - это та, которая работает на местном уровне. Нужна ли помощь вашей местной больнице или продовольственному центру для беженцев? Начни с них. Вы можете работать с крупными организациями, такими как CDC и ВОЗ, но это худшее время, чтобы начать пытаться привлечь внимание крупных организаций, поскольку любое время, потраченное на то, чтобы вас познакомить, - это время, когда они не реагируют на вспышку. В любом случае, большинство этих крупных организаций направят вас к местному партнеру-исполнителю.

Неоперационные организации, как правило, небольшие и используют стихийные бедствия как возможности для финансирования и рекламы. Ищите, чтобы они говорили о «партнерстве» с более крупными организациями, такими как ВОЗ, но нигде не говорили, что они «партнер-исполнитель». Обычно это код, «не являющийся частью ответа». Если они обратятся к вам, скорее всего, вы являетесь продуктом, и они говорят потенциальным спонсорам : «Послушайте, у нас есть ученые-добровольцы из компании X, и мы победим COVID с помощью инноваций».

Как показывает практика, если это не национальная организация, о которой вы уже знаете (например, CDC или аналог в вашей стране), и она не входит в число первых 30 агентств ООН в их списке Фонды, программы, специализированные агентства и Другие , а затем поищите организации, которые, как вы знаете, работают в вашем районе.

8. Не начинайте работу, которую вы не можете поддерживать, пока это необходимо.

У меня никогда не было проблем с набором людей в начале бедствия, но у меня всегда были проблемы с набором людей, которые могут помочь в течение значительного периода времени. Если вы пишете код, строите модели или пишете документацию сейчас, можете ли вы гарантировать, что сможете поддерживать это через 3 или 6 месяцев?

Имейте в виду, что вы можете заболеть сами или вам придется заботиться о других. Если вы или кто-то, за кого вы ухаживаете, с большей вероятностью столкнетесь с COVID-19, вам не следует не идти по критическому пути для принятия ответных мер, если вы еще не являетесь важным работником . Кроме того, чтобы эффективно реагировать на стихийные бедствия, вы должны быть очень чуткими, но беспристрастными. Если вы беспокоитесь о себе и своих близких, значит, вы, вероятно, исходит из личной страсти, и вам будет сложно действовать с объективным сочувствием. Я никому не могу доверять в такой ситуации, поэтому я всегда поручаю таким людям некритические задачи во время стихийных бедствий.

9. Не распространяйте фальшивые СМИ.

В каждом стихийном бедствии появляется ряд фальшивых сообщений в СМИ. Наиболее разрушительными являются те, которые нацелены на организации, занимающиеся реагированием, за неправильные действия. Даже популярные средства массовой информации делают это: они находят одну небольшую часть ответа, когда одна организация в последнее время не выполняла никакой работы или где есть политика, которая не согласуется с другими организациями. Независимо от того, насколько незначительной может быть проблема, медиа-организации легко представить ее как «потенциально угрожающую миллионам жизней» и заставить людей по обе стороны аргумента дать комментарии. По сути, они придумывают противоречия там, где их не должно быть.

Излюбленные мишени для цитат - политики, которые не у власти в стране, потому что эти политики будут винить правящую партию, и технологические инакомыслящие в таких областях, как наука о данных, потому что именно там доверие часто выходит за рамки. шагает компетентность.

Журналисты знают, что такого рода статьи крайне неэтичны, и избегают называть это своим именем. Итак, ищите новостные статьи, у которых нет автора или приглашены авторы из науки о данных или оппозиционных политических партий.

Худшая часть этого повествования - это такие сообщения, как «не доверяйте ВОЗ» или «не доверяйте CDC» и т.д. недоверие к этим организациям принесет больше вреда, чем решение этой единственной проблемы.

10. Не разглашайте личную информацию людей.

Большинство правительств мира будут иметь по крайней мере некоторых людей в этих правительствах, которые сейчас пытаются осуществить меры, чтобы лишить вас гражданских свобод. Что касается коронавирусов, я говорил об этом на KDD в прошлом году, рассказывая, как компания, которой я руководил во время вспышки коронавируса MERS, решила не помогать с анализом социальных сетей из-за последствий для конфиденциальности людей:

То же верно и для многих преступников. Хотя во время стихийных бедствий преступность обычно снижается, поскольку люди в подавляющем большинстве хорошие, есть люди, которые процветают в хаосе, чтобы эксплуатировать людей.

Итак, что касается самого первого пункта этой статьи, позаботьтесь о своей семье. Пожилые люди становятся жертвами мошенничества во время бедствий, чтобы забрать у них деньги, раскрывая свои личные данные. Дети часто становятся жертвами сексуальных хищников, поэтому будьте особенно осторожны с любыми источниками данных, даже если они кажутся открытыми. Например, National Geographic опубликовало номера телефонов детей в Гаити после землетрясения 2010 года.

В общем, нет необходимости делать какие-либо данные общедоступными, и вы должны быть осторожны, даже сообщая, как именно вы реагируете на стихийное бедствие. Если проверка вашего вклада важна, я рекомендую получить ее в частном порядке или после того, как ответ закончится.

Что делать, если я ничем не могу помочь?

Если прямо сейчас вы ничего не можете сделать, чтобы помочь, я рекомендую более долгосрочные действия:

  1. Приготовьтесь поддерживать окружающих вас людей. В большинстве стран смертность в ближайшие несколько недель будет стремительно расти. Если вы не потеряете кого-то из своих знакомых, ваш друг почти наверняка потеряет. Будьте рядом с ними. Они не получат эмоциональной поддержки, которую обычно получают от медицинских работников, потому что они слишком перегружены работой. Вы можете восполнить этот пробел.
  2. Приготовьтесь к переутомлению. Усталость от стихийных бедствий (также известная как усталость из-за сострадания) - это умственное и эмоциональное истощение, которое большинство людей испытает после нескольких недель или месяцев изменения образа жизни из-за COVID-19. Меня меньше беспокоит поведение людей в разгар смертей в США, чем в следующие 2–3 недели, когда люди устают. Я видел, как опытные специалисты по реагированию на стихийные бедствия делали больше в этот период, чем в любое другое время. Именно тогда вам нужно будет найти дополнительные резервы, чтобы быть сильным для себя и для окружающих.
  3. Помощь в исследованиях реагирования на стихийные бедствия в будущем. Бедствия случаются всегда, и большинство из них практически не привлекает внимания СМИ. Я создал первые наборы данных для реагирования на стихийные бедствия в Стэнфорде одновременно с созданием ImageNet, и можно с уверенностью сказать, что мои наборы данных достигли только 1% людей, которые есть в ImageNet, что разочаровывает. Как и в случае с любыми другими технологиями или наукой, для развития наших подходов требуются месяцы, а иногда и годы, и это лучше всего, когда не также реагирует на стихийные бедствия.

Спасибо за помощь с ответом!

Роберт Манро

Апрель, 2020

Примечание редакции: Towards Data Science - это издание Medium, в основном основанное на изучении науки о данных и машинного обучения. Мы не являемся специалистами в области здравоохранения или эпидемиологами, и мнения, изложенные в этой статье, не следует интерпретировать как профессиональные советы. Чтобы узнать больше о пандемии коронавируса, нажмите здесь.