Мне выпала честь выступить сегодня на AI for Good о дезинформации.

Во-первых, мой практический результат: защита от дезинформации основана на науке о данных. Он содержит знакомые элементы науки о данных: людей, процессы, данные, алгоритмы и идеи. В своем выступлении я рассмотрел каждый из них.

Люди: сообщества, отслеживающие дезинформацию

В CogSecCollab мы работали над распределенной защитой от дезинформации: как нам создать команды по дисциплинам, во многих разных географических точках, чтобы уменьшить частоту, распространение и последствия крупномасштабной дезинформации, которая сама распределяется по группам , локации, платформы, интересные места и т. д.

У нас было два шаблона для этого: мы видели балтийских эльфов (группы волонтеров в Литве, Латвии и т. Д., Которые объединяются со СМИ и т. Д., Чтобы противодействовать российской дезинформации с помощью фактов, юмора и т. Д.), И некоторые из наших членов разработали процессы а также технологии, которые используются в кризисных ситуациях - создание распределенных по всему миру команд для поиска и анализа данных и создания продуктов для информирования о ситуации (например, карт, наборов данных) для спасателей во время стихийных бедствий. В качестве сторонников кризисов мы взяли физическую картонную коробку, в которую CrisisCamp London каждую неделю складывал свои инструменты, чтобы создать онлайн-набор «CrisisCamp in a Box» с его меньшим вариантом «CrisisCamp in a Bag» и большей версией «CrisisCamp in a Container». ”(Для ответов на уровне страны) и создал новые лагеря и группы по всему миру: не было никаких причин, по которым подобное сочетание хороших процессов, инструментов, связей и наставничества не могло также работать для дезинформации.

У нас были планы на 2020 год. Завершить нашу работу по противодействию дезинформации (составить более 200 списков противодействий; расширить наши представления о теории игр и исчерпании ресурсов); создать набор инструментов, который мы начали со стандартами AMITT и их переводом на STIX и MISP, превратить инструкции, которые мы написали для сотрудников избирательных комиссий, в пособие для эльфов; продолжить сбор и предоставление наборов данных в машиночитаемой форме.

А потом случился Covid19, и мы обнаружили, что запускаем или помогаем запускать 3 различных развертывания дезинформации сообщества: Covid19Activation (сбор данных по дезинформации по всему миру), Covid19Disinformation (обеспечение резких скачков для существующей команды по дезинформации) и группа дезинформации CTI League ( развертывание дезинформации внутри крупномасштабного добровольческого развертывания информационной безопасности).

Процесс: отслеживание инцидентов

Мы перестали планировать и писать о том, как запускать развертывание сообщества, и начали писать сценарии по мере их запуска. Вот базовая инструкция для одного из развертываний:

Это довольно просто - намеренно - мы рассчитываем на объем, а людям, которые быстро отслеживают, нужны простые инструкции. Он также базовый в использовании инструментов: электронных таблиц, папок Google и двух инструментов с открытым исходным кодом, потому что мы хотим, чтобы как можно больше команд могли делать одно и то же (и иметь возможность связываться друг с другом: каждый из данных инструменты имеют API). Со временем это тоже изменится.

Данные: "слои" дезинформации

Мы говорим о пирамиде дезинформации. Обычно мы видим долгосрочные кампании - то, на чем создатели дезинформации сосредоточены на долгосрочной перспективе, например, Covid19 или конкретные выборы. И в них мы видим инциденты - они длятся относительно недолго и обычно сосредоточены на чем-то одном, например, на Законе Стаффорда. Внутри инцидентов находятся повествования: истории и мемы, которыми делятся люди, например, «5g вызывает covid19»; а под ними находятся артефакты, материальные объекты, которые появляются в сети, такие как сообщения, изображения, учетные записи пользователей, группы и отношения. Обычно мы видим артефакты и извлекаем из них информацию о повествованиях и происшествиях.

В CogSecCollab большая часть нашей работы основана на отслеживании и обмене информацией об отдельных инцидентах. Это состоит из нескольких частей. В прошлом году мы работали над способами разложения инцидентов на тактики и методы, использованные в инциденте, и над способами противодействия каждому из них: это дало нам AMITT Framework:

Мы также искали способы представить, как нарративы связаны друг с другом, как они формируются и «умирают» (а иногда и возвращаются из «мертвых»), и как мы могли бы ускорить наложение ярлыков, показывая только «текущие» списки или артефакты с автоматической пометкой с известными описаниями.

Мы сознательно разработали наши стандарты дезинформационных данных, чтобы использовать их в системах анализа угроз информационной безопасности. Они описывают объекты, участвующие в атаке: кто, что, как и т. Д. Одним из наиболее распространенных используемых стандартов является STIX, поэтому мы адаптировали его для дезинформации, добавив два новых объекта (инцидент и повествование) и сделав доступной структуру AMITT. как модель STIX тоже .

Наличие более точных описаний инцидентов означало, что мы могли бы начать писать инструкции для типичных ситуаций угроз, включая нашу работу над счетчиками на уровне техники (все еще не закончено, но мы доберемся до этого ...)

Часть AI / ML: алгоритмы

Я подчеркнул, что наука о данных - это большая часть реакции на дезинформацию, но сегодня утром я выступал на мероприятии по ИИ. Во-первых, я твердо убежден в том, что вся наука о данных должна основываться на потребностях и задаваться вопросами: поговорите с экспертами в предметной области, посмотрите, что они уже делают, выясните, можете ли вы помочь им сделать это с большим объемом / скоростью / по всему миру. больше форматов и слушайте, что они говорят, что им нужно (иногда ответ действительно проще, чем вы думаете, например, лист бумаги - или электронная таблица - или дерево решений).

Но вот краткий перечень областей, на которые я смотрел, и вещей, в которых я думал, в чем нуждаюсь.

Текстовый анализ:

  • поиск тем - повествования - невероятно полезный способ сгруппировать артефакты, так же как и возможность наблюдать, как они формируются и умирают (привет, схематические тематические диаграммы). Это также поможет найти похожие (но не совсем одинаковые) повествования и повествовательные гибридные приложения, такие как Covid5g.
  • классифицировать артефакты по повествованиям - это сэкономит нам время на маркировку
  • кластеризация текста - это поможет найти новые группы (которые не всегда совпадают с повествованиями)
  • поиск похожего текста. Нам относительно повезло с Covid19, поскольку мы видели много повторяющегося текста. Простое использование текстовых генераторов, редактирование или запутывание сделало бы такие повторы намного труднее найти без посторонней помощи.

Графический анализ:

Отслеживание дезинформации и ответные меры имеют много общего с эпидемиологией (и многие ранние работы по анализу дезинформации были основаны на эпидемиологии до того, как это стало модным). Вещи, с которыми могут помочь алгоритмы анализа сети / графа, включают:

  • Поиск суперраспространителей: отдельных лиц, групп и т. Д., Ответственных за ускорение распространения слухов в Интернете.
  • Поиск истоков слухов. Мы делаем много этого: тщательно отслеживаем артефакты, такие как хэштеги, языковые особенности, изображения и связи во времени, чтобы найти терпеливые нули слухов. Многие из них можно было бы лучше автоматизировать
  • Обнаружение новых артефактов. Часто наиболее полезные артефакты не очевидны, пока мы не посмотрим на результаты сетевого анализа или не посмотрим на них на сетевых диаграммах. Некоторые из этих работ выполняются вручную и повторяются, и их можно ускорить.
  • Отслеживание движения во времени. Всякая дезинформация происходит с течением времени - она ​​существует, распространяется, ей противодействуют. Это все еще сложно определить количественно, и существуют временные методы, которые могут помочь.

Анализ изображений, видео, аудио

Нет, я не буду говорить «глубокое фальшивое обнаружение». Это важно: для создания изображений и текста профиля ботнета использовались алгоритмы глубокой подделки, но более серьезную проблему представляют:

  • Поиск похожих изображений - алгоритмы онлайн-поиска не всегда настроены на типы поиска изображений, которые нам нужны, например возврат изображений с похожим цветом, а не с похожим содержанием
  • Обнаружение поверхностных подделок. Shallowfakes - это слегка измененные изображения и видео. Приведенное ниже видео Нэнси Пелоси с замедленным воспроизведением «невнятной речи» является классическим. Варианты подлинных изображений дешевле, эффективнее и более распространены, чем их более привлекательные родственники - глубокие подделки.

Insights: графические отношения

В конечном итоге наука о данных существует для того, чтобы дать людям понимание и помочь им принимать более правильные решения.

Для этого нам требовалось более подробное описание объектов, вовлеченных в инцидент дезинформации, поэтому мы также добавили AMITT в инструмент анализа угроз с открытым исходным кодом MISP (каждый MISP теперь поставляется с AMITT в стандартной комплектации) и добавили Атлантический совет Дихотомии дезинформации кодовая книга DFRlab. Использование объектов MISP для таких артефактов, как блог, микроблог (сообщение в твиттере или фейсбуке), человек, учетная запись пользователя и т. Д., Позволило нам обмениваться и связывать сложную информацию об инцидентах графическими способами, которые пользователи могут нажимать и перемещаться:

Люди, Процесс, Технология, Данные, Алгоритмы, Понимание

Люди, процессы, технологии, данные, алгоритмы, идеи: я не особо много говорил о технологиях выше, но он прошел через обсуждение, поддерживая другие части.

Итог: в конечном итоге, речь идет о людях. Создатели дезинформации проникли в распределенный онлайн-мир и использовали людей и инструменты в нем в своих интересах. По моему скромному мнению, защита от дезинформации должна использовать аналогичный подход.