10 ловушек для искусственного интеллекта / машинного обучения!

Список 10 основных ошибок, которые делают люди, практикующие безопасность AI / ML, с объяснениями и передовыми методами, которым следует следовать, чтобы избежать или исправить.

В этом посте мы рассмотрим 10 наиболее распространенных заблуждений об ИИ / машинном обучении, особенно в том, что касается практики кибербезопасности. Сэкономьте 3,5 часа онлайн-чтения: мифы об AI / ML, описанные в блогосфере, имеют тенденцию делиться на 6 кластеров (внешнее кольцо на иллюстрации выше). Я дополню это четырьмя из многих технических / исследовательских ошибок, основанных на 23-летнем опыте создания детекторов для имплантируемых медицинских устройств и индустрии кибербезопасности (внутреннее кольцо).

1. Проблемы с семантикой AI / ML

Было сделано много шума, чтобы отделить ИИ от машинного обучения, машинное обучение от нейронных сетей, НС от глубокого обучения и т. Д. Затем возникает вопрос, является ли сам ИИ просто автоматизацией, или волшебным черным ящиком, или имитацией человеческого мозга, или автономным агентством и т. Д. Не прибегая к еще одной диаграмме Венна, я предпочитаю думать о ML как о практическое подмножество ИИ, которое работает. Вообще говоря, ML синтезирует отображение от входов к выходам, показывая примеры (шаблоны и, возможно, цели) и получая от этого опыт, в отличие от того, что отображение явно запрограммировано построчно в компьютерном коде. Как было слышно на последней конференции RSA,

«AI написан в PowerPoint; ML написан на Python ».

Если требуется немного больше педантизма, то просто подумайте о теоретико-множественных символах: AI ⊃ ML ⊃ DL и AI \ ML = ES, где последний относится к экспертным системам (символическое мышление на основе правил), которые доминировали в первые дни вычислительной техники. интеллект.

2. Проблемы с большими данными

Классическое заблуждение состоит в том, что большие данные (в большем количестве и любого рода) всегда лучше для моделей AI / ML. Одной из проблем является то, что неквалифицированное использование больших данных может усилить неявные предубеждения [Паркер-Вуд]. В общем, мы можем придать двойное значение большим моделям, но, по иронии судьбы, получить из них вдвойне неправильные выводы. Помните Google Flu? Несколько лет назад он неверно предсказывал более чем вдвое большую долю случаев гриппа по сравнению с CDC. Большой исследовательский анализ был неверно истолкован как прогностический. Полезно рассматривать любой анализ данных как подпадающий под одну из 6 категорий [Лук и Пэн]: (1) описательный (например, перепись), (2) исследовательский , (3) выводной (сохранится ли структура популяции за пределами набора данных?), (4) прогнозирующий (вывод на индивидуальном уровне; типичный ML), (5) причинный (средний эффект; например, курение → рак) и (6) механистический (детерминированный эффект). Затем, согласно Leek & Peng, наиболее распространенной ошибкой при анализе данных является неправильное определение категории вопроса. Таким образом, в сфере безопасности, как и в науке, мы можем увидеть корреляцию, перепутанную с причинно-следственной связью, нескорректированные рыболовные экспедиции с множественным сравнением, переобучение и анализ с n = 1 случаями. Большие данные принесли нам мир потрясающей аналитики, но это не значит, что они не могут опровергнуть принципиальную статистику и разум.

Глобальная интеллектуальная сеть больших данных действительно дает технические и маркетинговые преимущества поставщикам средств безопасности - чем больше триллионов точек данных (и их взаимосвязей), тем больше мы можем «знать». Поскольку алгоритмы становятся все более открытыми, становится все больше о том, у кого «больше» и «лучше» данных. Но некоторые конкуренты могут пострадать от "эффекта эндаумента" данных. Наличие большего количества данных в ущерб качеству не означает лучших моделей - по-прежнему действует старая добрая пословица: «мусор на выходе - мусор». Более фундаментальным ограничением является то, что ландшафт угроз постоянно меняется, поэтому, если мы сократим временное окно наблюдения, чтобы противодействовать или «заморозить» его изменяющийся во времени характер, мы получим меньшие, а не большие данные. .

Несмотря на то, что большие данные, казалось бы, делают спорные байесовские рассуждения (нет необходимости оценивать пересмотренные апостериорные данные, когда предыдущие уже все данные, которые когда-либо были видны), мы не можем агрегировать все данные перед лицом меняющиеся во времени правила игры. Таким образом, рассуждения с использованием небольших данных останутся критически важными. В среднесрочной перспективе многие данные могут не потребоваться благодаря трансферному обучению и слабо контролируемому активному обучению [Berg]. В долгосрочной перспективе машинный интеллект получит наибольшую выгоду от форм обучения, ориентированных на небольшие данные, включая однократное / многократное обучение, обучение для обучения и причинно-следственную связь [Жемчуг].

3. Состязательные ошибки ML

Вы, должно быть, уже слышали, что модели машинного обучения уязвимы для враждебных действий, ведущих к кажущимся абсурдным ошибкам (по крайней мере для людей). Поскольку автоматические классификаторы машинного обучения распространяются по всем доменам, включая кибербезопасность, эти целенаправленные ошибки могут стать серьезной проблемой. Несмотря на многочисленные исследования за последние пять лет, область состязательного машинного обучения по-прежнему считается протоалхимией, и на сегодняшний день не было продемонстрировано ни одной непрерывной защиты [лейтмотив Эванса; Карлини и Вагнер]. Сторона защиты состязательного машинного обучения попыталась ответить на смесь двух вопросов: (а) Как мы можем робастизировать модель (чтобы злоумышленнику было сложнее обмануть)? Это привело к состязательному обучению, защитной дистилляции, сжатию функций и модификации архитектуры; и (б) Чем состязательные материалы заметно отличаются от обычных? Это привело к появлению валидаторов ввода и детекторов противоборства. Из-за упущений в текущем обсуждении эти методы создавали иллюзию, что однажды мы сможем заранее подготовить решение во время обучения, которое защитит нашу модель от одного или нескольких враждебных входов во время развертывания. Наши исследования в Symantec убедительно показывают, что последняя цель недостижима.

Как бывший академик, я склонен зацикливаться на педагогике и мне нравится создавать научные анимации, которые помогают проиллюстрировать концепции без графиков или формул. В двух видео ниже (~ 90 секунд в каждом) вы будете носить очки, которые позволят вам увидеть то, что видит модель машинного обучения, и отныне понять, что происходит с нашим детектором на его обычном, намеченном счастливом пути, по сравнению с классическим обнаружением враждебности. эксперимент. Главный вывод состоит в том, что то, что действительно обнаруживается только по внешнему виду входной выборки, - это сложность модели в обработке входной выборки (т. Е. Ее собственная неопределенность), а не преднамеренность враждебного субъекта. Нам лучше стремиться приблизить наши технологии к байесовской оптимальности [см. Gal & Smith], и обучение противников является одним из шагов в этом направлении при условии, что мы не попадаем в ловушку чрезмерной робастификации в случаях, которые не соответствуют среде угроз.

4. Ошибки при специальном ансамблировании

Как описано в другом посте, ансамбль может предложить мощные способы комбинирования моделей для улучшения обнаружения вредоносных программ [Kenemer]. Однако проблемы возникают всякий раз, когда ансамбль выполняется специально, а не принципиально. Обычная модель, наблюдаемая в кибербезопасности и других отраслях, - это такая, когда исследовательская группа разрабатывает учебную модель, корректирующую в идеальных условиях, а затем во время развертывания модель не работает так, как ожидалось, потому что реальная жизнь не соответствует предположениям, данные не соответствуют ожиданиям. более беспорядочный и нестационарный и т. д. В этот момент правила, добавленные вручную для исправления недостатков, начинают постепенно расти. Одним из примеров является использование логического ансамбля, при котором двоичные решения M отдельных детекторов объединяются логической дизъюнкцией (OR = любое правило). Обоснование этого состоит в том, чтобы убедиться, что истинные положительные результаты (TP) не теряются от одного периода обучения к другому, в то время как любые ложные срабатывания (FP) могут обрабатываться с помощью белого списка. Однако можно показать, что это правило ИЛИ имеет TPr лучше, чем лучший индивидуальный детектор, , но одновременно имеет FPr хуже, чем наихудший индивидуальный детектор, и это ухудшается по мере увеличения размера ансамбль растет. Таким образом, белые списки и специальная реклама, необходимые для компенсации такого поведения, могут вырасти больше, чем сами лежащие в основе модели принятия решений!

Известно, что взятие выпуклой оболочки отдельных рабочих точек ROC дает лучший классификатор, однако это редко бывает оптимальным решением. В основополагающей работе Barreno et al. показывают, что оптимальное решение Неймана-Пирсона, которое может быть извлечено из M бинарных детекторов, представляет собой вычислительно трудную (непрактичную) кусочно-линейную функцию по интервалам отношения правдоподобия. Более реалистичной практикой является использование линейно взвешенных комбинаций голосования (например, линейной или логистической регрессии). Несмотря на то, что объединение бинарных решений все еще может быть неоптимальным, объединение мягких (не бинарных) вероятностных выходных данных моделей имеет тенденцию приближаться к наилучшему достижимому ROC. Исследования Symantec показали, что рабочие точки логического ROC фактически находятся в навесе, образованном всеми 2 ^ (2 ^ M) возможными логическими правилами, чья граница эффективности Марковица соответствует оптимальной для Баррено. На рисунке ниже показано подмножество этого навеса, соответствующее правилу ИЛИ для 3 базовых детекторов. Логистический ансамбль (голубая кривая) выходит за границы и почти достигает наилучшего возможного решения (золотая кривая).

К сожалению, проблема остается: объединение экспертных моделей, которые начинаются с одних и тех же входных функций и заканчиваются коррелированными ошибками, не дает дополнительных преимуществ. Но, по крайней мере, используя принципиальную версию ансамбля, вы с самого начала не исключаете возможность найти лучшую комбинацию.

5. Проблемы с антиутопическими взглядами

«Успех в создании эффективного ИИ может стать самым большим событием в истории нашей цивилизации. Или худшее ».

- Стивен Хокинг

Если последний случай конца света ожидает нас, по иронии судьбы, у нас может не быть времени, чтобы увидеть его, как предупредил всемирно известный профессор Хокинг, у нас осталось всего около 100 лет, чтобы покинуть Землю. Эти глубоко отрезвляющие прогнозы были обусловлены тем, что люди не учились и не могли контролировать климат, перенаселенность, болезни, а в случае ИИ - злонамеренное использование в автономном оружии и угнетении масс [Харпал].

Другие антиутопические взгляды вращаются вокруг того, заменит ли ИИ людей, взяв на себя их работу, или не людей, а только их повседневные задачи. Ответ, вероятно, ни то, ни другое. AI / ML не только заменяет рутинные задачи, но также увеличивает человеческие способности и воображение [Махадеван].

Кроме того, как и в прошлые экономические сдвиги, обусловленные технологиями, новые требования к набору навыков, временное смещение адаптирующегося рынка труда и подходящие программы переподготовки будут продолжать развиваться. На заре искусственного интеллекта витала идея, что мы все однажды станем [вставьте сюда свой любимый неторопливый герундий], пока машины работают на нас. Несмотря на невероятный прогресс в автоматизации, я испытал противоположное - постоянно растущие рабочие нагрузки.

Таким образом, приведенное выше является тревожным сигналом для тех, кто приветствует ИИ / машинное обучение как сугубо добро, а также для тех, кто внушает ему страх. AI / ML - это технология двойного использования (для хорошего и для плохого), и она в первую очередь поможет нам защитить клиентов с точки зрения безопасности, но также во вторую очередь увеличит поверхность атаки, когда злоумышленники попытаются использовать отравление данных, кража моделей и состязательное машинное обучение против нас [Гарднер, Доклад ITU]. Мы должны продолжать сосредотачиваться на яркой стороне, не забывая о темной стороне. Хороший способ подумать об этом - это ответ английского комика Эрика Айдла на вопрос, не беспокоит ли его ИИ:

«Меня беспокоит искусственная глупость» - Эрик Айдл

6. Современные проблемы

Каждый проект безопасности AI / ML должен гарантировать реализацию новейшей современной модели (SoTA), верно? Не так быстро! В Symantec мы видели опасности как игнорирования / откладывания SoTA, так и слишком активного его включения. Вскоре после создания Центра продвинутого машинного обучения (CAML) в 2014 году стало ясно, что некоторые производственные системы заново изобретают колеса машинного обучения, но не оптимальны. Значительные улучшения, затронувшие более 100 миллионов конечных точек, были достигнуты благодаря значительному возврату к учебным принципам машинного обучения, применимым к статическому и поведенческому обнаружению вредоносных программ.

С другой стороны, мы увидели, что переход к другой крайности - нетерпеливому принятию SoTA - приводит к тому, что люди постоянно отвлекаются на новые блестящие объекты, копируют и вставляют код GitHub, не имея ничего, кроме мимолетного понимания его теоретических основ, и накапливают технические [Sculley et al.] И исследовательский долг. В то время как исследования с открытым исходным кодом и MOOC обещают демократизировать AI / ML, другие считают, что безопасность AI / ML лучше оставить экспертам. Например, в отличие от кода с открытым исходным кодом для обнаружения кошки на видео, файл журнала безопасности гораздо менее очевиден для идентификации как подозрительный, поэтому модель нельзя просто установить и забыть [Маланов]. Более того, модели SoTA обычно переоснащены [Rasmus]. Я называю это пони с одним трюком в машинном обучении, где пример hello-world работает, но варианты, которые вас действительно интересуют, - нет.

Отчасти дилемма SoTA может быть связана с разницей в рабочих процессах между академическим сообществом и промышленностью. Как убедительно описывает Rothe, академические исследования обычно поощряют избиение гибкой метрики производительности, тогда как промышленное исследование начинается с фиксированных требований и работает в обратном направлении к решению. Лучшая практика, по-видимому, состоит в том, чтобы найти баланс между публично видимым уровнем развития техники и индивидуальными собственными разработками.

7. Precision-Recall vs ROC Gotchas

Каждый раз, когда я получаю ссылку о том, что кто-то клянется, что кривые прецизионного отзыва (PR) превосходят кривые ROC, я говорю: Хорошо, еще одна хорошая для смешка. Итак, давайте оставим это в покое, ладно: для данного набора данных существует взаимно однозначное соответствие между пространствами PR и ROC, так что каждое из них содержит одинаковые матрицы путаницы [Davis & Goadrich]. Причина, по которой некоторых людей привлекает PR, заключается в том, что в задачах с сильно искаженным классовым дисбалансом он может усилить аспекты, которые кажутся менее очевидными в ROC. Предостережение, о котором они не упоминают, заключается в том, что точность (PPV; P в PR) безнадежно привязана к той пропорции отрицательных и положительных выборок классов, которая имела место во время эксперимента (которая может отличаться от доли окончательно развернутого классификатора, встречающейся в реальная жизнь). Это контрастирует с чувствительностью (TPr) и специфичностью (1 минус FPr), которые по определению не зависят от априорных значений класса. Чтобы увидеть связь между Sens = P (1̂ | 1) и положительным прогнозным значением PPV = P (1 | 1̂), используйте правило Байеса или алгебру, чтобы получить PPV = Sens * P (1) / P ( 1̂), и в этом заключается проблема (пропорциональность P (1)). Нет такой проблемы с отзывом (= Sens; R в PR).

В остальной разумной литературе по безопасности вы можете найти откровенно ложные утверждения, такие как кривые ROC вводят в заблуждение в несбалансированном наборе данных. Они вводят в заблуждение только во время НЕПРАВИЛЬНОГО чтения кривых! Цитируемые ссылки на самом деле говорят о том, что площадь под кривой (AUC; не кривые сами по себе) могут вводить в заблуждение, когда кривые ROC пересекаются друг с другом и мы имеем в виду другие затраты, которые правда. Но при обнаружении вредоносных программ, где абсолютно необходим очень низкий FPr, мы знаем, что лучше не полагаться на весь AUC (в любом случае, будет использоваться усеченная версия). Кривые ROC не зависят от классового дисбаланса [Фосетт], поэтому в Symantec мы предпочитаем их чаще, чем кривые PR. Любите агнозис преобладания классов и позвольте пользователю или приложению выбрать порог обнаружения, который имеет для них смысл, вместо того, чтобы неявно превращать его в P (1), который может или не может соответствовать.

8. Проблемы с ковариатным сдвигом

Время от времени в системе безопасности машинного обучения, когда набор данных тестирования не соответствует статистике набора данных для обучения, люди могут быстро указать на ковариационный сдвиг как на виноватую. Но есть вероятность, что это не! Подумайте о совместном распределении p (.) Как о функции, обеспечивающей статистический клей между набором переменных, описывающих, как часто или редко вы обнаруживаете какую-либо конкретную конфигурацию сопутствующие ценности. Пусть A (x, y) будет объединением элементов x и меток y во время тренировки (в прошлом), и пусть B (x, y) будет суставом во время тестирование (будущее / развертывание / производство). Проблема изучения классификатора по A (x, y), когда B (x , y) будет иначе называется адаптация домена. Сустав может измениться по многим причинам, а именно:

(1) Проблема целиком зависит от времени p (x (t), y (t)) (или жестче с отдельным t). Чтобы выйти за рамки частого переподготовки классификаторов, нам нужно изучить динамику, например, с помощью обучения с подкреплением или прогнозирования.

(2) Характеристики изменяются p (x (t), y), например, из выбора функции или из многокомпонентных классификаторов кибербезопасности, используемых в качестве функций.

(3) Ярлыки классов меняются на p (x, y (t)), как в системах репутации кибербезопасности. .

(4) Распределение меток классов P (y) = Pr [y] (пуристы в математике: игнорируйте злоупотребления в нотации; блог - это компромисс ), то есть соотношение хорошего и плохого, отличается, но условные обозначения классов остаются неизменными: A (x | y) = B (x | y). Это называется дисбаланс классов. Из правила продукта p (x, y) = p (x | y) P (y), поэтому B (x, y) = A (x | y) B (y ) = A (x | y) A (y) B (y) / A (y) = A (x , y) B (y) / A (y) . Таким образом, чтобы соответствовать будущему B (x, y) с нашим текущим A (x , y) (эмпирически представлен обучающим набором), мы можем масштабировать зависимым от ярлыка соотношением B (y) / A (y). Например, во время обучения выполните взвешивание экземпляра или хорошую передискретизацию / недостаточную выборку в соответствии с этим соотношением (= константа B (1) / A (1) для плохих образцов и еще один = B (0) / A (0) для хороших образцов). Точно так же просто сдвиньте порог обнаружения до желаемого FPr, когда модель была обучена сбалансированным - это предпочтительный передовой метод в Symantec.

(5) Распределение признаков P (x) отличается, но последующие классы остаются неизменными: A (y | x) = B (y | x). Это называется ковариативный сдвиг [симодаира]. Люди думают об этом как о входных функциях, имеющих другое среднее значение и дисперсию в обучении и тестировании, но это более тонкое, чем это: P (y | x ) должно быть сохранено. Из правила продукта p (x, y) = P (y | x) P (x), поэтому B (x, y) = A (y | x) B (x ) = A (y | x) A (x) B (x) / A (x) = A (x , y) B (x) / A (x) . Таким образом, чтобы соответствовать будущему B (x, y) с нашим текущим A (x , y), мы можем изменить форму с помощью зависящего от ввода отношения B (x) / A ( x) и попытайтесь взвесить экземпляры. Однако оценить это соотношение бывает сложно. Поскольку модели AI / ML имеют тенденцию быть большими и сложными, ковариативный сдвиг, при котором отношение P (y | x) остается неизменным, гораздо менее значим. вероятное объяснение, чем от (1) до (3) выше.

9. Проблемы с кибербезопасностью нового поколения

Последние несколько лет стали свидетелями роста партизанской тактики среди так называемых стартапов нового поколения, вбивающих клин между старым учреждением AV и новой отраслевой категорией, которая якобы в основном изобрела машинное обучение для обеспечения кибербезопасности. Некоторый агрессивный маркетинг включал в себя заявление о том, что подписи мертвы, и обнаружение поддельных переупакованных файлов как вредоносных программ с одновременным отключением защиты конкурентов [Gallagher]. Более смелые утверждения включали возможность защиты от вредоносных программ нулевого дня без обновлений в течение 6 месяцев, и что старая антивирусная программа не использует машинное обучение. В теперь удаленном посте было заявлено, что AV-TEST может подтвердить общие маркетинговые утверждения поставщиков нового поколения. Но покупатель остерегается вводящих в заблуждение слов. Во-первых, сигнатуры не исчезнут на самом деле в ближайшее время, поскольку, по оценкам, 30% всей защиты, включая саму защиту следующего поколения, остается только этим (и почему бы какой-либо AV-компании быстро не отследить повторяющиеся угрозы, о которых они знают?). Во-вторых, в предполагаемом AV-TEST не было ни меры, ни даже упоминания о FP! В нем также описывается, как им пришлось ввести новый тест, заморозив продукт и протестировав его через 7 дней в течение 0 дней. Это называется ретроспективным тестированием, и он старше, чем Auld Lang Syne!

Отчасти путаница, создаваемая этими утверждениями, возникает из-за того, что на самом деле существует непрерывный континуум от типа обнаружения сигнатуры / отпечатка пальца до общих / эвристических определений, которые охватывают сотни тысяч вариантов (независимо от того, видели ли мы их раньше или нет), начинающих искать как правила дерева решений, до более полной абстракции правил, таких как глубокие нейронные сети и более высокий ИИ. Начало использования машинного обучения в AV-индустрии произошло в тот момент, когда базы правил больше не могли быть написаны вручную из-за растущего ландшафта угроз, и это было около 15 лет назад [Маланов].

Полезно вспомнить 9 принципов тестирования от Anti-Malware Testing Standards Organization. Тесты должны быть: (1) безопасными, (2) беспристрастными, (3) открытыми и прозрачными, (4) сбалансированными в отношении TP и FP, (5) подтвержденными в отношении этикеток, (6) согласованными в отношении потребителя и предприятия, (7) убедительные, основанные на доказательствах, (8) статистически достоверные и (9) отвечающие на вопросы корреспондентов. Решение проблемы плохого дебюта AV-TEST для любой стремящейся к кибербезопасности компании не должно заключаться в том, чтобы вводить в заблуждение, обвинять организации, проводящие тестирование, и нарушать все 9 вышеуказанных принципов.

10. Еще нет проблем

Наш последний источник непрерывной мифологии вокруг ИИ / машинного обучения особенно распространен в знаниях о безопасности: требуя, чтобы обученная модель хорошо тестировала образцы нулевого дня, потому что, в конце концов, нас не так сильно заботят вредоносные образцы в обучающем наборе (те, что уже «заведомо» плохие). Здесь происходит двойная ошибка. Во-первых, существует внутренняя ценность модели, охватывающей десятки миллионов «известных» образцов в сжатом виде, поскольку эквивалентный белый список + черный список на основе сигнатур будет больше, чем сама модель.

Во-вторых, что более важно, запрос точного нулевого дня похож на переход от классического статистического машинного обучения к сфере «магической экстраполяции». Первый учит нас обучаться работе с дистрибутивом и надеяться на развертывание на образцах, взятых из того же (или достаточно близкого) дистрибутива. Если в распределении есть непрерывные переменные, повторения крайне маловероятны, и в этом смысле новые выборки всегда равны нулю. Но если распределение является дискретным и в его домене есть {банан, апельсин, яблоко}, то эти токены, как правило, будут повторяться в будущем, потому что это распределение. Проблема возникает, когда мы тренируемся на {банане, апельсине, яблоке}, а затем ожидаем, что модель «знает» правильный ответ, когда появляется {манго}. Посмотрим правде в глаза, текущая безопасность машинного обучения еще не является причиной; он великолепно интерполирует, а иногда и «к счастью экстраполирует», но все это основано на том, что нулевой день не слишком далек от усвоенных сходств, зафиксированных в модели.

Что касается глубокого обучения, то в интервью Джудеи Перл Книга почему это описывается как просто подгонка кривой. Технологии, которых еще нет в сфере безопасности, включают безоблачное обучение на стороне клиента, замену стандартного многоуровневого подхода к безопасности [Маланов], обучение с подкреплением и моделирование причинно-следственных связей. Когда у нас это будет, мы сможем лучше попросить магическую экстраполяцию.

В заключение, я надеюсь, что помог вам увидеть 6 широких категорий недоразумений, связанных с безопасностью AI / ML, но также бросил вам вызов с 4 из многих технических, а иногда и спорных источников путаницы. Некоторые из последних идей, в том числе ограничения защиты от состязательного машинного обучения, являются частью текущих передовых исследований Symantec.