"Машинное обучение"

Изучение последних тенденций случайного леса

Модель случайного леса считается одной из многообещающих ансамблевых моделей машинного обучения, которая в последнее время стала очень популярной. В этом посте мы рассмотрим последние тенденции случайного леса.

Модели ансамбля - вступление

Ансамбль рассматривает несколько моделей обучения и объединяет их для получения более мощной модели. Объединение различных моделей в ансамбль приводит к лучшему обобщению данных, сводя к минимуму вероятность переобучения. Случайный лес - это пример модели ансамбля, в которой рассматривается несколько деревьев решений. Поскольку этот пост связан с последними тенденциями случайного леса, предполагается, что читатель имеет опыт работы с деревьями решений (если нет, обратитесь к деревьям решений в машинном обучении, отличному посту от Прашант Гупта).

Случайный лес - фон

Случайный лес был введен Лео Брейманом [1] в 2001 году. Мотивация заключается в ключевом недостатке модели дерева решений, где она склонна к переобучению при создании большого количества листьев. Следовательно, многие деревья решений приводят к более стабильной модели с лучшим обобщением. Идея случайного леса состоит в том, чтобы создать множество деревьев решений, каждое из которых должно достаточно хорошо предсказывать целевые значения, но отличаться от других деревьев. «Разное» создание выполняется путем добавления случайных вариаций в процессе построения дерева. Эти варианты включают разнообразие в выбранных данных обученной модели, а функции в каждом сплит-тесте выбираются случайным образом. В общем случае процесс случайного леса можно описать следующим образом:

Основные параметры настройки, которые должна установить конструкция, можно резюмировать следующим образом:

  1. Количество деревьев (оценок) для использования в модели ансамбля.
  2. Максимальные характеристики параметров. Влияние в основном на разнообразие деревьев в модели ансамбля. Сильно влияют на производительность.
  3. Максимальная глубина дерева. Этот параметр важен, чтобы избежать переобучения.

Здесь перечислены плюсы и минусы случайного леса:

Здесь приведен отличный пример использования случайного леса: реализация-и-объяснение-случайного-леса-в-python-77bf308a9b76 от Арьи Мурали.

Учимся на слабых данных: экспедиция в глубокий лес

Слабая метка - это случай, когда каждый обучающий пример связан с несколькими (истинными) метками одновременно, но предоставляется только часть из них. Недавно в статье Wang et al. [2] предложили работать с данными со слабой маркировкой, применяя модель глубоководной экспедиции. Они представили «метод LCForset» со структурой дополнения метки:

Основным вкладом является метод глубокого обучения на основе древовидного ансамбля (для слабой метки). Чаще всего такого рода проблемы формулируются в виде упорядоченной структуры. В своей работе они обрабатывают информацию слой за слоем и могут добиться эффективной структуры дополнения меток. Их общая схема представлена ​​на рисунке ниже, где данные используются для обучения двух полностью случайных лесов и двух случайных лесов в каждом слое. Затем для каждого обучающего примера вектор признаков объединяется. Процесс продолжается до достижения максимального слоя T.

Метод был продемонстрирован / протестирован на изображениях и последовательных данных (задача медицинского НЛП) с отличными результатами.

Абстрактная интерпретация классификаторов ансамбля дерева решений

Проблема проверки устойчивости случайного леса имеет большое значение. Существует очевидная необходимость интерпретировать обученную модель и предоставить некоторые инструменты проверки. Недавно Ранзато и др. [3] исследовали эту проблему с помощью общей и принципиальной абстрактной структуры, основанной на интерпретации, для формальной устойчивости и свойств устойчивости случайных лесов. Их метод включает проверки устойчивости к стандартным состязательным возмущениям. Они оценили свой инструмент с помощью набора данных MNIST и предоставили эффективный инструмент для проверки случайных лесов. Следующая таблица описывает взаимосвязь между стабильностью и точностью на различных (максимальных) глубинах.

Доказательство устойчивости к отравлению данными в деревьях принятия решений

Во многих моделях машинного обучения небольшое изменение обучающих данных может сильно повлиять на прогнозирование результатов. Недавно Drews et al. [4] изучали эту проблему в контексте атаки, когда злоумышленник может повлиять на модель, внедрив ряд вредоносных программ. Они представили свои результаты в виде моделей дерева решений, которые в основном использовались в алгоритме случайного леса. Новый инструмент «Antidote» был представлен для проверки устойчивости данных учащихся дерева решений. Их подход кратко представлен на рисунке ниже.

Они оценили свою модель на многих наборах данных с результатами, представленными ниже, где представлена ​​часть тестовых примеров, доказавших свою надежность, по сравнению с параметром отравления n.

Масштабируемое и универсальное обнаружение социальных ботов посредством отбора данных

Широко используются социальные боты. Эффективная и надежная классификация социальных ботов очень важна для обнаружения манипуляций с информацией в социальных сетях. Недавно Yang et al. [5] предложили структуру, которая использует минимальные метаданные учетной записи, обеспечивая эффективный анализ, масштабируемый для обработки полного потока общедоступных твитов Twitter в режиме реального времени. Они обнаружили, что стратегический выбор подмножества обучающих данных дает лучшую точность и обобщение модели, чем исчерпывающее обучение на всех доступных данных. Генерация социального бота была достигнута с помощью случайного леса с 5-кратной перекрестной проверкой:

Поскольку случайный лес генерирует оценку от 0 до 1, пороговые значения, которые максимизируют точность и отзывчивость (с помощью метрики F1), получаются для перекрестной проверки или перекрестного тестирования. Следовательно, выбор порога зависит от наборов данных удержания, используемых для проверки.

Неоднородный косой случайный лес

Использование случайных лесов включает в себя деревья решений с одной функцией в узлах для разделения данных. Это разделение может не использовать внутреннюю структуру данных (например, геометрическую структуру), поскольку задействованы параллельные оси границы принятия решений. Katuwal et al. [6] недавно представили гетерогенный наклонный случайный лес, в котором наклонная гиперплоскость используется вместо гиперплоскости, параллельной оси. Деревья с такими гиперплоскостями могут лучше использовать геометрическую структуру для повышения точности деревьев и уменьшения глубины.

Их метод включает в себя несколько линейных классификаторов на внутренних узлах дерева, получение K разделов на основе гиперклассов, создание всех K разделов на основе всех.

Они проверили свой подход по нескольким моделям во многих известных базах данных и получили более высокую среднюю точность.

Детерминированное исключение для глубоких нейронных сетей с использованием составного случайного леса

Следующая работа относится к области глубокого обучения, где модели случайного леса были адаптированы для улучшения техники отсева. Santra et al. [7] предлагают метод, который детерминированно идентифицирует и завершает неважные соединения в нейронной сети (выпадение). Алгоритм случайного леса использовался для поиска неважных соединений, что привело к повышению точности набора данных MNIST:

Блок-схема их метода представлена:

где, как правило, различные шаги включают поиск двух полностью связанных слоев для выполнения исключения, построение вектора признаков на выходе двух слоев (путем создания составного вектора признаков) и поиск неважных составных объектов для их удаления.

Прогнозирование состояния здоровья пациентов с COVID-19 с использованием алгоритма случайного леса с усилением

Наконец, высокая популярность случайного леса позволяет использовать его также для прогнозирования COVID-19. Ивенди и др. [8] предложили тонко настроенную модель случайного леса, усиленную алгоритмом AdaBoost. Предлагаемая ими модель использует многие функции COVID-19 и имеет точность 94% и показатель F1 Score 0,86 для использованного набора данных.

Заключение

В этом посте мы познакомились с последними работами в области случайного леса. Случайный лес стал очень популярным в последнее время, где появилось много публикаций, которые также используются в практических и промышленных целях. Стабильность и сложность модели, по-видимому, имеют большое значение, где основные методы исследования включают методы отсева и ограничения стабильности. Кроме того, интеграция с глубоким обучением кажется частой для продвинутых моделей.

— — — — — — — — — — — — — — — — — —

об авторе

Барак Ор получил степень бакалавра наук. (2016), M.Sc. (2018) степени в области аэрокосмической техники, а также степень бакалавра наук. по экономике и менеджменту (2016, диплом с отличием) Техниона, Израильского технологического института. Он работал в Qualcomm (2019–2020 гг.), Где в основном занимался машинным обучением и алгоритмами обработки сигналов. В настоящее время Барак учится на докторскую степень. в Университете Хайфы. Его исследовательские интересы включают сочетание сенсоров, навигацию, машинное обучение и теорию оценки.

Www.Barakor.com | Https://www.linkedin.com/in/barakor/

— — — — — — — — — — — — — — — — -

использованная литература

[1] Брейман, Лео. «Случайные леса». Машинное обучение 45.1 (2001): 5–32.

[2] Ван, Цянь-Вэй, Лян Ян и Ю-Фэн ​​Ли. «Учимся на слабых данных: экспедиция в глубоком лесу». AAAI. 2020.

[3] Ранзато, Франческо и Марко Занелла. «Абстрактная интерпретация классификаторов ансамбля деревьев решений». Материалы конференции AAAI по искусственному интеллекту. Vol. 34. №04. 2020.

[4] Дрюс, Самуэль, Авс Албаргути и Лорис Д’Антони. «Доказательство устойчивости деревьев решений к отравлению данных». Труды 41-й конференции ACM SIGPLAN по разработке и реализации языков программирования. 2020.

[5] Ян, Кай-Ченг и др. «Масштабируемое и универсальное обнаружение социальных ботов посредством отбора данных». Материалы конференции AAAI по искусственному интеллекту. Vol. 34. №01. 2020.

[6] Катувал, Ракеш, Поннутураи Нагаратнам Сугантан и Ле Чжан. «Неоднородный косой случайный лес». Распознавание образов 99 (2020): 107078.

[7] Сантра, Бикаш, Ангшуман Пол и Дипти Прасад Мукерджи. «Детерминированный отсев для глубоких нейронных сетей с использованием составного случайного леса». Письма о распознавании образов 131 (2020): 205–212.

[8] Ивенди, Селестин и др. «Прогнозирование состояния здоровья пациента COVID-19 с использованием алгоритма случайного леса с усилением». Границы общественного здравоохранения 8 (2020 г.): 357.