В связи с постоянно растущим объемом пользовательского и стороннего контента, который захватывает Интернет, организациям приходится постоянно модерировать то, что загружается. Но из-за того, что ежедневно транслируется огромный объем контента, большая его часть упускается из виду, что требует автоматизированных решений для выявления оскорбительных материалов или материалов, защищенных авторским правом.

В предыдущем сообщении в блоге мы познакомили вас с тем, что такое модерация контента и как можно решить некоторые конкретные варианты использования, используя управляемые AWS сервисы искусственного интеллекта, такие как Rekognition и Comprehend. Хотя эти сервисы обеспечивают простой и удобный способ решения некоторых основных задач модерации контента, они могут оказаться недостаточными для более сложных вариантов использования. Сложность этих вариантов использования может заключаться в данных и их мультимодальном характере, в процессе маркировки или даже в типе модели, которую необходимо обучить. В этом сообщении блога мы предоставим обзор передовых методов модерации персонализированного контента.

Пример более сложной модерации контента

Давайте начнем с примера более сложного варианта использования модерации контента, взятого из набора данных Facebook’s Hateful Memes Challenge. Предположим, мы хотим обнаружить ненавистнический контент в социальных сетях. Первое, что приходит на ум, — сначала извлечь текст из изображений, а затем выполнить анализ тональности текстового контента. Но такой подход не сработает, так как сочетание текстового и визуального контента становится ненавистным, а изображение и текст по отдельности вовсе не ненавистны.

Именно тогда на сцену выходит «контекстуализация» и возможность извлекать «контекстные признаки». Обучение модели на «контекстуализированных» признаках позволяет нам построить модель, которая успешно обнаруживает эти ненавистные мемы.

Виды вещей, которые могут усложнить модерацию контента

Мультимодальный контент

Как упоминалось в предыдущем разделе, обнаружение ненавистнических мемов в социальных сетях может быть классическим примером мультимодальной модерации контента.

Еще один интересный вариант использования, который обсуждался с нами одним из наших клиентов, — это возможность отслеживать мультимедийный канал связи между студентами и преподавателями в онлайн-курсе для обнаружения любого типа неправомерных действий. Варианты использования могут варьироваться от простого флирта до крайних случаев сексуального насилия.

Очевидно, что наиболее сложной частью проблемы является мультимедийная природа канала связи. Система модерации контента должна не только обрабатывать и анализировать текстовый, аудио- и видеоконтент сеанса, но и обнаруживать сложные случаи нарушения в случае, если инструктор или студент попытаются обойти основные механизмы обнаружения проступков.

Многоязычный контент

Наличие нескольких языков в текстовом вводе также может быть проблемой при работе с вариантами использования модерации контента. Самым простым подходом к решению этой проблемы было бы предоставление текстового контента готовым службам перевода и построение остальной части конвейера на основе переведенного вывода.

Использование контекстной информации для определения уровней субъективности и достоверности

По мере того как варианты использования модерации контента становятся все более и более сложными, использование дополнительной контекстной информации может помочь отличить случаи нарушения авторских прав от нормальных. Например, обнаружение объектов с уровнем достоверности 65% попадает в серую зону субъективного обнаружения нарушений. Однако, если мы примем во внимание такую ​​информацию, как прошлое поведение пользователя и послужной список, и поймем, что этот конкретный пользователь загрузил контент, нарушающий авторские права, в прошлом, весьма вероятно, что контент, загруженный пользователем, на этот раз нарушает кодекс поведения, поскольку хорошо.

Отсутствие размеченных данных

Хотя мультимодальность сама по себе является довольно сложной задачей и требует использования различных методов для решения неоднородной природы признаков из разных модальностей, проблема усугубляется тем фактом, что обычно недостаточно данных для обучения. Поэтому вертикальное масштабирование моделей глубокого обучения (просто добавляя больше слоев) не кажется осуществимым подходом. В результате некоторые усилия необходимо посвятить маркировке данных до разработки модели. Кроме того, применение таких методов, как предварительная обработка, обогащение и контекстуализация данных, поможет расширить ограниченные функции, которые можно извлечь из ограниченного числа обучающих выборок.

Способы создания решений для модерации контента

Вообще говоря, AWS позволяет вам следовать трем основным подходам к разработке решений машинного обучения.

  • Подход ML-as-a-Service (MLaaS). Этот подход не требует особых знаний о моделях машинного обучения и не требует никаких усилий для подготовки данных для обучения. Если ваш вариант использования позволяет адаптировать готовые сервисы (например, Amazon Comprehend, Amazon Translate и т. д.) для достижения вашей цели, это самый простой подход.
  • Подход с автоматическим машинным обучением. Этот подход основан на идее трансферного обучения, которое позволяет вам точно настроить существующую модель машинного обучения и настроить ее для своего варианта использования. Все, что вам нужно сделать, это подготовить данные для обучения, и обучение модели будет выполнено за вас. Такие сервисы, как Amazon Rekognition Custom Labels, являются примерами подходов Auto-ML, которые мы вскоре коснемся.
  • Подход с пользовательской моделью. Это наиболее гибкий, но в то же время наиболее трудоемкий подход к решениям машинного обучения. Вам необходимо иметь глубокие знания ML, а также способность подготавливать размеченные данные. Этот подход рекомендуется для случаев использования, которые не могут быть решены с помощью двух описанных выше подходов. Amazon Sagemaker позволяет создавать такие решения машинного обучения.

Сочетание нескольких подходов для решения сложных проблем с контентом

Основываясь на всех проблемах, упомянутых выше, мы предлагаем ряд различных подходов, которые могут помочь в создании эффективных систем модерации контента. В зависимости от варианта использования один или несколько этих подходов могут быть разработаны и реализованы для достижения желаемых результатов.

Сценарий 1 — Перевести и модерировать

Как упоминалось ранее, в случае работы с многоязычным контентом мы могли бы создать конвейер, который переводит контент не на английском языке с помощью сервиса AWS Translate, а затем запускает вывод в систему модерации. Кроме того, сервис AWS Translate выполняет некоторую базовую модерацию в рамках перевода, что может быть полезно для некоторых последующих приложений.

Сценарий 2 — Изображение в текст

Обнаружение упоминания брендов, защищенных авторским правом, — это пример использования, который мы пытались решить в рамках нашего взаимодействия с клиентом. Изучая примеры случаев нарушения авторских прав, мы поняли, что в некоторых случаях бренды и их упоминания можно обнаружить, просто извлекая текст из изображений. Все, что нам нужно было сделать, — это сверить извлеченный текст со списком брендов, против которых мы контролировали контент.

Тонкая настройка существующих моделей с помощью Auto-ML

Сценарий 3 — Обнаружение пользовательских объектов

Rekognition Customs Labels предлагает удобную платформу Auto-ML для построения модели машинного обучения, не требующей написания кода. Он поддерживает варианты использования машинного обучения, включая классификацию, сегментацию и обнаружение объектов. Основные усилия по обучению модели пользовательских меток Rekognition заключаются в добавлении аннотаций к обучающим данным, которые будут объяснены более подробно в разделе маркировки данных. После того как обучающие данные будут аннотированы, обучение модели можно будет выполнить так же просто, как нажать кнопку. Затем обученную модель можно было разместить и вызвать в AWS SDK.

Обучение пользовательских моделей с мультимодальными функциями

В этом разделе мы обсудим пользовательские модели машинного обучения, разработанные для решения определенной проблемы, которую невозможно решить с помощью подходов MLaaS или Auro-ML. Sagemaker обеспечивает поддержку большинства популярных сред машинного и глубокого обучения, таких как Tensorflow, Pytorch и MXNet, где специалисты по машинному обучению могут создавать свои собственные модели. Он также предлагает гибкость для создания моделей с использованием любой произвольной пользовательской библиотеки, которая не встроена в пользовательские образы докеров.

Сценарий 4 — Мультимодальная классификация (позднее слияние)

Обучение нескольких независимых моделей машинного обучения на различных модальностях — это метод, используемый некоторыми практиками машинного обучения, который помогает в создании более мощной модели в целом. Этот метод называется ансамблевым обучением и классифицируется как подход «позднего слияния» в том смысле, что мы объединяем результат нескольких моделей машинного обучения на поздних этапах процесса, рассматривая каждую модель как черный ящик. Объединение результатов двух моделей с использованием механизма голосования может дать мощную ансамблевую модель.

Сценарий 5 — Мультимодальная классификация (раннее слияние)

В отличие от описанного выше метода позднего слияния, в подходе «раннее слияние» функции из различных модальностей (например, текст, изображения, поведение пользователя) объединяются до обучения модели и «совместного обучения» модели на смеси функции выполняются. Прекрасным примером таких вариантов использования является проблема ненавистных мемов, описанная ранее, когда модель должна быть обучена на комбинированных визуальных и текстовых функциях, и подход позднего слияния не будет работать в таком сценарии.

В частности, модели, сочетающие текстовые и визуальные функции, называются визуальными языковыми моделями, которые опираются на сложную структуру модели для совместного обучения текстово-визуальным функциям. Примерами таких моделей являются MMF, ViLBERT. Совместные модели обучения мультимодальным функциям могут быть расширены и обобщены за пределы текстовых и визуальных функций, а функции любой произвольной модальности могут быть использованы для повышения различительной способности модели машинного обучения.

Маркировка данных для обучения модели

Пользовательские метки Rekognition и Ground Truth

Пользовательские метки предоставляют пользовательский интерфейс для маркировки данных обучения, а также для подготовки разделения обучения/тестирования. Он использует тот же пользовательский интерфейс, что и Ground Truth, что позволяет при необходимости распределять работу по маркировке между членами команды.

Краудсорсинг с помощью Mechanical Turk

Если размер обучающего набора данных превышает определенный уровень, Custom Labels и Ground Truth предоставляют возможность создания краудсорсинговых заданий, которые могут быть помечены с помощью этикетировщиков Amazon Mechanical Turk. Если вы очень строго относитесь к качеству размеченных данных, Amazon также предлагает премиальную услугу Ground Truth Plus, где вы определяете свои требования к маркировке, а Amazon следит за всеми этапами процесса маркировки.

Добавление шага проверки человеком

Как объяснялось в нескольких примерах использования, полностью автоматическая модерация контента может быть немного сложной, и поэтому может быть важно добавить шаг проверки человеком поверх результата модерации машинного обучения. AWS Sagemaker предлагает эту функцию под названием «Расширенный ИИ», с помощью которой можно определить человеческий цикл, чтобы обеспечить проверку обнаружения с помощью службы машинного обучения. Потоки человеческого цикла могут быть определены для встроенных сервисов AWS, таких как Textract и Rekognition, а также для пользовательских моделей, созданных с помощью Sagemaker.

Заключение

Модерация контента — это область, которая быстро развивается, учитывая огромное количество контента, создаваемого на платформах социальных сетей и в сложном мире Интернета. Модерация контента сложна из-за его субъективного характера, а также различных информационных аспектов, связанных с выполнением автоматизированной модерации. В этом блоге мы обсудили, как можно использовать различные подходы машинного обучения для модерации контента. Решение для модерации может быть разработано путем простого объединения готовых сервисов машинного обучения. Для более продвинутых вариантов использования использование трансферного обучения и точная настройка предварительно обученной модели могут привести к созданию желаемой модели — подход, который называется Auto-ML. Более того, в тех случаях, когда необходимо использовать более сложные функции или архитектуру модели, пользовательскую модель можно обучить с нуля, которая соответствует потребностям конкретного варианта использования, с которым имеет дело пользователь.

Рекомендации

[1] Как AI и ML могут защитить модераторов и пользователей от вредоносного контента?

[2] Вызов ненавистных мемов в Facebook

[3] Мультимодальная автоматизированная модерация контента

[4] Лу, Цзясен и др. «Вилберт: предварительная подготовка зрительно-лингвистических представлений, не зависящих от задач, для задач на зрение и язык». Достижения в области нейронных систем обработки информации 32 (2019).

[5] Фейсбук ММФ