Модерация контента в области машинного обучения

Генерация онлайн-контента теперь является синонимом социальных сетей, и это представляет собой проблему: как вы модерируете курирование контента и обеспечиваете его безопасность? В 2020 году более 3,6 миллиарда человек использовали социальные сети по всему миру, и, по прогнозам, к 2025 году это число увеличится почти до 4,41 миллиарда. Среди платформ социальных сетей по всему миру Facebook стала первой социальной сетью, количество зарегистрированных учетных записей которой превысило один миллиард, и в настоящее время имеет более 2,89 миллиардов активных пользователей в месяц. Как насчет популярности видео в Интернете? По состоянию на февраль 2020 года на YouTube каждую минуту загружалось более 500 часов видео. Это соответствует примерно 30 000 часов нового загружаемого контента в час. Количество часов видеоконтента на YouTube резко выросло на 40% в период с 2014 по 2020 год.

Фактически, онлайн-видео является одним из самых популярных цифровых видов деятельности во всем мире: 27 % пользователей Интернета просматривают более 10 часов онлайн-видео еженедельно в 2020 году. В 2021 году YouTube был одним из ведущих средств массовой информации и развлечений. брендов, стоимость которых превышает 47 миллиардов долларов США. От количества людей до количества контента в Интернете мы можем ясно видеть, что приведенные выше данные показывают рост использования социальных сетей и пользователей. В связи с этим бумом контента для брендов и компаний важно обеспечить безопасное онлайн-пространство для своих читателей. Именно здесь вмешивается модерация контента, чтобы гарантировать, что пользователи остаются защищенными от вредоносного контента, такого как разжигание ненависти, насилие, оскорбления и нагота.

Что такое модерация контента?

Модерация контента — это средство проверки, а также мониторинга пользовательского контента в Интернете. Цель состоит в том, чтобы обеспечить безопасную среду не только для бренда, но и для его пользователей. Платформы несут ответственность за мониторинг этого контента, чтобы убедиться, что он уместен и что соблюдаются заранее определенные правила. Также важно убедиться, что онлайн-поведение соответствует платформе и аудитории. Ответственность за отсеивание вредоносного контента (например, наготы и ненормативной лексики) огромна. Именно здесь машинное обучение становится необходимостью для поддержания чистоты сайтов. Машинное обучение может классифицировать контент и предварительно обрабатывать изображения, а также отсеивать нежелательный контент.

Определение ключевых проблем модерации контента

Бренды, законодатели и руководители социальных сетей осознают, что модерация контента — это огромная задача из-за огромного объема и охвата распространяемых данных, и ее невозможно легко выполнить только человеческим глазом. И проблема в том, что эти социальные платформы продолжают расти до миллиардов пользователей, производящих постоянный контент. Возникает вопрос: как модераторы успевают за этим растущим масштабом?

Из-за такого огромного распространения контента большинство модераторов платформ вынуждены прибегать к модерации реактивного контента, тем самым модерируя уже опубликованный контент. Кроме того, для мониторинга этого обширного контента требуется огромная рабочая сила. В 2019 году у Facebook было 15 000 штатных модераторов контента по всему миру, чтобы помечать вредоносный контент. Проблема в том, что даже если контент размещается на платформах в течение короткого промежутка времени, вредоносный контент все равно влияет на пользователей платформы. Еще одним соображением является то, что этим модераторам приходится постоянно фильтровать постоянный тревожный, а иногда и травмирующий контент, что обычно приводит к выгоранию модераторов.

Еще одна проблема, связанная с модерацией контента, заключается в определении соответствующих политик. Определить, когда и как удалять или помечать нежелательный контент, не переступая черту, ограничивающую свободу слова пользователей для участия в диалоге по их выбору, непросто. Давление на социальные платформы определенно велико, чтобы они быстро справлялись с оскорбительным контентом, но оказалось, что найти правильный баланс довольно сложно.

Значительная роль ИИ в модерации контента

Как вы отслеживаете огромное количество контента? Что ж, искусственный интеллект может сыграть решающую роль в точной модерации пользовательского контента. Это достигается с помощью алгоритмов машинного обучения, которые изучают существующие данные, что, в свою очередь, позволяет командам модераторов контента просматривать и принимать дальнейшие решения в этом процессе. ИИ внедряет автоматизацию в процесс модерации, что приводит к более быстрой доставке и безошибочным результатам. Обычно этот процесс проходит в два этапа: премодерация и постмодерация.

На этапах предварительной модерации ИИ может помочь пометить контент, требующий внимания со стороны модераторов-людей. Это можно сделать с помощью ключевых слов, обнаружения изображений или методов обнаружения объектов. На этапе постмодерации автоматизация может помочь пометить неприемлемый контент в соответствии с набором рекомендаций, позволяющих модераторам проверять помеченный контент и принимать соответствующие решения.

В целом, ИИ помогает комментаторам-людям работать более продуктивно и может помочь определить, какой контент должен быть повторно оценен модераторами-людьми, что сэкономит им массу времени и нервов.

Классификация типов модерации контента

Изображение и видео

Обнаружение объектов — это визуальный анализ, который может идентифицировать изображения. Это необходимо для того, чтобы иметь возможность идентифицировать целевые объекты, которые могут быть неприемлемыми на изображениях или в видео, которые не соответствуют стандартам вашей платформы. Методы включают использование различных алгоритмов, способных обнаруживать вредоносный контент изображения и точно определять его на изображении или видео. Когда дело доходит до модерации видео, требуется, чтобы все видео анализировалось от начала до конца или по сценарию. Методы компьютерного зрения проверяют каждый кадр, чтобы убедиться, что контент подходит.

Когда дело доходит до изображений и видео, основной проблемой являются большие размеры онтологий. Определение руководящих принципов для обнаружения неприемлемого контента не только требует много времени, но и не позволяет осуществлять поиск по всем меткам всех имеющихся изображений.

Текст

Понимание текста — это не только понимание написанного слова, но и понимание смысла этих слов. Классификация текста присваивает категории для анализа контекста или настроения текста в соответствии с такими метками, как положительный, отрицательный или нейтральный, обычно относящимися к тону текста; это называется анализом настроений.

Как компании, использующие искусственный интеллект, помогают в модерации контента?

Распознавание текста сцены (OCR) – это задача, которая включает в себя поиск и распознавание текстового содержимого, встроенного в изображения и кадры видео. Это, безусловно, может быть сложной задачей, особенно если у вас есть профессиональные изображения, которые содержат много текста, такого как конференции, слайды лекций, цитаты и т. д. OCR позволяет вам идентифицировать оскорбительный текст, объекты и части тела во всех типах неструктурированных данных. и модерировать соответственно.

Обработка естественного языка (NLP) используется для краткого описания текста, а также для извлечения эмоций, связанных с этим конкретным текстом. Эта задача выполняется путем обнаружения и распознавания текстового содержимого, встроенного в изображения (это также относится к видео). НЛП используется для того, чтобы компьютеры понимали человеческий язык. Это достигается с помощью таких методов, как фильтрация по ключевым словам, чтобы помечать и удалять оскорбительные выражения.

Визуальная модерация/модерация видео: ограничивающие рамки/многоугольники/ломаные линии/эллипсы/трехмерные кубоиды — наличие этих типов инструментов дает вам гибкость для обнаружения, определения местоположения и определения неуместных объектов на изображениях и видео. После обнаружения вы можете легко отслеживать объект по нескольким кадрам и последовательностям изображений, используя уникальные идентификаторы.

Автоматизация может предоставить вам различные инструменты с искусственным интеллектом и автоматизацию для ускорения процессов обнаружения. Вы можете интегрировать свои собственные модели машинного обучения, чтобы активировать автоматическую аннотацию данных. Это позволяет такой платформе, как Dataloop, использовать активное обучение для постепенного повышения точности ИИ, что в конечном итоге приведет к тому, что для обработки вариантов использования потребуется вмешательство человека. Еще одна возможность автоматизации — это автоматизация таких функций, как разрезание видеофайлов на отдельные кадры, выбор только элементов с высокой дисперсией для ручных аннотаций, улучшение качества изображения и видео, загрузка выборочных данных для обучения/тестирования набора. В целом автоматизация ИИ помогает поддерживать модераторов-людей, ускоряя процесс проверки.

Эффективная модерация контента с Dataloop

Что касается инструментов модерации контента, чем Dataloop превосходит конкурентов?

Мультимедийные и контент-приложения требуют больших объемов целевых данных практически в режиме реального времени, а это означает, что модели должны хорошо работать в масштабе и в различных средах. В Dataloop мы пытаемся сосредоточиться на объединении человеческих знаний и машинного обучения. Мы хотим, чтобы люди в режиме реального времени проверяли контент, чтобы убедиться, что вредоносный контент не выходит наружу. Dataloop ускоряет проекты машинного обучения, добавляя проверку человеком в непрерывный цикл, повышая вероятность успеха при перемещении модели из лаборатории и беспрепятственно перенося ее в реальный мир.

Как Dataloop снижает затраты и улучшает процесс?

Dataloop обеспечивает полуавтоматическую оценку модели.
Мы можем помочь вам создать вашу первую модель (даже предварительно обученные данные). Это уменьшит количество данных, которые необходимо просмотреть человеку.
Встроенные средства автоматизации для обеспечения быстрой работы, что, в свою очередь, экономит ваши деньги

Ключевые моменты, которые следует учитывать при инвестировании в платформу

Улучшенные инструкции/рекомендации: для обнаружения вредоносного контента. Это помогает определить проблемы и позволяет им сообщать о том, что необходимо пометить и аннотировать.
Больше автоматизации: инструменты с искусственным интеллектом и автоматизация ускоряют процесс обнаружения и улучшают категоризацию контента, созданного с помощью моделей. Предварительное аннотирование данных перед маркировкой человеком превращает процесс ручного аннотирования в простую задачу аудита. Команды по маркировке могут сэкономить около 60–90 % времени, затрачиваемого на каждую партию.
Надежный инструмент поиска: для помощи в поиске среди тегов больших тем на разных уровнях, что делает процесс более эффективным и действенным. Это позволяет вам найти то, чего нет в ваших данных, или какие пограничные случаи вы, возможно, пропустили. Создавая модель ИИ, вы строите систему связи между человеческими знаниями и машиной. Эта машина, по сути, ничего не знает, и единственный способ научить ее — кормить ее примерами. Вам также необходимо выяснить, предоставили ли вы модели все примеры и, если возможно, у вас есть некоторые случаи, которые недостаточно представлены в ваших данных.
Машинное обучение и человек в курсе: уменьшают усталость модератора и помогают обнаруживать больше объемов «плохого» контента. «Человек в цикле» ускоряет проекты машинного обучения, добавляя проверку человеком в непрерывном цикле, повышая вероятность успеха при перемещении модели из лаборатории и беспрепятственно перенося ее в реальный мир.

Подвела

Идти в ногу с пользовательским контентом будет по-прежнему сложно. Преимущество модерации вашего контента почти в режиме реального времени позволяет пользователям не отставать от ожидаемого наличия контента после публикации. В то же время зрители не будут подвергаться воздействию вредоносного или неприемлемого контента. Задача становится еще сложнее, когда вы пытаетесь масштабировать свой контент и пытаетесь убедиться, что ваши модераторы не перегорают. Но вы можете легко управлять им с помощью интуитивно понятной платформы Dataloop, которая предлагает широкий спектр инструментов с поддержкой искусственного интеллекта и автоматизации, которые ускоряют процессы обнаружения и улучшают категоризацию контента, созданного вашими моделями.

Платформы социальных сетей будут продолжать расти, и, естественно, будет расти и контент, создаваемый их пользователями. Крайне важно, чтобы эти платформы успешно управляли и модерировали созданный на них контент. Узнайте, как Dataloop помог LinkedIn, сети с более чем 740 миллионами пользователей в 200 странах, говорящих на десятках языков, модерировать свой контент.

Первоначально опубликовано на https://dataloop.ai 25 января 2022 г.

Модерация контента в области машинного обучения | Dataloop