Руководство по аутсорсингу без ущерба для качества данных

Чтобы группы по анализу данных могли передавать аннотации на аутсорсинг управляемому поставщику рабочей силы, также известному как аутсорсинг бизнес-процессов (BPO), они сначала должны иметь инструменты и инфраструктуру для хранения и управления данными обучения. Инструменты и инфраструктура управления данными должны поддерживать группы по управлению продуктами НИОКР, группы по маркировке, переданные на аутсорсинг, а также группы внутренней маркировки и проверки, работающие вместе в едином централизованном месте с полностью прозрачным надзором.

Масштабирование с помощью предметной экспертизы

Существует прямая зависимость между объемом ваших тренировочных данных и размером вашей аннотационной группы. Альтернативой масштабированию вашей рабочей силы для аннотаций за счет аутсорсинга является наем внутренней группы этикетировщиков. Хотя это дорогой вариант, иногда это единственный вариант. Например, для масштабирования конфиденциальных данных обучения, таких как медицинские данные, с защитой HIPAA, может потребоваться исключительно внутренняя маркировка персонала. Продолжая этот пример, медицинские данные, такие как компьютерная томография, должны быть помечены радиологами, которые обладают необходимыми медицинскими знаниями для правильной интерпретации данных.

Обеспокоенность аутсорсингом работы по маркировке, требующей специальных знаний в предметной области. заключается в том, что BPO не сможет предоставить специализированных этикетировщиков. Хотя есть веские причины скептически относиться к аутсорсингу сложных или нишевых наборов данных, BPO охватывают удивительно широкий спектр знаний в предметной области, и, проведя небольшое исследование, вы можете найти службу, которая предлагает специализированную службу аннотаций, способную пометить ваш набор данных в нужном месте. часть стоимости найма внутренней команды.

Грант Осборн, технический директор Gamurs, комплексной платформы сообщества киберспорта, основанной на искусственном интеллекте, описывает процесс принятия решений, связанный с использованием функции аутсорсинга Labelbox для масштабирования аннотаций в конкурентной игровой индустрии. Gamurs разрабатывает тренера по ИИ для профессиональных игроков в видеоигры. Тренер по ИИ поможет повысить производительность игроков, изучая аналогичные примеры, в которых игроки неэффективны, и предложит способы повышения производительности игрока.

Первоначально Грант рассматривал возможность краудсорсинга игроков из своих крупных социальных сетей, чтобы обозначить их любимые игры по выбору. Сначала он изучил ряд популярных инструментов краудсорсинга, но быстро отверг этот вариант, поскольку их доход исходит от аннотаций.

«Эти инструменты взимают плату за хранение в зависимости от количества ограничивающих рамок. А поскольку у нас будут миллионы лейблов, такая структура ценообразования непрактична ».

Затем он подумал о том, чтобы создать дешевый собственный инструмент и нанять внутреннюю команду этикетировщиков, пока не поговорил с Брайаном Ригером, соучредителем и главным операционным директором Labelbox. Гамурсу нужна была платформа для загрузки и управления изображениями нескольких игр с обнаружением объектов. В отличие от других коммерческих инструментов маркировки, структура ценообразования Labelbox основана на трехуровневой системе: бесплатный, бизнес и корпоративный. Уровни подписки классифицируются по количеству проектов машинного обучения и размеру набора данных. Эти уровни различаются по цене и доступу к определенным функциям платформы.

«Мне больше всего нравится в Labelbox простота API. API, ориентированный на разработчиков, упрощает создание моделей ».

«Нам требовалось решение для конвейера машинного обучения, и Labelbox был им!» - Грант Осборн, технический директор GAMURS

Неудивительно, что Грант изначально сомневался в том, чтобы передать специализированные игровые действия по Dota2 или League of Legend на аутсорсинг BPO. «Мы хотели иметь внутреннюю группу маркировки, потому что действия компьютера сложны. Как мы собираемся использовать стороннюю компанию для маркировки простых объектов, таких как знаки остановки и деревья, для маркировки наших игр? Тем не менее, партнеры Labelbox по BPO посоветовали нам просто прислать руководство, и они позаботятся о том, чтобы подготовить специальную команду по аннотациям ».

«Labelbox порекомендовал два BPO, которые лучше всего соответствовали бы нашим потребностям, и сказал, что их будет больше, если мы будем заинтересованы. По оценкам BPO, для полного обучения всех потребуется ~ 3-4 недели. Хотя эта оценка была немного оптимистичной относительно сложности материала, они смогли завершить цикл обучения примерно за 4–5 недель ». Несмотря на кардинально разные расценки стоимости двух BPO (одна - 1,5–2 цента за ограничивающую рамку, а другая - 10–12 центов за ограничивающую рамку), Gamurs все же решила использовать сочетание обоих BPO с командой из 20 человек. от первого и группа из 10 этикетировщиков со второго.

«Мы, вероятно, сделаем комбинацию BPO в зависимости от их сильных сторон в каждой игре. Мы заставим их прийти к согласию, и если один BPO лучше справляется с контролем качества, но медленнее при маркировке, мы будем использовать их для перекрестной проверки работы другой команды ».

Масштабирование с качеством данных

Обратное заблуждение при аутсорсинге экспертизы предметной области состоит в том, что все специалисты по маркировке равны, когда дело доходит до аннотирования чрезвычайно простого набора данных. Эта точка зрения часто преуменьшает важность качества данных при маркировке. Прочтите раздел Что такое тыква?, чтобы узнать, как обучение модели обнаружения глубоких сверточных объектов для определения чего-то столь простого, как тыква, на самом деле намного сложнее, чем вы можете предположить. Даже при простых задачах создания меток для обеспечения качества данных вы должны иметь возможность контролировать согласованность и точность меток в разных аннотаторах и во времени.

Масштабирование этикеток без ущерба для качества данных требует прозрачности всего конвейера этикетирования. Команды специалистов по анализу данных, которые передают данные на аутсорсинг локальным внутренним инструментам, часто отправляют данные в несколько различных служб аннотаций, где маркировка происходит локально, иногда в разных странах, и специалисты по данным должны полагаться на этих специалистов по маркировке при отправке файла по электронной почте или по электронной почте. для загрузки акробатических трюков через Dropbox.

Как следствие, данные становятся фрагментированными, дезорганизованными и трудными в управлении, что делает их уязвимыми для проблем с безопасностью данных, качеством данных и управлением данными. Чтобы отслеживать точность маркировки и согласованность аутсорсинговых услуг в режиме реального времени, такие компании, как SomaDetect, переключаются с управления своим персоналом по аннотации с помощью собственного инструмента на управление им через Labelbox. Labelbox - лучший в мире инструмент для интеграции ваших внутренних групп по маркировке и проверке с вашей аутсорсинговой командой в одном централизованном месте.

Не все этикетировщики равны

Факторы, отличающие аутсорсинг, выходят далеко за рамки только предметной экспертизы, которую он обслуживает. Labelbox вручную отобрал лучшие BPO-компании по следующим критериям:

  • Прозрачность ценообразования
  • Качественное обслуживание клиентов
  • Разнообразие размеров компании, регионов обслуживания, диапазона навыков и стилей взаимодействия

Мы поговорили с Майклом Вангом, инженером по компьютерному зрению в Companion Labs, который рассказал нам о своем опыте аутсорсинга на Labelbox с одним из наших рекомендованных партнеров BPO. Он объяснил, почему аутсорсинг с привлечением специальной группы этикетировщиков, а не краудсорсинг случайных людей, занимающихся этикетированием, дает более качественные данные для обучения.

«Прямое соединение со специальной командой сторонних этикетировщиков поможет вам и вашим клиентам понять, как маркировать проект, и со временем этикетировщики станут лучше. При использовании случайных этикетировщиков вам каждый раз придется начинать обучение с нуля. Выделенные группы специалистов по маркировке приходят к пониманию вашего проекта, и когда вы что-то объясняете, это передается всей команде ». - Майкл Ван

Перед тем, как выбрать Labelbox, Companion Labs сравнила Labelbox с ведущим конкурентом, опробовав оба API службы маркировки с точки зрения показателей качества, времени и усилий для маркировки своего проекта. Майкл сказал, что у Labelbox более качественный аутсорсинговый пул, чем у известного конкурента, использующего краудсорсинг.

Когда его спросили, как он выбирает, с кем работать среди BPO-партнеров Labelbox, он объяснил, что Labelbox предоставил две рекомендации, которые он оценил как по показателям качества, так и по стоимости. «Оба поставщика были довольно хорошими с точки зрения качества, поэтому выбор сводился к стоимости».

Аутсорсинг на Labelbox

Управляемые услуги персонала часто являются важной частью успеха проекта искусственного интеллекта. Поэтому мы в Labelbox хотим, чтобы поставщики управляемых кадров могли предоставлять свои услуги максимально без проблем. С помощью Labelbox команды специалистов по анализу данных, аннотаторов и менеджеров по продуктам могут прозрачно управлять небольшими проектами и экспериментами, а также сверхбольшими проектами на единой платформе. Наша цель - сделать наших клиентов максимально успешными в своих проектах в области искусственного интеллекта. Нашими клиентами являются компании любого размера, создающие и использующие ИИ.

Мы работали со многими поставщиками управляемых кадров, и нам ясно, что лучшие поставщики выделяются среди остальных предоставляемыми ими услугами. и клиентоориентированность их бизнеса. Мы вручную выбрали партнеров по бизнес-стратегии, чтобы наши клиенты могли получать высококачественные услуги по маркировке непосредственно в рамках их проектов Labelbox.

В Labelbox ваши внутренние и внешние специалисты по этикетированию могут без проблем работать вместе над проектом этикетирования. Он настолько сплочен, что между ними буквально нет швов!

Легкий двухэтапный процесс

  1. Свяжитесь с одним из наших партнеров по персоналу, указанным здесь.
  2. Поделитесь с ними своим проектом, добавив их «идентификатор поставщика фирмы» (предоставленный партнером по персоналу).

Вот и все! Ваш проект будет отображаться как общий проект в учетной записи Labelbox партнера по персоналу, где они смогут добавлять и управлять своими собственными этикетировщиками в вашем проекте. У них будет доступ к аннотациям, просмотру аннотаций и управлению своими этикетировщиками. Самое приятное то, что ваша внутренняя команда сможет контролировать свою работу с полной прозрачностью. Для получения дополнительной информации ознакомьтесь с нашей документацией.

Начать работу с Labelbox

Посетите www.labelbox.com, чтобы бесплатно изучить Labelbox или поговорите с одним из членов нашей команды о корпоративном решении для вашего бизнеса.