Основная цель Zencity - преобразовать данные в четкие и действенные идеи для клиентов из местных органов власти. Для этого у нас должны быть данные высокого качества и их много. Это может быть особенно сложно из-за большого количества городов, округов и правоохранительных органов, с которыми мы работаем, каждый из которых генерирует уникальные данные и каждый со своими конкретными потребностями и интересами.

Человек в петле в Zencity

Чтобы справиться с этой задачей, мы используем тренинг Человек в цикле для наших моделей тональности и категоризации Обработка естественного языка (НЛП). Наша модель настроений используется для оценки удовлетворенности, неудовлетворенности или нейтралитета по отношению к определенной проблеме, а наша модель категоризации сортирует элементы по одной из наших более 80 специализированных категорий, связанных с местными органами власти. например, общественная безопасность или содержание дорог.

Для каждого элемента данных, который мы обрабатываем, такого как сообщение или комментарий в социальных сетях, или статья на новостном веб-сайте, соответствующая модель будет давать метку прогноза. Некоторые элементы затем передаются на рассмотрение человеку, в котором человек-аннотатор либо одобряет, либо изменяет метку. Эти одобренные этикетки используются в нашем продукте, обеспечивая высокое качество данных, а также используются для обучения модели, помогая модели учиться на собственных ошибках. Используя этот метод, мы повышаем точность нашей модели, что является ключом к повышению ценности для наших клиентов. Высокая точность модели позволяет нам быть уверенными в своих выводах.

Однако одна из проблем этого подхода «человек в цикле» - это знание точного вклада каждого человека-аннотатора - и знание этой информации важно для эффективности и, в конечном итоге, для повышения ценности ваших клиентов. Вам нужно «оставаться в курсе» и следить за тем, чтобы процесс аннотации был максимально эффективным.

Оценка человеческого вклада

Самый распространенный способ оценить человеческий вклад - просто проверить точность аннотаторов, хотя такого подхода не всегда достаточно. Вот почему мы также включаем в нашу работу дополнительные полезные показатели, такие как Индекс надежности (RI) и оценки достоверности моделей, чтобы оценивать и повышать вклад человека в нашу систему.

Индекс устойчивости как показатель качества аннотации

Индекс устойчивости - это простой показатель, который позволяет нам количественно оценить вклад аннотаторов с дополнительной точки зрения. Это общая статистика устойчивости, которая в нашем случае учитывает количество положительных вкладов по сравнению с отрицательными на этапе аннотации. Положительный вклад происходит, когда аннотатор правильный, а модель неправильная, что означает, что аннотатор «помогает» модели. В то время как отрицательный вклад возникает, когда модель правильная, а аннотатор неправильный, это означает, что аннотатор "ухудшает" производительность модели, а не улучшает ее. Все остальные случаи, когда и модель, и аннотатор верны или оба неверны, игнорируются.

Изучение количества отрицательных и положительных отзывов может помочь нам получить полную картину эффективности каждого аннотатора и подробно оценить вклад каждого аннотатора. Сам индекс устойчивости рассчитывается по формуле:

Значения RI находятся в диапазоне от -1 до 1, где -1 означает, что аннотация имеет полностью отрицательный вклад в систему, 0 означает, что вклад отсутствует, а 1 означает полностью положительный вклад. Уведомление о RI, равном 0, может быть получено либо из тех же точных прогнозов, либо если n + равно n-. Желаемые оценки устойчивости для каждого из аннотаторов, конечно, положительны, и чем выше оценка, тем лучше. Поскольку вклад каждого аннотатора рассчитывается путем исправления неточных прогнозов модели, оценка по-прежнему ограничивается количеством ошибок модели. Чтобы упростить расчет, можно пометить только те элементы, для которых прогнозы модели и аннотатора различаются, что упрощает расчет по сравнению с точностью.

Используя этот показатель, мы смогли оценить и сравнить вклад наших комментаторов, что сыграло ключевую роль в принятии решения, какие данные отображать для наших пользователей. Как показано в Таблице 1, мы можем быть уверены, что 7 из 10 аннотаторов предоставляют качественные аннотации из-за их положительного RI. Для трех аннотаторов с отрицательным RI мы просто игнорируем их аннотации на панели инструментов продукта и исключаем их аннотации из наборов данных для обучения модели.

Таблица 1: Значения индексов устойчивости различных аннотаторов

Использование оценок достоверности модели для повышения точности

Оценки достоверности модели предоставляют информацию о надежности каждого из прогнозов модели. Обычно это десятичное число от 0 до 1, которое можно интерпретировать как процент уверенности - или насколько уверена модель в своем прогнозе.

Дополнительный подход к оценке качества аннотаций - это проверка точности системы Human-in-the-Loop, описанной на диаграмме 1 выше, в отношении оценок достоверности модели. Путем измерения точности, полученной путем предоставления аннотаторам возможности аннотировать только до определенной оценки достоверности, можно найти оптимальный порог оценки достоверности. Точность следует рассчитывать путем объединения двух частей - ниже и выше порога. Полная точность достигается за счет объединения точности аннотатора ниже порога и точности модели выше порога.

В примере, показанном на Графике 1, точность достигает плато и не увеличивается с определенного показателя достоверности, равного 0,6, что означает, что этап аннотации не влияет на элементы с высокой степенью достоверности. Эту оценку можно установить как порог, чтобы прогнозы модели с более высокой оценкой, чем этот порог, не аннотировались вручную. Вместо этого будет использоваться сам прогноз модели. Сохраняя ту же точность, мы сокращаем усилия по аннотированию элементов с показателем достоверности выше 0,6.

График 1: Точность для различных моделей достоверности; точность выходит на плато с определенного балла

Приведенный выше пример показывает нам, что установка порогового значения на основе наших данных может сэкономить нам время и предотвратить ненужные усилия по аннотации. В некоторых случаях это также может привести к более высокой общей точности комбинированной системы, как видно на Графике 2. Последнее будет иметь место в тех случаях, когда прогнозы модели для элементов с высокой степенью достоверности больше точнее, чем результаты аннотаторов для этой группы. Это отличный пример того влияния, которое мы можем оказать, создавая результаты, основанные на данных, на основе наших собственных данных.

График 2: Точность для различных моделей достоверности; точность достигает пика для определенного среднего балла

В примере, показанном на Графике 2, точность достигает своего пика для определенной достоверности и уменьшается, когда аннотаторы помечают элементы с высокой степенью достоверности. В этом случае процесс аннотации имеет отрицательный вклад, если он включает элементы с высокой степенью достоверности! Это означает, что аннотаторы ухудшают производительность системы, но это видно нам только в том случае, если мы проверим точность как функцию оценок достоверности модели.

На первый взгляд, общий вклад аннотаторов кажется положительным, поскольку точность аннотаторов выше, чем точность одной модели. Но на практике отрицательный эффект присутствует для элементов с высокой степенью достоверности, и мы можем использовать порог, чтобы получить более высокую точность, а также уменьшить усилия по аннотации. Таким образом, мы получаем два основных преимущества: улучшаем взаимодействие с пользователем и экономим время, повышая эффективность. Как видно на графике, если мы используем порог 0,7, мы получаем максимально возможную точность для этой системы, и в дополнение к этому мы экономим затраты на аннотирование элементов с уверенностью выше 0,7.

Путем дальнейшего исследования качества аннотаций с использованием показателей достоверности моделей мы можем настроить систему для повышения производительности наших моделей и более эффективного использования усилий по аннотации.

Метрики для более качественных данных о взаимодействии с сообществом

Подводя итог, можно сказать, что использование индекса надежности и оценок достоверности модели - это эффективный способ проверить, где человек в петле помогает, снижает или даже потенциально ухудшает качество обслуживания клиентов. Как только вы определите эти точки, вы сможете выполнить корректировку, чтобы принимать оперативные решения с помощью данных.

В Zencity мы используем этот тип анализа для определения порога достоверности модели, при достижении которого наша человеческая команда перестает активно вносить свой вклад, и для обеспечения того, чтобы модель просто обрабатывала все элементы, превышающие порог плато. Вы можете использовать эту информацию для набора аннотаторов с высокими оценками вклада в целом, как и мы, или, возможно, это может быть признаком того, что аннотаторы-люди нуждаются в дополнительном обучении по определенным типам элементов данных.

В любом случае использование разнообразных показателей, чтобы убедиться, что люди в цикле дополняют модели, может помочь высвободить ресурсы, обеспечить более высокую точность, повысить эффективность вашей работы в целом и, что наиболее важно, улучшить качество обслуживания клиентов. Например, используя наши знания о пороге достоверности модели, в Zencity нам удалось добиться максимальной точности в каждой точке. Это означает более качественные данные для наших клиентов. Когда ваши сотрудники будут проводить время там, где это наиболее важно, клиенты будут вам благодарны.