Как построить анализ настроений в Твиттере с помощью Skyl.ai

Сотни миллионов людей охотно извергают свое мнение размером до 280 символов на пост и 6000 раз в секунду. Анализ настроений в социальных сетях, таких как Twitter, является очень эффективным и простым способом для аналитиков оценить реакцию потребителей на продукты и услуги. Использование машинного обучения необходимо для правильного сбора отзывов потребителей. Люди, просматривающие твиты, начиная от Где обитают дикие буйволы и заканчивая пламенными, проработанными политическими заявлениями, могут легко попасть в шум и пустоту в твиттере, особенно если бизнес просто хочет оценить отношение к конкретному продукту или услуге.

Твиты — это сообщения длиной до 280 символов, которыми пользователи могут делиться со своими подписчиками публично или в частном порядке. Из-за этого ограничения на количество символов твиты полезны для анализа текста. Анализ настроений — это процесс чтения и понимания множества твитов на тему и определения общей реакции на них целевой аудитории. Организации, которые могут извлечь выгоду из создания проектов по анализу настроений в Твиттере, варьируются от политических групп до потребительских брендов, влиятельных знаменитостей и фирм по связям с общественностью. К ним относятся новостные и медийные сайты, которые могут использовать технологию анализа настроений, чтобы отслеживать меняющиеся мнения об определенных законах, движениях и новых технологиях.

В прошлом многие компании использовали традиционные инструменты бизнес-аналитики для мониторинга социальных сетей. Однако это неэффективно, потому что традиционные инструменты бизнес-аналитики не могут справиться с настоящим анализом настроений, уловить сарказм или обработать и выучить новый сленг. Итак, вам понадобится модель или проект машинного обучения, который использует технологию обработки естественного языка, чтобы идентифицировать ключевые слова и фразы, интуитивно понимая отрицательный, положительный или нейтральный тон каждого твита.

Однако проект ML дорог и требует много времени для создания. Если руководитель проекта или исполнительный директор начинает проект с нуля, требуется большая специализированная команда ученых и аналитиков данных, чтобы создать инфраструктуру, передать процесс сбора данных на аутсорсинг, а затем очистить данные с помощью алгоритма или вручную. Этот процесс требует большого количества времени и ресурсов. После этого руководители проекта должны несколько раз переделать и перекомпилировать модель из-за ошибок и других несоответствий на этапе отладки, что в несколько раз увеличивает время и деньги.

Вот почему Skyl, революционная сквозная платформа машинного обучения, является лучшим инструментом для проектов по анализу настроений. Skyl упрощает процесс сбора данных, позволяя пользователям собирать данные из нескольких разных источников, таких как API, CSV, формы или даже совместное мобильное приложение. Как тип формы, так и ввод данных мобильного приложения могут быть выполнены как совместная Работа. Это означает, что менеджер может делегировать ввод данных и процесс маркировки, что снижает вероятность ввода неточных данных. Данные могут быть отправлены неспециализированным работникам, поскольку они были созданы с помощью настраиваемых инструкций и простого в использовании интерфейса, как показано ниже. Он также имеет одну вкладку для просмотра всех ваших данных с графиками и статистикой, позволяющей отслеживать данные, введенные в набор данных. Он также позволяет просматривать все данные в формате таблицы, позволяя просматривать все данные в режиме реального времени, позволяя пользователям просматривать и даже редактировать их. В этой модели мы использовали этот набор из 100 твитов, чтобы сделать модель. Эти твиты были взяты из приложения от heroku, облачной платформы, предоставляющей несколько услуг поддержки.

Далее следует часть проекта с маркировкой данных. Вы можете пометить его двумя разными способами: либо на основе формы, либо в мобильном приложении. Подобно сбору данных, маркировка на основе форм и маркировка мобильных приложений позволяют пользователям просматривать каждый твит и помечать его как положительный, отрицательный или нейтральный. В разделе маркировки данных Skyl.ai есть обзорная страница с категориями, количеством помеченных записей, выбросами в данных и тем, как далеко продвинулись разные соавторы в процессе маркировки.

Skyl также имеет последнюю страницу визуализации данных. Здесь пользователи могут видеть различные части набора данных. Эта страница предназначена для завершения набора данных и очистки данных, поскольку это последний шаг перед созданием подмножеств «наборов функций» данных перед их обучением. На этой странице выделяется такая информация, как наличие или отсутствие у данных меток, а также распределение данных и соответствующих меток. Здесь вы можете увидеть, является ли ваш набор данных полезным представлением набора данных о населении. Возможно, стоит подумать об изменении, если позитивных твитов больше, чем негативных.

Затем с помощью Skyl вы можете создавать наборы функций или подмножества набора данных, чтобы использовать их для обучения модели. Пользователи могут либо использовать стандартное случайное разделение 70:30 для набора функций, либо настраивать многие аспекты, например, извлекать данные или передавать поводы платформе для управления соотношением обучения и тестирования. Использование наборов признаков важно, потому что весь набор данных не будет полезен для создания точных моделей. Использование различных твитов и случайных подмножеств позволяет пользователям точно настраивать свои модели и делать их более точными, изменяя фрагменты данных, на которых алгоритм учится более эффективно.

Переменными для настройки в этом конкретном примере могут быть распределение положительных, отрицательных и нейтральных твитов, тематика тем или количество ретвитов и ответов пользователей твита.

Как только пользователь создаст наборы функций, он может перейти к обучению модели. Именно здесь создается и обучается модель. Здесь вы можете выбрать свой набор функций и имя, а также сделать пометки в описании модели. Это занимает некоторое время, однако для этой модели прошло всего 10 минут даже при 100 наборах данных в среднем из 20 слов. Skyl использует сверточные нейронные сети (CNN), которые представляют собой класс глубоких нейронных сетей. Это используется, потому что CNN изучают свою собственную информацию и настраивают свои собственные фильтры, используя статистику, которую в противном случае приходилось бы создавать вручную. Эта независимость от традиционной потребности в человеческом вмешательстве была большим преимуществом, поскольку этот процесс уменьшает предвзятость. Искусственные нейроны реагируют на стимулы в определенных областях и с перекрывающимися областями. Так они «учатся» распознавать закономерности.

После этого модель готова к развертыванию. Skyl.ai отображает сводку обучения, которая включает в себя графики того, как модель была обучена, чтобы показать, как точность, потеря, точность и отзыв изменились с течением времени. Описание наборов функций, а также позволяет увидеть и выбрать некоторые аспекты алгоритма, используемого для обучения модели. Затем он дает вам фрагменты кода, которые вы можете использовать для вызова модели на различных языках, включая java, python и ruby.

После развертывания вы можете отслеживать модель на странице мониторинга. Здесь вы можете увидеть данные в реальном времени о том, как модель взаимодействует с кодом. Он включает в себя разнообразную информацию, включая количество выводов, запросы, сделанные в минуту, точность и время, необходимое для принятия решения. И тогда вы сможете проанализировать, насколько хорошо модель работает для вашего конкретного проекта. При необходимости вы можете повторить этот цикл, чтобы сделать более качественную и точную модель.

Посетите skyl.ai, чтобы узнать больше о том, как создавать другие проекты по обработке естественного языка и компьютерному зрению!

Как построить анализ настроений в Твиттере с помощью Skyl.ai

Вопросы по теме