Это пример комментариев к видео на YouTube на индонезийском языке. Это видео посвящено обзору смартфона Nubia. Как видите, сами комментарии могут быть выражены в сторону видео (первый комментарий) или в сторону товара (пятый комментарий), а также если посмотреть видео, то можно увидеть симпатичную девушку, говорящую о телефоне.

Как я объяснил выше, комментарий может относиться к видео или продукту, иногда содержать настроение (положительное или отрицательное), а иногда вообще не соответствовать контексту (не по теме) или содержать спам. Другие примеры индонезийского комментария в видеороликах с обзорами смартфонов можно увидеть ниже.

Итак, цель моего исследования — классифицировать индонезийские комментарии к видео на YouTube об обзорах смартфонов. Я классифицирую их по семи классам (Спам и Не по теме, объединенные в Неинформативные). Это исследование основано на Severyn, et al. research(2014), разница в том, что они используют английские комментарии (в том числе и о смартфоне), и я использовал базовое ядро ​​вместо SHTK (Shallow Syntactic Tree Kernel), потому что мой мозг до сих пор не может понять эту вещь (буду признателен, если вы объясните меня). О ШТК можно прочитать здесь. На изображении ниже показан ход моего исследования.

Я разбираю комментарий с помощью Google API v.3 с ограничением 100 комментариев на видео. Я собрал ровно 13638 комментариев к 206 видео, и все комментарии имеют самостоятельную маркировку на основе Uryupina, et al. исследования (2014).

Я использовал IPOSTAgger_v1.1 от Wicaksono, et al. (2010) для POS-тегера. Однако данные на индонезийском языке, который является менее поддерживаемой библиотекой, многодиалектом и огромным количеством сленга, затрудняют обработку по сравнению с английским (на мой взгляд). Извлечение функции 1 связано с обработкой комментариев, чтобы они соответствовали программе POS-тегера, а функция извлечения 2 — с подгонкой данных для каждого метода подхода. Методы, которые я использовал, аналогичны Severyn, et al. research(2014), а именно FVEC и STRUCT:

ФВЭК. Улучшенный метод набора слов с использованием некоторых групп функций: Word N-Gram с использованием uni-gram и bi-gram.Подсчет отрицаний для подсчета количества слов. в классе отрицания (используется для инверсии полярности комментария). Косинусное сходство для вычисления сходства между комментарием и его названием видео (указывается информативность комментария).

STRUCT: этот подход извлекает контекст комментария, разбивая его на части. Слова, относящиеся к продукту (камера, память) или видео (голос, музыка), заменяются на «ПРОДУКТ» или «ВИДЕО». Есть также шаблон фрагментации:

· {‹ПРОДУКТ›‹.*›?‹NN›}

· {‹ПРОДУКТ›‹.*›?‹JJ›}

· {‹ПРОДУКТ›‹SC›‹NN›‹.*›?}

· {<.*>?}

Если структура комментария соответствует шаблону фрагментации, часть, содержащая шаблон фрагментации «VP», будет передана на следующий шаг, а остальные будут удалены. Например, см. изображение ниже.

Чтобы превратить слова в вектор, я использовал традиционный TF-IDF. Для классификатора использовалась и тестировалась машина опорных векторов (SVM) с использованием четырех функций ядра. Поскольку я не использовал SHTK, в этом исследовании сравниваются четыре функции ядра для получения максимальной точности. Вот четыре функции ядра, которые я использовал:

Фаза тестирования разделена на две части с использованием набора тестовых данных и 10-кратной перекрестной проверки. Тестирование с использованием тестового набора данных, все данные разделены на половину для тестирования и половину для обучения. Вот дистрибутив:

Трудно сбалансировать данные, поскольку для этих текущих данных требуется 206 видео, в то время как поиск на YouTube становится менее относительным, когда вы ищете глубже (например, на странице 30 выше на странице поиска найден обзор Nokia 3310, который не является смартфоном). (Обновление за июль: YouTube изменил внешний вид, результат может быть другим).

Результат

Четыре ядра протестированы с использованием набора тестовых данных и перекрестной проверки. На изображении ниже показано сравнение четырех функций ядра.

В каждой группе линейное ядро ​​превзошло другие функции ядра при использовании подхода FVEC или STRUCT. Поскольку линейное ядро ​​​​обеспечивает наивысшую точность, давайте посмотрим на его производительность, используя точность (P), полноту (R) и оценку F1 (F1).

Похоже, что реализованный алгоритм с использованием функции ядра FVEC-Linear по-прежнему не может классифицировать класс Video-Neutral из-за отсутствия количества класса Video-Neutral в наборе обучающих данных. Хотя точность колеблется около 62%, я думаю, что это «нормально» по сравнению с Северином, который достигает точности около 60%.

Заключение и будущие работы

  1. Линейная функция ядра является лучшей с точностью 62,76% для комментариев на индонезийском языке.
  2. Создавайте более качественные фрагменты, поскольку Severyn и соавт. доказал, что STRUCT лучше.
  3. Добавьте больше независимых от видео данных.
  4. Добавить дополнительный домен (например, обзор компьютера, обзор ноутбука)
  5. Попробуйте использовать SHTK, может быть.

Ааанннддд… это все, что касается моей бакалаврской работы. Надеюсь, вам понравится моя вторая статья. Кроме того, я уже представил статью о своей диссертации, надеюсь, она будет принята. Если у вас есть какие-либо вопросы, предложения, критика или даже если вам нужен мой набор данных для исследовательских целей, я рад услышать или помочь вам, ребята. Я ценю любой ответ в моей статье :))).

Хорошего дня !