5 обязательных к прочтению статей по категоризации продуктов для специалистов по анализу данных

Категоризация продуктов / классификация продуктов - это организация продуктов по соответствующим отделам или категориям. Кроме того, большая часть процесса - это разработка таксономии продукта в целом.

Изначально категоризация продуктов представляла собой задачу классификации текста, в ходе которой анализировалось название продукта для выбора соответствующей категории. Однако было разработано множество методов, которые учитывают название продукта, описание, изображения и другие доступные метаданные. Следующие ниже документы по категоризации продуктов представляют собой важную литературу в данной области и предлагают новые подходы к задачам классификации продуктов.

1. Не классифицируйте, а переводите

В этой статье исследователи из Национального университета Сингапура и Технологического института Ракутен предлагают и объясняют новый подход машинного перевода к категоризации продуктов. В эксперименте используются наборы данных Rakuten Data Challenge и Rakuten Ichiba. Их метод переводит или преобразует описание продукта в последовательность токенов, которые представляют собой путь от корня до листа к правильной категории. Используя этот метод, они также могут предложить новые значимые пути в таксономии.

Исследователи заявляют, что их метод превосходит многие существующие алгоритмы классификации, которые сегодня широко используются в машинном обучении.

Опубликовано / Последнее обновление - 14 декабря 2018 г.

Авторы и соавторы - Мэгги Юнди Ли (Национальный университет Сингапура), Стэнли Кок (Национальный университет Сингапура) и Лилинг Тан (Технологический институт Ракутен)

"Прочитай сейчас"

2. Масштабная категоризация названий продуктов на японском языке с использованием моделей нейронного внимания

Авторы этой статьи предлагают модели сверточной нейронной сети внимания (ACNN) по сравнению с базовыми моделями сверточной нейронной сети (CNN) и классификаторами градиентного дерева (GBT). В качестве данных для обучения в исследовании используются названия продуктов на японском языке, взятые из Rakuten Ichiba. Используя эти данные, авторы сравнивают эффективность трех методов (ACNN, CNN и GBT) для крупномасштабной категоризации продуктов. Хотя разница в точности может составлять менее 5%, даже незначительное улучшение точности может привести к миллионам дополнительных правильных категоризаций.

Наконец, авторы объясняют, как ансамбль моделей ACNN и GBT может дополнительно минимизировать ложные категоризации.

Опубликовано / Последнее обновление - апрель 2017 г. для EACL 2017

Авторы и участники - из Технологического института Ракутен: Янди Ся, Аарон Левин, Прадипто Дас Джузеппе Ди Фаббрицио, Кейджи Шинзато и Анкур Датта

"Прочитай сейчас"

3. Атлас: набор данных и эталон для классификации товаров одежды для электронной торговли.

Исследователи из Университета Колорадо и компании Ericsson Research (Ченнаи, Индия) создали большой набор данных о продуктах, известный как Atlas. В этом документе команда представляет свой набор данных, который включает более 186 000 изображений продуктов одежды вместе с названиями продуктов. Кроме того, они знакомят с работой в той области, которая повлияла на их учебу. Наконец, они тестируют свой набор данных, используя модель классификации Resnet34 и модель Seq to Seq для категоризации продуктов. Данные взяты из индийских магазинов электронной торговли, поэтому некоторые из используемых категорий могут быть неприменимы к западным рынкам. Однако набор данных имеет открытый исходный код и доступен на Github.

Опубликовано / Последнее обновление - 19 августа 2019 г.

Авторы и соавторы - Венкатеш Умаашанкар (Ericsson Research), Гириш Шанмугам (Ericsson Research) и Адити Пракаш (Университет Колорадо)

"Прочитай сейчас"

4. Категоризация крупномасштабных продуктов с использованием структурированных и неструктурированных атрибутов.

В этом исследовании команда WalmartLabs сравнивает иерархические модели с плоскими моделями для категоризации продуктов.

Исследователи используют модели, основанные на глубоком обучении, которые извлекают функции из каждого продукта для создания сигнатуры продукта. В статье исследователи описывают подход, основанный на множестве LSTM и множественных CNN, к этой экстремальной задаче классификации. Кроме того, они представляют новый способ использования структурированных атрибутов. Команда заявляет, что их методы можно масштабировать, чтобы учесть любое количество атрибутов продукта во время категоризации.

Опубликовано / Последнее обновление - 1 марта 2019 г.

Авторы и участники - из WalmartLabs: Абхинандан Кришнан и Абилаш Амартхалури

"Прочитай сейчас"

5. Категоризация продуктов с несколькими этикетками с использованием мультимодальных моделей слияния

В этой статье исследователи из Нью-Йоркского университета и Банка США исследуют мультимодальные подходы к категоризации продуктов на Amazon. Их подход использует несколько классификаторов, обученных каждому типу входных данных из списков продуктов. Используя набор данных из 9,4 миллионов продуктов Amazon, они разработали трехмодальную модель классификации продуктов на основе изображений, названий и описаний продуктов. Их трехмодальная модель позднего слияния сохраняет оценку F1 на уровне 88,2%.

Результаты их исследования показывают, что увеличение количества методов может улучшить производительность при многокомпонентной категоризации продуктов.

Опубликовано / Последнее обновление - 30 июня 2019 г.

Авторы и соавторы - Пасави Вироджватанакул (Нью-Йоркский университет) и Артит Вангперавонг (Банк США)

"Прочитай сейчас"

В упомянутых выше статьях о категоризации продуктов исследователи обучили свои модели на открытых наборах данных, которые включали миллионы продуктов. Однако, если вы строите модель категоризации продуктов для коммерческого использования, многие открытые наборы данных могут быть вам недоступны.

Ищете данные обучения для вашей модели классификации продуктов? Ознакомьтесь с этим руководством по тренировочным данным и с этими открытыми наборами данных.

5 обязательных к прочтению статей по категоризации продуктов для специалистов по анализу данных

1. Не классифицируйте, а переводите

2. Масштабная категоризация названий продуктов на японском языке с использованием моделей нейронного внимания

3. Атлас: набор данных и эталон для классификации товаров одежды для электронной торговли.

4. Категоризация крупномасштабных продуктов с использованием структурированных и неструктурированных атрибутов.

5. Категоризация продуктов с несколькими этикетками с использованием мультимодальных моделей слияния

Вопросы по теме