Участвующие университеты будут структурировать данные листинга, чтобы помочь решить реальную проблему электронной коммерции.

После прошлогоднего успеха eBay снова проводит соревнование по машинному обучению в наборе данных электронной торговли списков eBay. Эта задача открыта для студентов колледжей и университетов, и победившей команде* будет предложена летняя стажировка 2021 года на eBay.

Мы приглашаем студентов начать использовать наш набор данных для решения реальной задачи электронной коммерции. Существует множество наборов данных, но основное внимание уделяется рекомендательным системам, оценке цен, компьютерному зрению, обработке естественного языка (NLP) и многому другому. Ни один из них не был в масштабе, относящемся к сопоставлению неструктурированных элементов с хорошо каталогизированными продуктами. Как и в прошлом году, мы искренне надеемся, что доступ к этому реальному набору данных побудит студентов к дальнейшему изучению области электронной коммерции и поиску новых подходов к решению сложных проблем, которые могут положительно повлиять на нашу платформу и услуги.

Соревнование

Проблема

Вопрос, к которому мы предлагаем учащимся обратиться, заключается в том, как идентифицировать два или более списков как относящиеся к одному и тому же продукту, поместив их в одну группу. Мы называем это эквивалентностью уровня продукта (PLE). То есть, если покупатель купил два товара из двух разных списков в одной группе и предположил, что товары находятся в одинаковом состоянии, он оценит, что получил два экземпляра одного и того же продукта. PLE определяется спецификациями производителя. То есть конкретные детали предложения, такие как состояние или местонахождение товара, следует игнорировать. Например, сломанный телефон и новый телефон с точно такими же характеристиками (марка, модель, цвет, объем памяти и т. д.) считаются эквивалентными уровням продукта, в то время как телефон золотистого и серого цвета той же марки и модели. не считаются Эквивалентным уровнем продукта.

Таким образом, цель состоит в том, чтобы произвести кластеризацию списков в соответствии с PLE. С математической точки зрения пусть L будет набором всех объявлений. Кластеризация C — это разбиение L на непересекающиеся подмножества:

В идеале все списки в каждой Ci являются эквивалентными уровням продуктов, а списки из разных кластеров не являются эквивалентными уровням продуктов.

Измеримая цель, оценка, формат представления и другие подробности доступны на EvalAI.

Данные

Набор данных состоит примерно из 1 миллиона избранных немаркированных публичных списков. Мы также предоставляем документ Annexure, в котором описываются столбцы и логика синтаксического анализа.

Приблизительно 25 000 из этих списков будут объединены eBay с использованием человеческого суждения («настоящая кластеризация»). Эти сгруппированные списки будут разделены на три группы: а) набор для проверки (приблизительно 12 500 списков), б) набор викторин (приблизительно 6 250 списков), в) тестовый набор (приблизительно 6 250 списков).

Набор для проверки предназначен для того, чтобы участники могли оценить свой подход. Участникам будут предоставлены анонимные идентификаторы и метки кластеров. Мы выпустим проверочный набор вместе с основным набором данных.

Данные викторины используются для подсчета очков в таблице лидеров. Тестовый набор используется как фактор для определения победителя. Для викторины и тестовых наборов данных участникам не будут предоставлены ни идентификаторы списка, ни метки кластера.

Хостинг

Конкурс будет проходить на платформе с открытым исходным кодом EvalAI. Студенты колледжей и университетов будут подавать свои заявки через EvalAI, которые будут оцениваться для подсчета очков в таблице лидеров. Пожалуйста, проверьте страницу испытания EvalAI для получения более подробной информации.

Временные рамки

Даты могут быть изменены, но ожидаемые сроки будут следующими:

24 августа 2020 г. — начало челленджа. Доступ к набору данных предоставляется. Мы начинаем принимать заявки через EvalAI и начинаем оценку.

1 февраля 2021 г. — завершение челленджа.

22 февраля 2021 г. — объявляем победителей.

Критерии участия и приз

Команды (не более 5 человек в команде) должны включать только студентов, заинтересованных в стажировке.

При условии соблюдения критериев приемлемости членам команды-победителя будет предложена стажировка летом 2021 года в eBay Inc. Программа стажировки eBay представляет собой сочетание реального опыта работы и надежной программы, дающей стажерам возможность познакомиться с различными вертикалями бизнеса, руководителями и сетевыми возможностями. Стажировка также станет отличной возможностью для студентов применить свои модели машинного обучения в реальных условиях.

Более подробная информация о критериях приемлемости участников, критериях получения приза стажировки, официальном соглашении о конкурсе и правилах конкурса, а также другие подробности доступны как часть пакета официальных правил конкурса. См. контактную информацию eBay ниже, чтобы получить официальный пакет правил конкурса.

Контактная информация eBay

Чтобы узнать больше о том, как принять участие в конкурсе и получить официальный пакет правил конкурса, обратитесь по адресу [email protected].

*Команды должны состоять не более чем из пяти человек

Первоначально опубликовано на https://tech.ebayinc.com 25 августа 2020 г.