Лэй Инь

Сегодня мы подробно рассмотрим выступление Лей Инь, исследователя Alibaba и главы FashionAI из технического отдела Taobao, на фестивале Taobao TECH Festival in Silicon «Новый путь для электронной коммерции в сфере моды — технология FashionAI». Долина.

Рекомендательная технология

Поведение пользователя

Начнем с рекомендательной технологии. Во-первых, давайте посмотрим на рекомендации, основанные на поведении пользователей, которые включают клики, просмотр и покупательское поведение пользователей. Технология рекомендаций повышает эффективность пользователей при поиске товаров, что, в свою очередь, также способствует увеличению доходов компании. Когда эффективность рекомендаций повышается до определенной степени, могут появиться узкие места. Например, вы уже купили топ, поэтому система продолжает рекомендовать вам топы. Это довольно распространено и в последние годы подвергается резкой критике. Если система рекомендаций разработана исключительно на основе поведения пользователей, такие проблемы не редкость.

Портрет пользователя

Во-вторых, давайте посмотрим на портрет пользователя. Принято считать, что точные портреты можно составить с помощью пользовательских инсайтов. Но я всегда сомневался в этом. Возьмем, к примеру, покупку одежды. Вы можете получить данные о поведении пользователя, такие как данные о просмотрах, кликах и покупках. Но даже если вы сможете определить цвет кожи, рост, вес и параметры пользователя, этот пользовательский портрет будет не намного точнее предыдущего. Поэтому так называемые пользовательские инсайты и пользовательские портреты сегодня все еще очень приблизительны.

График знаний

В-третьих, мы также можем сделать график знаний, чтобы помочь с соответствующими рекомендациями. Например, если вы покупаете удочку, я порекомендую вам другие рыболовные снасти, или вы, наконец, купите другие автозапчасти, рекомендованные в результате покупки фар. Однако на сегодняшний день результаты недостаточно хороши, и многие трудности все еще существуют.

Вышеизложенное является общим соображением для технологии рекомендаций. Затем в поле рекомендаций по одежде давайте рассмотрим другие возможности. Каков основной критерий для руководства по покупкам в офлайн-магазине одежды? Критерием является связанная покупка. Если клиент покупает предмет одежды, это не учитывается в вашем вкладе. Но если вы побуждаете клиента купить еще одну вещь, это засчитывается в вашу производительность. Поэтому сопутствующие покупки очень важны. Ключевая логика этого — словосочетание. Мы видим, что когда мы реализуем рекомендацию в определенной области, у нас есть некоторая логика рекомендации, специфичная для этой области. Это логика, которая встречается в повседневной жизни.

Зачем восстанавливать отраслевые знания?

Чтобы давать точные и надежные рекомендации, нам нужно знать, как сопоставлять продукты с пользователями, а также с другими продуктами. Это непростая задача, потому что она требует большого количества предварительных знаний и опыта. Например, если мы хотим сочетать одежду, нам нужно как можно подробнее знать атрибуты одежды, а также элементы дизайна. Точность и детализация должны быть достаточными для надежного сопоставления.

Эту проблему, если рассматривать ее в более техническом смысле, можно описать как граф знаний. На таком графике у вас обычно есть много точек знаний, которые можно сопоставить с человеческим опытом или пользовательскими данными. Точки знаний в графе знаний генерируются в большей степени здравым смыслом. Например: я человек. Кто мои друзья? Кто мой босс? «Я» — это точка знания, порожденная здравым смыслом.

Другой метод называется экспертной системой. Например, многие знаменитости, которых мы понимаем как экспертов, будут накапливать профессиональный опыт. Эксперты существуют в каждой области, например, врачи в медицинской системе. Экспертная система, вероятно, широко использовалась ИИ до появления графа знаний.

Более низкий уровень в этих двух методах — это очки знаний, которые являются более базовыми. Если проблемы существуют в самих точках знаний, то отношения знаний, построенные на них, будут иметь проблемы. Тогда, когда на этой основе будут выполняться алгоритмы ИИ, результаты будут недостаточно хорошими. Это может быть одной из причин сложности реализации ИИ. Мы должны иметь мужество перестроить эту систему знаний.

Рассмотрим пример с Taobao. Верхняя часть этого рисунка – это система знаний операторов или проектировщиков. Это пример воротникового типа с различными круглыми, наклонными и темно-синими воротниками. Мы видим, что структура мозаичная и рассеянная. Раньше знания распространялись между людьми. Особенно в небольших кругах, таких как группы дизайнеров, все в порядке, если знание очень запутанно, если его можно передать. Например, рукописный текст врача может быть понятен другим врачам, но пациенты могут его не понять. На самом деле для общения между людьми используется много знаний, в том числе много двусмысленности и неполноты. Например, для стиля одежды один тег называется «стиль рабочего места», а другой — «нейтральный стиль». «Стиль рабочего места» и «нейтральный стиль» визуально не отличить. Если людям трудно различить, а точность машинного распознавания может превышать 80%, значит, что-то пошло не так.

В другом случае человек, который добавил тег, может не понимать эти стили. Приведем крайний пример: продавцы Taobao маркируют одежду. Какое-то время половина всей женской одежды маркировалась торговцами как «корейский стиль», но эта одежда вовсе не была «корейского стиля». Это потому, что одежда в корейском стиле хорошо продается, поэтому пишут, что она корейского стиля. Поэтому необходимо определять стиль непосредственно по изображениям, т.к. теги не всегда надежны.

Восстановление знаний, ориентированное на машинное обучение

За последние несколько лет мы узнали об операциях Taobao и Tmall, связанных с одеждой, и внесли некоторые коррективы, основываясь на оперативной информации нескольких изданий, но этого было недостаточно. В прошлом году мы провели конкурс FashionAI и сотрудничали с факультетом текстиля и одежды Гонконгского политехнического университета. Позже мы сотрудничали с Пекинским институтом модных технологий и Научно-техническим университетом Чжэцзян. На самом деле система знаний, предоставляемая экспертами по одежде, неосуществима, потому что нам нужна система знаний, ориентированная на машинное обучение. Машины должны интерпретировать двоичные данные, и принципы, которые мы обобщили, такие как полнота, неоднозначность и «визуальная неразличимость», должны соблюдаться, насколько это возможно.

Мы организуем разрозненные знания в соответствии с логикой деления. Например, для воротников мы разделяем их в соответствии с тканью, методом конструирования и линией края горловины соответственно, чтобы обобщить разбросанные точки знаний по нескольким измерениям. Раньше это был беспорядок, но, наконец, появится форма дерева. Разобрав общие атрибуты женской одежды, мы обнаружили в общей сложности 206 атрибутов, не считая открытых и постоянно расширяющихся атрибутов, таких как «популярные приемы дизайна». Эта «сортировка» намного сложнее, чем вы думаете. Это заняло от 3 до 4 лет. В дополнение к рассмотрению самих знаний также необходимо дополнительно исследовать сложность и необходимость сбора данных, соответствующих точкам знаний. Например, воротник костюма для женской одежды также можно разделить на 9 категорий, визуально почти неотличимых друг от друга. На данный момент достаточно придерживаться этой степени детализации для воротников костюмов в женской одежде, и дальнейшее подразделение не требуется.

Иногда трудно заранее определить, можно ли получить хорошую модель, изучив атрибут. В настоящее время определение атрибута требует нескольких итераций. Если обнаружена проблема с определением атрибута, нам нужно вернуться и переопределить его, затем повторно собрать данные и обучить модель до тех пор, пока модель не будет соответствовать требованиям. После восстановления знаний точность распознавания более десятка атрибутов в целом увеличилась на 20%, что является большим улучшением.

Теперь у нас есть 206 стилей женской одежды, 166 семантических цветов и систем знаний, таких как материалы, сценарии и температурные системы. Как определить цвета? Например, в модной индустрии «желтый» практически бессмыслен, а вот «лимонно-желтый» имеет смысл. Женская одежда лимонно-желтого цвета была популярна в прошлом году. Мы знаем, что цветовое пространство RGB имеет 256 × 256 × 256 возможных цветов, а таблица цветов Pantone содержит в общей сложности 2310 цветов, связанных с одеждой, но все цвета в таблице — это номера цветов, которые потребители не могут понять. Поэтому мы создали еще один слой из 560 цветов с соответствующей семантикой, который был задан совместно с Пекинским институтом технологии одежды. Однако он слишком разделен для группировки одежды по цвету. Поэтому мы создали еще один слой из 166 цветов с соответствующей семантикой, например, «лимонно-желтый» и «горчично-зеленый». На данный момент потребители могут понять эти цвета.

Есть еще много технических деталей, например, как бороться с освещением и хроматической аберрацией. Здесь я в основном фокусируюсь на восстановлении знаний для машинного обучения.

ИИ делает возможным большой проект по восстановлению знаний

Проблема возникает. У меня 206 стилей женской одежды. Если я буду собирать данные и обучать модели, как я смогу закончить? Более того, для корректировки определения может потребоваться несколько итераций.

Например, на рисунке это называется рукавами ветроуловителя. Для квалифицированного набора данных требуется от 3000 до 4000 изображений. Собрать достаточное количество качественных изображений — большая проблема. В 2016 году для создания высококачественного набора данных из 3 000–4 000 изображений необходимо было пометить более 100 000 изображений. В то время уровень удержания тегов составлял всего 1,5%. Метод в то время был похож на тот, что использовался в академическом сообществе, то есть искать среди множества изображений одним словом, а затем находить кого-то, кто пометит их. Скорее всего, вы не можете найти достаточно изображений с тегами рукава-дудочки. Изображения не имеют тегов, поэтому вы не можете их найти. Таким образом, восстановление знаний является действительно огромной проблемой. Ни у кого не хватило смелости сделать это раньше, потому что это вообще невозможно было сделать.

В 2016 году нам потребовалось 200 дней, чтобы завершить распознавание атрибутов. Это время включает время, потраченное на определение итераций. В 2017 году на это ушло 40 дней, а в 2018-м — 2,5 дня. Сейчас на это у нас уходит 15 часов. А к концу 2019 года мы планируем сократить время до 0,5 дня. Это огромное изменение. Около трех лет назад мы предложили «Обучение за несколько выстрелов». В то время немногие в академическом сообществе поднимали этот вопрос. Мы, однако, это уже испытали, потому что это то, с чем у нас были проблемы, и мы должны были начать решать это.

Предложенное академическим сообществом «обучение за несколько шагов» больше сосредоточено на том, как получить хорошую модель непосредственно из небольшого количества образцов. Путь мы выбрали другой, и мы сделали крюк. Я не могу сейчас вдаваться в подробности, но мы уже прошли этот путь.

Давайте посмотрим на первый набор изображений на рисунке ниже. Один из них называется воротником-бантом, а другой — воротником-пилотом, которые относятся к набору атрибутов женской одежды. Сегодня мы завершили 96 популярных атрибутов женской одежды, используя наш обучающий инструмент SECT (Small Enough Comprehensive Tool). Что наиболее важно, SECT не только сыграл роль в службах FashionAI, но также может использоваться для распознавания общего контента. Строго говоря, он хорошо справляется с такими задачами, как «простая классификация контента».

Что касается общего распознавания контента, мы использовали SECT для идентификации более 70 ярлыков, таких как «иллюстрация», «балкон» и «примерка обуви». Мы начали менять режимы работы бизнес-персонала и алгоритмического персонала. До появления глубокого обучения бизнес-персонал не осмеливался просить персонал алгоритмов предоставить модель распознавания, потому что цикл разработки слишком длинный. В то время, чтобы идентифицировать вещь, нам нужно было проконсультироваться с персоналом алгоритма, а затем персонал алгоритма вручную создавал атрибуты. В предыдущем рабочем режиме для создания модели, которую можно было бы разместить в сети и сделать доступной для отрасли, требовалось бы не менее шести месяцев или одного года. После того, как глубокое обучение стало более популярным в 2013 году, ситуация изменилась. При глубоком обучении бизнес-персоналу нужно будет только собрать достаточно изображений, а алгоритмический персонал разработает хорошую модель. Если эта модель плохая, то и качество собранных данных плохое. В настоящее время, если операторы хотят собрать 5000 изображений, стоимость по-прежнему очень высока.

Сегодня нам все еще сложно использовать SECT для решения задачи «обнаружения» в машинном зрении, или задача обнаружения не является вопросом «обучения за несколько выстрелов» в нашем понимании, а должна быть вопросом « Слабо контролируемое обучение» под задачей обнаружения. «Обучение со слабым наблюдением» также отличается от «обучения с небольшим количеством выстрелов».

Будущая работа и перспективы

На мой взгляд, большие данные можно разделить на два типа. Первый тип — это настоящие большие данные: либо бизнес-аналитика, либо модельный анализ могут быть реализованы только на основе крупномасштабных данных. Другой тип — поддельные большие данные: для обучения одной модели требуется большой объем данных из-за недостаточных возможностей машинного обучения. Благодаря все более мощным возможностям искусственного интеллекта количество необходимых образцов будет уменьшено.

Некоторые компании хвастаются тем, что у них есть много данных, например данных о лицах, и считают данные своим активом. Эта тенденция постепенно исчезнет, ​​потому что ИИ становится все более мощным, а объем необходимых данных уменьшается. В какой степени будет развиваться SECT? Возможно, разработчики алгоритмов среднего и верхнего уровня больше не понадобятся. Бизнес-операторы напрямую отправляют в систему несколько десятков графиков (не более 50), и модель очень быстро возвращается для последующего тестирования производительности. Если модель не работает хорошо, итеративное обучение выполняется постоянно, пока модель не будет работать хорошо. Уже неправда, что три этапа маркировки, обучения и тестирования проходят через большие промежутки времени. Сегодня весь процесс итерации становится все быстрее и быстрее. Если скорость итерации удастся сократить до часов или минут, она фактически станет системой обучения взаимодействия человека и машины, что приведет к значительным изменениям в будущем.

Офицеры O&M на платформе Taobao заявили, что за последние два месяца было выпущено больше моделей, чем за последние три года. Наши собственные разработчики алгоритмов также решают различные задачи помимо распознавания атрибутов. Например, до того, как я приехал в Силиконовую долину, некоторые члены команды хотели узнать, изображен ли человек на изображении со спины или спереди, стоит ли человек или сидит, и принадлежит ли он к азиатской или африканской национальности. . Для этого нам нужно быстро сгенерировать шесть моделей суждений. Сегодня мы можем сгенерировать и опубликовать эти модели за одну-две недели, при этом точность, скорость отзыва и возможность обобщения соответствуют требованиям. Раньше на это уходило около полутора лет.

Многие люди в этой отрасли обобщили некоторые ограничения глубокого обучения, включая потребность в больших данных и отсутствие интерпретируемости. Я думаю, что скоро у нас будет новое понимание того, что такое выборка и что такое интерпретируемость. В прошлом году мы опубликовали статью под названием «Как создать практичный набор данных изображений» в Visual Exploration под редакцией Songchun Zhu. В этом году мы планируем написать следующую статью под названием «Как создать практичный набор данных изображений (2)», в которой основное внимание будет уделено нашему опыту и перспективам обучения с помощью нескольких выстрелов. Быть в курсе!

Оригинальный источник



📝 Читайте эту историю позже в Журнале.

👩‍💻 Просыпайтесь каждое воскресное утро и слушайте самые примечательные новости недели в области технологий, ожидающие в вашем почтовом ящике. Читать информационный бюллетень Noteworthy in Tech.