Реклама на retail.ru
Подпишитесь
на новости ритейла
Получайте новости
индустрии ритейла первым!
Поделиться
Как Lamoda применяет искусственный интеллект
Технологии ML и AI находят применение в самых разных сферах бизнеса, в том числе в фэшн-ритейле. Умение систем на основе нейросетей быстро обрабатывать огромные объемы данных и распознавать различные типы информации становится мощным конкурентным преимуществом компаний. О том, как Lamoda уже сегодня применяет искусственный интеллект, чтобы помогать покупателям находить нужные товары, и о возможностях глубокого машинного обучения для фэшн-индустрии рассказал Senior Data Scientist компании Lamoda Tech (ИТ-подразделения Lamoda) Илья Черников на конференции МТС True Tech Day.
Илья Черников, Senior Data Scientist компании Lamoda Tech. Кадр из трансляции МТС True Tech Day». Фото: МТС
Поисковая выдача становится релевантнее
В качестве поискового движка площадка использует Elasticsearch. Иногда система сталкивается со сложными поисковыми запросами, по которым она либо находит небольшое количество кандидатов, либо не находит совсем. Например, с запросами «брюки трикотажные» и «спортивные штаны» система справляется без проблем, а если написать «треники со шнурком на поясе с резинкой», она не найдет ничего (пустая выдача) и предложит изменить формулировку. Это при том, что речь в представленных запросах идет примерно об одинаковых товарах.
Нейросети помогли команде Lamoda решить эту проблему с помощью методики обучения представлений (Metric Learning), а именно распространенного подхода к ней, называемого Triplet Loss. Говоря простыми словами, данный подход к обучению модели основан на формировании триплетов (троек), состоящих из поисковых запросов пользователей (Query, в качестве якоря) и двух товаров, один из которых является релевантным (так называемый позитив, positive), а второй не является (негатив, negative). Запросы обрабатываются отдельным компонентом нейросети – Query Encoder, его архитектура состоит из трансформерного энкодера, в роли которого может выступать Bert, RoBERTa, Electra и любой другой. Товары обрабатываются другим компонентом – Document Encoder. Его архитектура построена таким образом, чтобы такие атрибуты товара, как цвет, бренд, размер, гендер, наличие специфических вещей (застежки и т.д.), были переведены в формат, воспринимаемый моделью. Суть обучения сводится к тому, чтобы приблизить релевантные товары как можно ближе к запросу, а нерелевантные, наоборот, отодвинуть дальше.
Схема обучения при подходе Triplet Loss. Кадр из презентации Ильи Черникова. Источник: Lamoda Tech
В результате система начала искать «треники со шнурком и резинкой», что уже неплохо.
В первом квартале 2024 года Lamoda успешно провела А/Б тест, компании удалось получить прирост таких конверсионных метрик, как конверсия в покупку, а также снизить долю пустых поисковых выдач.
В процессе обучения команда обнаружила ряд ситуаций, в которых запросы семантически выглядят не очень сложными, но все равно ведут на пустую выдачу даже после применения нейросети. Таков, например, запрос «изумрудное платье». При том, что соответствующие товары на площадке есть, чаще всего они размечены как «зеленые», а информацию об изумрудном оттенке можно почерпнуть только из анализа фотографии. Чтобы дать возможность нейросети использовать фотографии товаров, команда нашла подход к обучению, который позволяет работать сразу с двумя модальностями – текстами и изображениями: это разработка компании Open AI – Contrastive Language-Image Pre-Training (CLIP). Для обучения модели теперь необходимы пары из фотографии и текста, который описывает все, что на этой фотографии находится. Одно из преимуществ такого подхода – веса этой модели доступны в open source, и существует доступная версия на русском языке, которую можно использовать в формате zero shot, то есть вообще не дообучая на собственных данных площадки. CLIP можно использовать как дополнение к обычному поиску, обогащать с его помощью поисковый индекс различными атрибутами, извлеченными из изображения. Можно также дообучить модель на собственных данных – например, на текстах описаний или поисковых запросах.
Нейронные сети генерируют модные образы
На сайте и в приложении Lamoda есть два раздела, где система помогает клиенту подобрать модный образ на основе какого-то одного выбранного предмета одежды или обуви. Первый вариант – в разделе «Идеи» размещены образы от профессиональных стилистов. Их единственный недостаток в том, что ими невозможно покрыть весь ассортимент магазина, и, кроме того, указанные в таких подборках товары в определенный момент могут отсутствовать на витрине. Второй вариант – на продуктовых страницах сайта Lamoda работает алгоритм, который подбирает образ на основе действий пользователей. Его преимущество в максимальной масштабируемости (то есть он способен охватить большинство товаров), а также в актуальности в любой момент времени. Однако у алгоритма есть и недостаток: иногда он подбирает не совсем сочетающиеся друг с другом вещи.
Объединить преимущества экспертности стилистов и масштабируемости алгоритмов команда Lamoda Tech попробовала с помощью Metric Learning. В данном случае в качестве якоря используется не поисковый запрос, а сам товар, и система нацелена на подбор товаров других категорий, которые подходят к нему по стилю. Такой подход был назван OutfitNet. Модель обучалась на образах, выполненных профессиональными стилистами. В результате модель научилась лучше «улавливать» стиль и подбирать образы не только к одежде или обуви, но и к аксессуарам.
Нейросеть подбирает образ на основе якорного товара. Кадр из презентации Ильи Черникова. Источник: Lamoda Tech
В ближайшее время команда планирует провести А/Б тест и получить фидбек от пользователей. Проблему небольшого объема обучающих данных планируется решить с помощью данных от фотостудии Lamoda, в которой делаются фотографии для каталога – ведь в процессе фотосессии на человека подбирают одежду, которая максимально хорошо сочетается. Также в планах – обучить OutfitNet на сегментированных изображениях и разработать модель скоринга образов, чтобы иметь возможность фильтровать неудачные сочетания и ранжировать образы.
По словам Ильи Черникова, нейросети в общем, и Metric Learning в частности, не только хорошо работают и приносят бизнесу пользу, но также производят полезные артефакты в виде эмбеддингов, которые можно переиспользовать в других задачах. Также для фэшн-индустрии характерна широкая мультимодальность данных: есть атрибуты, счетчики, тексты, изображения. Важно уметь работать с разными типами данных в рамках одного подхода, одной модели. Нейросети позволяют Lamoda с данными различных модальностей работать в end-to-end формате. Фэшн-индустрия становится все более инновационной, в ней есть огромное пространство для применения глубоких нейронных сетей. Помимо задач семантического поиска и генерации образов, компания решает или планирует решить еще такие задачи, как рекомендации, в частности рекомендации размеров, визуальный поиск, виртуальная примерка и многое другое.
Retail.ru
Читайте также:
Где «Ашан» применяет искусственный интеллект
Сеть DIY «Вимос» использует искусственный интеллект в ценообразовании
Китай: что нужно знать тем, кто планирует начать бизнес в стране?
Обойтись без скидки: ритейлеры рассказали об акциях, которые сработали
Искусственный интеллект в ритейле: распознавание планограмм, продуктов и цен на полках
Интервью
Александр Злобин, Magic burger: «К 2028 году планируем нарастить сеть до 400 заведений»
За 5 лет региональная сеть выросла до 13 кафе, запустила собственное пищевое производство и планирует продавать франшизу.