Vision в «Магните»: результаты пилотного проекта

22 июня 2022

Во втором полугодии 2021 года и первом квартале 2022-го «Сервис Плюс» провёл пилотный проект по внедрению системы видеораспознавания товаров на весах самообслуживания в сети «Магнит». Рассказываем, каких результатов мы смогли добиться за это время и как к ним пришли.

«Магнит» ― наш давний и очень технологичный клиент. В 2006 году мы начинали с поставок и обслуживания электронных весов DIGI. Позже заменили их на собственную разработку, DP Falcon: ритейлер с самого начала очень интенсивно развивал модель самообслуживания, а это требовало особенно высокой скорости и гибкости разработки. Чтобы расширить покупательский опыт клиентов «Магнита», в 2021 году мы начали тестировать в магазинах сети на тот момент совсем свежую технологию ― «СуперМаг Vision».

Vision ― это система видеораспознавания на основе искусственного интеллекта. Как только на весы кладут товар, камера делает снимок и отправляет его нейросети. Та определяет, на что похоже изображение, и даёт покупателю выбрать из нескольких самых близких вариантов.

Для пилотного проекта выбрали крупные супермаркеты в Краснодарском крае, родном регионе «Магнита»: в Краснодаре, Ейске и Туапсе. Мы установили систему видеораспознавания на всех весах в зонах фруктов и овощей (ФРОВ), замороженных продуктов и конфет. Для обмена данными между весами и нейросетью предложили два варианта: или использовать интернет-соединение, или работать в офлайне с использованием технологии периферийных вычислений. Заказчик выбрал второй способ, поэтому мы добавили в каждый магазин компьютеры с установленными на них нейросетевыми сервисами.

Как училась нейросеть

В качестве метрик проекта мы выбрали два параметра. Полнота ― доля верно распознанного товара. Конверсия ― доля случаев, в которых покупатель выбирает предложенный товар, а не ищет его в меню. Благодаря тому, что во всех магазинах был похожий ассортимент и похожие покупатели, набор популярных овощей и фруктов был почти одинаковым.

В зоне ФРОВ любого магазина есть продукт, который продаётся намного чаще других ― в России это обычно бананы. Выбирать метрики нужно с учётом этого обстоятельства. Недостаточно стремиться, например, к 90%-му распознаванию всех взвешенных товаров ― в этом случае в выборку попадут только те самые бананы. Ориентироваться надо на значение полноты для каждого товара, который оказывается на весах.

Чтобы добиться высокого качества распознавания, нейросети надо показать, чем отличаются разные товары. Для этого нужно собрать первые наборы изображений ― датасеты. Практика показывает, что для зоны ФРОВ датасет должен содержать по нескольку сотен снимков каждого овоща и фрукта. Они могут накапливаться естественным путём, по мере того как покупатели пользуются весами. Однако в этом случае на обучение нейросети может уйти слишком много времени, если товар покупают редко.

В таких случаях мы использовали аугментацию ― искусственное расширение датасета за счёт изменения исходных изображений (например, отзеркаливания фотографии, изменения её насыщенности и многих других операций), или добавляли собственные снимки. Важно понимать, что сгенерированные и синтетические данные не в полной мере повторяют естественное поведение покупателей. Недостаточно много раз подряд положить товар на весы: если компьютерное зрение видит продукт только с одного ракурса, оно может не узнать его в других условиях. Снимки должны отличаться: количеством и размером товара, наличием и отсутствием пакета или руки в кадре, чёткостью изображения.

В первое время получить синтетические данные можно было только в режиме покупки, с печатью этикетки. Для сбора датасетов приходилось ездить в магазин с несколькими рулонами бумаги и взвешивать товары так же, как это делают обычные покупатели. В процессе пилота мы разработали особый режим сбора данных, в котором этикетки не печатаются.

Что выбирают покупатели

Нейросети постоянно требуют внимания. Важно вовремя реагировать на изменение артикулов магазина и постоянно синхронизировать базу данных с кассовой системой, чтобы Vision понимал, к какому классу относятся новые товары. Во время проекта мы регулярно проводили такую сверку.

Кроме того, за время пилота Vision научился отличать товары от посторонних предметов: иногда на весы попадают вещи, не предназначенные для покупки. Например, кто-то может попытаться взвесить телефон или перчатку. Важно, чтобы нейросеть умела самостоятельно отсекать такие взвешивания и не пыталась их анализировать.

Иногда покупатель, даже видя подсказки, всё равно выбирает что-то своё. Понять, кто ошибся в таком случае, помогают дополнительные нейросетевые модели для классификации товаров. Они определяют, похож ли продукт на весах на варианты нейросети и на выбор покупателя. Таким образом Vision не просто улучшает покупательский опыт, но и помогает магазину выявлять пересорт. Это открывает бизнесу новые возможности.