Видимая перспектива: как технологии компьютерного зрения применяются в ритейле

05.12.2022 08:45

908

Костянтин Симоненко

Инновации Новости

Читати українською мовою

Как показывают исследования, розничная и оптовая торговля – это одна из четырех отраслей, где развитие и применение решений в области компьютерного зрения (Computer Vision, CV) выглядит наиболее перспективным в ближайшие несколько лет.

Читайте українською

Как пишет NewRetail, в сочетании с алгоритмами машинного обучения CV дает отличные возможности для анализа потребительского поведения и, как следствие, позволяет принимать правильные решения по трансформации клиентского опыта. RAU предлагает ознакомиться с адаптированной версией.

Прогрессивная технология

Как известно, компьютерное зрение — это технология создания машин и систем, которые могут производить обнаружение, отслеживание и классификацию объектов, получая информацию из изображений. Видеоданные могут быть представлены множеством форм, в том числе изображениями с различных камер или трехмерными данными. Наибольшая востребованность таких технологий, разумеется, находится в сфере видеонаблюдения и безопасности, а также в медицине и промышленном производстве. Однако компьютерное зрение в сочетании с алгоритмами машинного обучения находит свое применение и в ритейле, позволяя проводить онлайн-анализ потребительского поведения в торговом зале без непосредственной идентификации личности покупателя.

Например, компания Amazon предлагает своим клиентам технологию Just Walk Out, которая работает с камерами торгового зала, метками товаров и алгоритмами компьютерного зрения для отслеживания покупок. Перемещаясь по магазину, покупатели могут положить товары в свои сумки для покупок или вернуть их обратно на полки. Товары при этом автоматически будут добавлены или удалены из корзины покупателя, а при выходе из магазина — оплачены. Таким образом, взаимодействие покупателя и кассира полностью устраняется за счет применения технологии «умного» компьютерного зрения в том числе.

Трудная задача

Определение действий людей в ограниченном помещении, снабженном видеокамерами – это непростая задача. Однако ее решение позволяет алгоритмам отслеживать посетителей, не затрагивая их персональные данные. Кроме непосредственно отслеживания покупок, технология компьютерного зрения в ритейле может быть использована для:

оценки ассортимента товаров в торговом зале и интенсивности их выбытия;
аудита корректности раскладки товарных позиций на полке;
анализа целостности групповой упаковки товаров на палетах и др.

В общем случае, упрощенный подход к созданию CV-решения может выглядеть так: получение видеоинформации, распознавание объектов (покупателей и товаров), распознавание действий, выдача выходных данных на основе сравнения объектов и действий с обучающими данными.

Для обеспечения возможности внедрения решения необходимо решить ряд задач, связанных с:

качеством данных;
воспроизводимостью результатов моделей;
смещением данных;
отказоустойчивостью решения.

Рабочие инструменты

За последнее десятилетие крупные ритейлеры накопили огромные массивы данных, в том числе архивы видеозаписей из торговых залов. Для подготовки наборов данных для обучения моделей искусственного интеллекта (ИИ) требуется участие инженера, однако его работа уже отчасти автоматизирована, например, такими доступными инструментами, как Roboflow Annotate. Они ускоряют цикл подготовки обучающего набора данных при контроле их качества.

Обычно модели ИИ начинают свое обучение со случайных величин и корректируются в соответствии с данными обучающего набора. Но случайность — это не то, что востребовано бизнесом в реальном мире. Поэтому для воспроизводимости результатов в машинном обучении используют ряд стандартных подходов, таких как фиксация случайного начального числа (random_state). Грубо говоря, когда генерируемые псевдослучайные величины будут иметь одни и те же значения при каждом вызове.

Однако для переноса обученной модели в среду эксплуатации требуется раздельное хранение входных данных, их преобразований и признаков, полученных из данных. Ведь проблема заключается в том, что переменные, поступающие на вход модели, не являются признаками, которые она использует в своих вычислениях.

Например, дата может быть разделена на день недели, месяц и признак выходного дня. Четкое структурирование и сохранение последовательности вычленения признаков из входных данных позволят повторять действия с данными и получать ожидаемые результаты.

Альтернативный подход

Также хорошим подходом для создания промышленных систем машинного обучения является построение сквозного воспроизводимого конвейера всех этапов построения CV-решения, к которым можно отнести:

подготовку данных;
строительство модели;
тренировку и оценку модели;
развертывание обученной модели в промышленной среде.

Шаги конвейера описываются при помощи таких решений, как, например, Kubeflow Pipelines, MLFlow и ряда других.

При этом нужно следить за тем, чтобы данные, поступающие в модель, не сместились относительно тех характеристик, которые были изначально, при обучении модели. Ведь модель ИИ лишь воспроизводит выявленные в начальном наборе данных закономерности на новых данных. Этот процесс (смещение данных — data drift) подвергается постоянному мониторингу и своевременно оповещает специалистов по данным для разбора конкретной нестандартной ситуации.

По сути, модель разворачивают для создания предсказаний на основе данных, которые она (модель) не видела в процессе своего обучения. При этом логично, что модель должна работать отказоустойчиво и не нуждаться в постоянном обслуживании.

Проблемы верификации

Применительно к CV хорошей практикой является верификация входящего видеопотока на предмет пропущенных кадров, чтобы модель детектирования, или, например, классификации гарантированно имела входные данные. Также возможно построение смешанных архитектур решений (лямбда-архитектур), которые могут обрабатывать как видеопоток в режиме реального времени, так и видео/изображения с временной задержкой, тем самым снижая риски потери интернет-соединения, а также нагрузку на вычислительные мощности в пиковые периоды.

Существующие технические решения в области компьютерного зрения и машинного обучения могут обеспечить удовлетворение актуальных бизнес-задач ритейла в части автоматизации взаимодействия с клиентом, соблюдая при этом базовые условия ведения бизнеса, такие как масштабируемость, воспроизводимость решений, стабильность сервиса.

Читайте также –