блог о bi, №1 в рунете

Применение DataMining в рознице

Retail Analytics

В данном примере рассмотрено построение моделей кластеризации и кросс-продаж с помощью Retail Analytics на основании данных одного магазина розничной сети бытовой химии.

Кластеризация


Основной задачей кластеризации является сегментация (группировка по совокупности наборов характеристик и их значений). Используя регламентные отчеты, даже OLAP-отчетность, данная задача трудно выполнима, а при наличии большого количества данных и множества характеристик – невыполнима вообще, т.к. отчетность нам позволяет работать только с отдельными характеристиками, а не с их совокупностью.

Данные в традиционной отчетности обычно выглядят вот так:


Рис.1

Результат кластеризации может отражать ваши бизнес-группы и выглядеть так:


Рис.2

Одно из применений кластеризации - оперативный мониторинг изменений в покупательском поведении потребителей (бизнес-групп) в зависимости от времени суток, дня недели, изменений ценовой политики и ассортимента, проведения промо-акций и других условий на выбор.


В данном примере в качестве источника для создания моделей мы используем OLAP-куб продаж со структурой чека, что значительно упрощает построение модели и позволяет по результатам кластеризации построить новый OLAP-куб, данные которого мы можем уже использовать в OLAP-отчете Excel. Так же существует возможность работы с моделью в существующей надстройке Excel и в ней же изучить описание кластеров.


На начальном этапе создания модели формируется набор необходимых нам признаков (товар, количество данного товара в покупке, время суток, сезоны, дни недели, сумма и количество позиций покупки и пр.). В дальнейшем, в целом оценивается набор этих данных, определяются ключевые факторы влияния всего набора (Рис. 5) и производится разбивка на кластеры по совокупности этих факторов (характеристик). Количество кластеров может определяться как самой системой, так и вручную. Каждый кластер содержит общую информацию о своих характеристиках и, при необходимости позволяет детализировать информацию (Рис.3) до покупки, которая в него входит и дать понятное название кластеру («семейные по выходным днем», «домохозяйки по рабочим утром» и пр..)


Рис. 3 Диаграмма кластеров

Рис.4. Профили кластеров

Рисунки 3 и 4 дают общую визуальную информацию о созданных кластерах.


Рис.5. Характеристики кластера

Рис. 6. Сравнение кластеров.

Рисунок 5 показывает общие характеристики модели (Заполнение) и отдельно характеристики каждого созданного кластера. Рисунок 6 определяет отличия кластера от характеристик общей модели и других кластеров. Данные действия необходимы для изучения и проверки кластеров (проведения анализа наиболее важных и уникальных характеристик для каждого кластера ). Процессы настройки параметров модели (количество кластеров, используемых характеристик) на основании анализа и сравнения данных на рис.5 и 6 выполняются итеративно, пока аналитик не получит требуемый результат. Далее выполняется создание OLAP-куба и построение OLAP-отчетов.


Кросс-продажи


Классический пример такого анализа – это покупки пива и подгузников вечером по пятницам (категория «молодые папы»). Данный пример очень часто можно встретить в литературе и интернете. Ниже показано как выглядят результаты на примерах.


Рис.7 Правила совместных покупок.

Правила - наиболее важная вкладка, которая показывает набор (совокупность) товаров и следствие покупки другого товара/товаров. Каждое правило содержит вероятность покупки и важность.


Рис.8 Наборы элементов правил с указанием их размера и анализируемого количества покупок.

Наборы элементов показывают набор товаров, определенные на рис.7 с указанием размерности набора товаров и поддержки (количества чеков, где встречается данный набор).

Используя фильтр по минимальному количеству чеков, где встречается наборы совместных покупок товаров и учитывая соответствующие правила с наибольшей вероятностью и важностью аналитик может принять решение об использовании выявленных правил для раскладки или спецпредложения.


Рис.9 Дерево взаимосвязей.

Очень удобное и интуитивно понятное средство для визуализации зависимостей между товарами (не наборами товаров), их направления и силы. Проверить данные зависимостей так же можно в OLAP-отчете, приведенном снизу


Рис.10 OLAP-отчет по кросс-продажам

Используя совместно модели кластеризации и кросс-продаж, можно решать задачи по формированию целевых групп клиентов, мероприятий, спецпредложений, выкладке товара и оценивать их эффективность и динамику изменений. Использование результатов анализа несет исключительную полезность в том случае, когда можно объяснить выявленные закономерности.


Заключение


Данные OLAP-куба структуры чека содержат информацию о времени, месте и сумме покупки, количестве и ассортименте приобретенных товаров. Таким образом, потребительская корзина содержит точное описание визита конкретного покупателя в магазин, и эти данные дают довольно полное представление о поведении клиентов, постоянно бывающих в их торговых точках.


Информация о покупках раскрывает предпочтения клиента, рассказывает о его бытовых потребностях. А общая сумма покупки показывает, сколько денег был готов потратить потребитель в определенное время суток и в определенный день недели, что, в свою очередь, может натолкнуть аналитика на выводы о его положении на рынке труда и тех часах, которые он может посвятить походам по магазинам. Так же можно расширить направление анализа: используя комбинации категорий товаров, брендов и объемов закупок (размеров упаковок) внутри каждой категории.


Оставаясь анонимным, потребитель идентифицирует себя посредством совершенной покупки. При анализе данных становится очевидно, что многие операции по продаже имеют сходные характеристики, и эти характеристики могут быть использованы для разделения потребительских корзин в определенные группы. После этого, основываясь на тех или иных критериях, можно сформировать сегменты, которые по своей сути являются объединением групп потребительских корзин со сходными характеристиками.