Интеллектуальный анализ данных в 1С Предприятие 8.0

  35790931     

Кластеризация


Цель кластеризации - выделение из множества объектов одной природы некоторого количества относительно однородных групп (сегментов или кластеров). Объекты распределяются по группам таким образом, чтобы внутригрупповые отличия были минимальными, а межгрупповые - максимальными (рис. 3). Методы кластеризации позволяют перейти от пообъектного к групповому представлению совокупности произвольных объектов, что существенно упрощает оперирование ими. Ниже описаны несколько возможных сценариев применения кластеризации на практике.

Сегментация клиентов по определенной совокупности параметров позволяет выделить среди них устойчивые группы, имеющие сходные покупательские предпочтения, уровни продаж и платежеспособности, что значительно упрощает управление взаимоотношениями с клиентами.

При классификации товаров очень часто используются достаточно условные принципы классификации. Выделение сегментов на основе группы формальных критериев позволяет определить действительно однородные группы товаров. В условиях широкой и довольно разнородной номенклатуры товаров управление ассортиментом на уровне сегментов по сравнению с управлением на уровне номенклатуры существенно повышает эффективность продвижения, ценообразования, мерчендайзинга, управления цепочками поставок.

Сегментация менеджеров позволяет эффективнее спланировать организационные изменения, улучшить мотивационные схемы, скорректировать требования к нанимаемому персоналу, что в конечном счете позволяет повысить управляемость компании и стабильность бизнеса в целом.

Рис. 3. Анализ данных методом кластеризации.

Сходство и различие между объектами определяется "расстоянием" между ними в пространстве факторов. Способ измерения расстояния зависит от метрики, которая указывает принцип определения сходства/различия между объектами выборки. Текущая реализация поддерживает следующие метрики:

  • "евклидова метрика" - это стандартное расстояние между двумя точками в N-мерном евклидовом пространстве атрибутов;
  • "евклидова метрика в квадрате" - усиливает влияние различия (расстояния) на результат кластеризации;
  • "метрика города" - снижает влияние выбросов;
  • "метрика доминирования" - определяет различие между объектами выборки как максимальную из существующих разницу между значениями их атрибутов, поэтому полезна для усиления различий между объектами по одному атрибуту.

  • Способ формирования кластеров на основе информации о расстоянии между кластеризуемыми объектами определяется методом кластеризации. В текущей версии "1С:Предприятие 8.0" реализованы следующие методы кластеризации:

  • "ближней связи" - объект присоединяется к той группе, для которой расстояние до ближайшего объекта минимально;
  • "дальней связи" - объект присоединяется к той группе, для которой расстояние до наиболее дальнего объекта минимально;
  • "центра тяжести" - объект присоединяется к той группе, для которой расстояние до центра кластера минимально;
  • метод "k-средних" - выбираются произвольные объекты, которые считаются центрами кластеров, затем все анализируемые объекты последовательно перебираются и присоединяются к ближайшему к ним кластеру. После присоединения объекта рассчитывается новый центр кластера, который вычисляется как среднее значение атрибутов всех объектов, входящих в кластер. Процедура повторяется до тех пор, пока изменяются центры кластеров.


  • Любой из реализованных в платформе методов кластеризации предполагает явное указание количества искомых кластеров. Для атрибутов объектов можно вводить веса, что позволяет расставлять приоритеты между ними.

    В результате анализа с помощью кластеризации получают следующие данные:


    • центры кластеров, представляющие собой совокупность усредненных значений входных колонок в каждом кластере;
    • таблицу межкластерных расстояний (расстояния между центрами кластеров), определяющих степень различия между ними;
    • значения прогнозных колонок для каждого кластера;
    • рейтинг факторов и дерево условий, определивших распределение объектов на кластеры.


    Алгоритмы кластеризации позволяют не только провести кластерный анализ объектов на множестве заданных атрибутов, но и спрогнозировать значение одного или нескольких из них для актуальной выборки на основании отнесения объектов этой выборки к тому или иному кластеру.


    Содержание раздела