Дерево решений
В результате применения этого метода к исходным данным создается иерархическая (древовидная) структура правил вида "если... то...", а алгоритм анализа обеспечивает вычленение на каждом этапе наиболее значимых условий и переходов между ними. Данный алгоритм получил наибольшее распространение при выявлении причинно-следственных связей в данных и описании поведенческих моделей. Типичная зона применения деревьев решений - оценка различных рисков, например, закрытия заказа клиентом или его перехода к конкуренту, несвоевременной поставки товара поставщиком или просрочки оплаты товарного кредита (рис. 5). В качестве типичных входных факторов модели выступают сумма и состав заказа, текущее сальдо взаиморасчетов, кредитный лимит, процент предоплаты, условия поставки и иные параметры, характеризующие объект прогноза. Адекватная оценка рисков обеспечивает принятие информированных решений для оптимизации отношения доходность/риск в деятельности компании, а также полезна для увеличения реалистичности различных бюджетов.
Рис. 5. Применение метода "дерево решений" позволяет на основе входных факторов модели (a) получать оценку рисков принятия тех или иных управленческих решений (б).
В качестве примера, иллюстрирующего способность алгоритма выявлять причинно-следственные связи, можно привести задачу оптимизации работы отдела продаж. Для ее решения в качестве прогнозируемой величины выберем показатель эффективности менеджеров по продажам, например, удельную доходность на клиента, а в качестве факторов - совокупность данных, потенциально влияющих на результат. Алгоритм определит факторы, оказывающие наибольшее влияние на результат, а также типичные комбинации условий, приводящих к тому или иному результату.
Более того, подсистема "Анализ данных" позволит оценить (спрогнозировать) ожидаемые значения целевого показателя на основании актуальных данных, а также составить прогноз "что, если…", изменяя показатели, подаваемые на вход модели. Результаты анализа и прогноза с помощью деревьев решений позволяют существенно снизить влияние неопределенности бизнес-окружения на состояние компании, а также решать широкий спектр задач, связанных с выявлением сложных и неочевидных причинно-следственных связей .
Алгоритм "Дерево решений" формирует причинно-следственную иерархию условий, приводящую к определенным решениям. В результате применения этого метода к обучающей выборке создается иерархическая (древовидная) структура правил расщепления вида "если... то...". Алгоритм анализа (обучения модели) сводится к итеративному процессу вычленения наиболее значимых условий и переходов между ними. Условия могут иметь как количественный, так и качественный характер и формируют "ветви" этого абстрактного дерева. Его "листву" образуют значения прогнозируемого атрибута (решения), которые, как и условия переходов, допускают и качественную, и количественную трактовку. Совокупность этих условий, налагаемых на факторы, и структура переходов между ними до конечного решения и образуют модель прогноза.
Данный алгоритм получил наибольшее распространение при оценке исходов различных событийных цепочек и выявлении причинно-следственных связей в выборках . Управление значимостью и достоверностью модели данного алгоритма осуществляется с помощью параметров "Тип упрощения", "Максимальная глубина дерева" и "Минимальное количество элементов в узле".
В качестве результатов анализа выборки с помощью алгоритма "Дерево решений" выступают:
- рейтинг факторов , представляющий собой список факторов, оказавших влияние на решение, отсортированный в порядке убывания значимости ("цитирования" в узлах дерева);
- сопоставление решений (значений прогнозной колонки) и определивших их условий, иными словами, дерево "Следствие-Причина";
- дерево "Причина-Следствие", представляющее собой совокупность переходов между условиями, определяющую то или иное решение (по сути, визуальное представление модели прогноза).