Кластерный анализ в маркетинге

Кластерный анализ в маркетинге

Что такое кластерный анализ?

Кластерный анализ (или кластеризация) — это статистический метод обработки данных. Он работает путем организации элементов в группы или кластеры на основе того, насколько тесно они связаны.

Кластерный анализ в маркетинге может быть мощным инструментом интеллектуального анализа данных. Особенно для любой организации, которая имеет задачу идентифицировать отдельные группы клиентов, транзакции продаж или другие типы поведения и вещей. Например, страховые компании используют кластерный анализ для обнаружения мошеннических требований, а банки используют его для оценки кредитоспособности.

Цель кластерного анализа

Кластерный анализ, как и анализ сокращенного пространства (факторный), связан с матрицами данных, в которых переменные не были заранее разделены на подмножества критериев и предикторов. Цель кластерного анализа — найти похожие группы субъектов, где «сходство» между каждой парой субъектов означает некоторую глобальную меру по всему набору характеристик.

Кластерный анализ — это алгоритм обучения без учителя. Это означает, что вы не знаете, сколько кластеров существует в данных до запуска модели. В отличие от многих других статистических методов, кластерный анализ обычно используется, когда не делается никаких предположений о вероятных отношениях в данных. Он предоставляет информацию о том, где существуют ассоциации и закономерности в данных, но не о том, что они могут быть или что они означают.

В этой статье мы обсуждаем различные методы кластеризации и ключевую роль, которую играет расстояние как мера близости пар точек.

Применение кластерного анализа

Чаще всего кластерный анализ используется как процедура для классификации. Субъекты разделены на группы, так что каждый субъект больше похож на других субъектов в своей группе, чем на субъектов вне группы.

В контексте исследования рынка это может быть использовано для определения таких категорий, как возрастные группы, уровни доходов, городское, сельское или пригородное расположение.

В маркетинге кластерный анализ может использоваться для сегментации аудитории, так что различные группы клиентов могут быть нацелены на наиболее релевантные сообщения.

Исследователи в области здравоохранения могут использовать кластерный анализ, чтобы выяснить, связаны ли разные географические районы с высоким или низким уровнем определенных заболеваний. После этого они могут исследовать возможные местные факторы, способствующие возникновению проблем со здоровьем.

Каким бы ни было приложение, очистка данных — важный подготовительный шаг для успешного кластерного анализа. Кластеризация работает на уровне набора данных, где каждая точка оценивается относительно других. Для этого данные должны быть как можно более полными.

Кластеризация измеряется с использованием внутрикластерного и межкластерного расстояния:

  • Внутрикластерное расстояние

Это расстояние между точками данных внутри кластера. Если присутствует сильный эффект кластеризации, он должен быть небольшим (более однородным).

  • Межкластерное расстояние

Это расстояние между точками данных в разных кластерах. Там, где существует сильная кластеризация, они должны быть большими (более разнородными).

Связь между кластерами относится к тому, насколько два кластера отличаются или похожи друг на друга.

Основные вопросы кластерного анализа

При введении кластеризации, имеет смысл сосредоточиться на методах, которые относят каждый предмет только к одному классу. Обычно предполагается, что предметы внутри класса неотличимы друг от друга.

Мы предполагаем, что основная структура данных включает неупорядоченный набор дискретных классов. Все они разные, и ни один из них не имеет большего веса, чем другой. В некоторых случаях мы также можем рассматривать эти классы как иерархические по своей природе, при этом некоторые классы разделены на подклассы.

Процедуры кластеризации можно рассматривать как «преклассификационные». В том смысле, что исследователь не использовал предварительное суждение для разделения субъектов (строк многомерной матрицы данных). Однако предполагается, что некоторые цели неоднородны; то есть, что «кластеры» существуют.

Это предположение о различных группах основано на совпадении набора входных данных в алгоритме или переменных кластеризации. Это допущение отличается от допущения, сделанного в случае дискриминантного анализа или автоматического обнаружения взаимодействия. Так как в последнем зависимая переменная используется для формального определения групп объектов, а различие не делаются на основе сходства профилей в самой матрице данных.

Таким образом, учитывая, что никакая информация об определении группы формально не оценивается заранее, первоочередными вопросами кластерного анализа будут:

  1. Какую меру межпредметного сходства следует использовать и как «взвешивать» каждую переменную при построении такой сводной меры?
  2. После того, как будут обнаружены межпредметные сходства, как будут формироваться классы?
  3. После того, как классы сформированы, какие итоговые показатели каждого кластера подходят в описательном смысле; то есть как следует определять кластеры?
  4. Если предположить, что можно получить адекватные описания кластеров, какие выводы можно сделать относительно их статистической значимости?

А как насчет нескалярных данных?

До сих пор мы говорили о скалярных данных, когда вещи отличаются друг от друга по степеням по шкале, например, числовой величине или градусу. Но как насчет нескалярных предметов, которые можно отсортировать только по категориям (например, по цвету, виду или форме)?

Этот вопрос важен для таких приложений, как анализ данных опросов. Вероятно, в них вы будете иметь дело с сочетанием форматов, которые включают как данные по категориям, так и скалярные данные.

Алгоритмы кластерного анализа

Ваш выбор алгоритма кластерного анализа важен, особенно когда у вас смешанные данные. В основных статистических пакетах вы найдете ряд предустановленных алгоритмов, готовых вычислить ваши матрицы. Вот два наиболее подходящих для кластерного анализа:

  • Метод К-средних

Данный алгоритм устанавливает наличие кластеров путем нахождения их центров тяжести. Точка центра тяжести — это среднее значение всех точек данных в кластере. С помощью итераций можно вычислить евклидово расстояние между каждой точкой в наборе данных, каждую точку можно отнести к кластеру. Точки центроида изначально случайны и будут меняться каждый раз по мере выполнения процесса. 

Метод K-средних обычно используется в кластерном анализе, но имеет ограничение в том, что оно в основном полезно для скалярных данных.

  • Метод K-медоид 

Данный метод работает аналогично К-средним, но с небольшим отличием. Он не использует средние точки центроида, которые не приравниваются ни к каким реальным точкам из набора данных, он устанавливает медоиды, которые являются реально интерпретируемыми точками данных. 

K-медоид дает преимущество для анализа данных обследования, так как он подходит и для данных по категориям и скалярных данных. Это связано с тем, что вместо измерения евклидова расстояния между точкой медоида и ее соседями алгоритм может измерять расстояние в нескольких измерениях, представляющих ряд различных категорий или переменных

В обоих случаях (К) = количество кластеров.

Кластерный и факторный анализ в маркетинге

Вы можете иметь дело с большим количеством переменных, например с длинным или сложным опросом. В таком случае может быть полезно упростить ваши данные перед выполнением кластерного анализа, чтобы с ними было легче работать. 

Использование факторов 

  • уменьшает количество измерений, по которым вы выполняете кластеризацию;
  • может привести к кластерам, которые в большей степени отражают истинные закономерности в данных.

Факторный анализ — это метод взятия большого количества переменных и комбинирования тех, которые относятся к одному и тому же основополагающему фактору или концепции. Таким образом вы получаете меньшее количество измерений. Например, факторный анализ может помочь вам заменить вопросы типа «Получили ли вы хорошие услуги?», «Насколько вы были уверены в агенте, с которым разговаривали?» и «Решили ли мы ваш вопрос?» с единственным фактором — удовлетворенность клиентов.

Таким образом, вы можете уменьшить беспорядок и сложность ваших данных и быстрее достичь управляемого количества кластеров.

Facebook Comment

Still dont know about MAD?

Lets get acquainted! We will throw off intro materials about us and Data products. We promise - no spam ;)



[recaptcha]