Что такое data mining?

Data mining (с англ. добыча данных)  – это автоматизированный поиск данных, основанный на анализе огромных массивов информации. За цель берется идентификация тенденций и паттернов, которая при обычном анализе невозможна. Для сегментации данных и оценки вероятности последующих событий используются сложные математические алгоритмы.

Основные составляющие data mining:

  1. Автоматическое обнаружение паттернов. Для этого выстраиваются специальные модели, на базе которых задействуются определенные алгоритмы анализа и разбора данных.
  2. Прогнозирование вероятных результатов. Согласно некоторым формам data mining можно устанавливать так называемые “правила” или “ограничения”, чтобы повысить уровень точности прогноза события.
  3. Генерирование релевантной информации. Также есть формы data mining, которые могут помочь сегментировать группы потребителей с учетом необходимых характеристик, что значительно повышает точность таргетинга рекламы.
  4. Фокусирование внимания на больших массивах данных. Несмотря на то, что природа целей статистики и data mining очень схожа, есть несколько существенных отличий:
  • Статистические методы требуют постоянного контроля специалистов для корректировки и подтверждения исправности работы модели анализа, что делает их практически не автоматизированными.

Data mining, в свою очередь, очень легко автоматизируется.

  • Статистические методы обычно работают с небольшими объемами информации, так называемыми выборками, что существенно искажает прогнозируемость результатов.

Алгоритмы data mining выстроены таким образом, чтобы непосредственно работать с огромными массивами информации. Так что, чем больше данных, тем лучше!

А для обработки собранной информации используется другая структура – online analytical processing. Это быстрый онлайн анализ данных, собранных с разных площадок. Таким образом, взаимодействие этих двух структур помогает сделать сбор и анализ данных ультра быстрым.

Лимиты возможностей Data Mining

  1. Data mining не принесет пользу без обдуманного управления. Сам процесс даст результаты только в случае четкого понимания специфики самого бизнеса, данных, методов аналитики. Data mining позволяет раскрыть новые способы применения данных компании, но необходим непосредственный анализ для определения ценности найденных паттернов.
  2. Важно помнить, что спрогнозированные взаимоотношение потребителей с брендом, не обязательно являются причиной его действий. Таким образом, data mining поможет идентифицировать группу потребителей, которые вероятно купят продукт, но принадлежность к этой группе не будет причиной их покупки.

Кратко о процессе data mining.

Всего существует 4 этапа добычи данных:

– определение проблемы (задачи);

– сбор данных и подготовка к анализу;

– построение модели и оценка;

– использование полученных знаний на практике.

Остановимся на основных задачах каждого из этапов.

Определение проблемы

  • Четкое обозначение целей и требований. Изначально стоит определить проблему, которую необходимо решить. Например, как продать больше продукта потребителю. Далее следует интерпретировать этот вопрос в понятную для data mining цель – каких потребителей вероятнее всего заинтересует этот продукт. После чего можно установить требования к аудитории и тд.

Сбор данных и подготовка к анализу

  • Поиск и сбор данных;
  • Определить, насколько релевантна собранная информация для решения бизнес проблемы (определенной на первом этапе);
  • Снять шум – убрать ненужную информацию;
  • Идентифицировать закономерности и паттерны;
  • Построение таблицы, в которой будет структурировано собрана информация, необходимая для будущей модели анализа.

Построение модели анализа и оценка

  • Корректировка параметров и технологий построения модели для создания оптимизированной системы анализа проблемы;
  • Соотношение получившейся модели и проблемы, которую она призвана решить. Если они отличаются, возвращаемся на этап выше.

Использование полученных знаний на практике

  • Применение полученных результатов для таргетинга;
  • Изучение специфики модели, которая принесла определенные результаты (или не принесла, тоже важно понимать, что было сделано не верно во избежание повторения ошибок).

Сам процесс добычи данных бесконечен. Это круговорот взаимодополняющих и последовательных шагов, которые помогают идентифицировать, решить и определить новую задачу.

Результаты data mining процесса становятся базисом для новых бизнес задач.  

Потому в data mining очень важно следовать 2 простым истинам:

  • Определять четкие запросы для поиска.
  • Разбираться в данных своей компании. 

И будет вам счастье.

Facebook Comment

Еще не знаете о MAD?

Давайте знакомиться! Мы скинем вам интро-материалы о нас и Data-продуктах. Обещаем - никакого спама ;)