Data mining (с англ. добыча данных) – это автоматизированный поиск данных, основанный на анализе огромных массивов информации. За цель берется идентификация тенденций и паттернов, которая при обычном анализе невозможна. Для сегментации данных и оценки вероятности последующих событий используются сложные математические алгоритмы.
Основные составляющие data mining:
- Автоматическое обнаружение паттернов. Для этого выстраиваются специальные модели, на базе которых задействуются определенные алгоритмы анализа и разбора данных.
- Прогнозирование вероятных результатов. Согласно некоторым формам data mining можно устанавливать так называемые “правила” или “ограничения”, чтобы повысить уровень точности прогноза события.
- Генерирование релевантной информации. Также есть формы data mining, которые могут помочь сегментировать группы потребителей с учетом необходимых характеристик, что значительно повышает точность таргетинга рекламы.
- Фокусирование внимания на больших массивах данных. Несмотря на то, что природа целей статистики и data mining очень схожа, есть несколько существенных отличий:
- Статистические методы требуют постоянного контроля специалистов для корректировки и подтверждения исправности работы модели анализа, что делает их практически не автоматизированными.
Data mining, в свою очередь, очень легко автоматизируется.
- Статистические методы обычно работают с небольшими объемами информации, так называемыми выборками, что существенно искажает прогнозируемость результатов.
Алгоритмы data mining выстроены таким образом, чтобы непосредственно работать с огромными массивами информации. Так что, чем больше данных, тем лучше!
А для обработки собранной информации используется другая структура – online analytical processing. Это быстрый онлайн анализ данных, собранных с разных площадок. Таким образом, взаимодействие этих двух структур помогает сделать сбор и анализ данных ультра быстрым.
Лимиты возможностей Data Mining
- Data mining не принесет пользу без обдуманного управления. Сам процесс даст результаты только в случае четкого понимания специфики самого бизнеса, данных, методов аналитики. Data mining позволяет раскрыть новые способы применения данных компании, но необходим непосредственный анализ для определения ценности найденных паттернов.
- Важно помнить, что спрогнозированные взаимоотношение потребителей с брендом, не обязательно являются причиной его действий. Таким образом, data mining поможет идентифицировать группу потребителей, которые вероятно купят продукт, но принадлежность к этой группе не будет причиной их покупки.
Кратко о процессе data mining.
Всего существует 4 этапа добычи данных:
– определение проблемы (задачи);
– сбор данных и подготовка к анализу;
– построение модели и оценка;
– использование полученных знаний на практике.
Остановимся на основных задачах каждого из этапов.
Определение проблемы
- Четкое обозначение целей и требований. Изначально стоит определить проблему, которую необходимо решить. Например, как продать больше продукта потребителю. Далее следует интерпретировать этот вопрос в понятную для data mining цель – каких потребителей вероятнее всего заинтересует этот продукт. После чего можно установить требования к аудитории и тд.
Сбор данных и подготовка к анализу
- Поиск и сбор данных;
- Определить, насколько релевантна собранная информация для решения бизнес проблемы (определенной на первом этапе);
- Снять шум – убрать ненужную информацию;
- Идентифицировать закономерности и паттерны;
- Построение таблицы, в которой будет структурировано собрана информация, необходимая для будущей модели анализа.
Построение модели анализа и оценка
- Корректировка параметров и технологий построения модели для создания оптимизированной системы анализа проблемы;
- Соотношение получившейся модели и проблемы, которую она призвана решить. Если они отличаются, возвращаемся на этап выше.
Использование полученных знаний на практике
- Применение полученных результатов для таргетинга;
- Изучение специфики модели, которая принесла определенные результаты (или не принесла, тоже важно понимать, что было сделано не верно во избежание повторения ошибок).
Сам процесс добычи данных бесконечен. Это круговорот взаимодополняющих и последовательных шагов, которые помогают идентифицировать, решить и определить новую задачу.
Результаты data mining процесса становятся базисом для новых бизнес задач.
Потому в data mining очень важно следовать 2 простым истинам:
- Определять четкие запросы для поиска.
- Разбираться в данных своей компании.
И будет вам счастье.