data lake

Как не утонуть в data lake?
||,
Не так давно мы упоминали тренды этого года в сфере digital. Data lake - один из них. Так вот дабы быть на гребне волны остановимся на этом понятии отдельно. В управлении данными data lake уже уверенно завоевывает позиции, как эффективный...
продолжить чтение

Data lake (с англ. – озеро данных) — это один из элементов структуры Big Data, место хранения больших объемов данных, которые генерируются или собираются отдельной компанией. Как правило, данные в data lake хранятся в неструктурированном виде. Иначе говоря – данные, которые на текущий момент нет возможности эффективно использовать, но при этом их не следует удалять. Data lake образуются по различным причинам:

  • потенциальная ценность собранных данных в будущем;
  • необходимость хранения всех материалов для проверки;
  • требования закона и другие.

Data lake могут быть размещены в облачных хранилищах или на серверах самой компании. Чаще всего доступ к этим данным имеют большинство сотрудников, при этом степень защиты относительно низкого уровня. В общем случае содержание и обеспечения должного уровня работы Data lake обходится недорого. В то же время услуги администрирования и хранения Data lake предоставляют специализированные фирмы, такие как:

  • HVR,
  • Zaloni,
  • Podium Data,
  • Teradata и другие.

Перечисленные компании не только предоставляют место для хранения озёр данных, но и инструменты для обработки и структуризации данных.

Согласно исследованию MarketsandMarkets, к 2021 году рынок Data lake вырастет до $8,81 млрд с годовым темпом роста 28,3%. Уже на сегодня Data lake являются неотделимой частью Big Data.

Основная проблема озёр данных, аналогично природным водоёмам, заключается в том, что они могут превращаться в так называемые болота. Другими словами, хранилища бывают до такой степени захламлены данными, что структурировать их, а уж тем более получить полезную информацию уже не представляется возможным.

Руководитель дата-менеджмента и облачной платформы компании SAP Кен Тсай называет это «диссонансом данных»:

«При диссонансе данные нельзя привести в упорядоченный и совместимый вид без тщательной проработки всех массивов. В таком хранилище одни виды данных нельзя сопоставить и сгруппировать с другими».

В этом случае данные могут дублироваться или, наоборот, теряться между разными отделами компании.

Still dont know about MAD?

Lets get acquainted! We will throw off intro materials about us and Data products. We promise - no spam ;)