Data lake (с англ. – озеро данных) — это один из элементов структуры Big Data, место хранения больших объемов данных, которые генерируются или собираются отдельной компанией. Как правило, данные в data lake хранятся в неструктурированном виде. Иначе говоря – данные, которые на текущий момент нет возможности эффективно использовать, но при этом их не следует удалять. Data lake образуются по различным причинам:
Data lake могут быть размещены в облачных хранилищах или на серверах самой компании. Чаще всего доступ к этим данным имеют большинство сотрудников, при этом степень защиты относительно низкого уровня. В общем случае содержание и обеспечения должного уровня работы Data lake обходится недорого. В то же время услуги администрирования и хранения Data lake предоставляют специализированные фирмы, такие как:
Перечисленные компании не только предоставляют место для хранения озёр данных, но и инструменты для обработки и структуризации данных.
Согласно исследованию MarketsandMarkets, к 2021 году рынок Data lake вырастет до $8,81 млрд с годовым темпом роста 28,3%. Уже на сегодня Data lake являются неотделимой частью Big Data.
Основная проблема озёр данных, аналогично природным водоёмам, заключается в том, что они могут превращаться в так называемые болота. Другими словами, хранилища бывают до такой степени захламлены данными, что структурировать их, а уж тем более получить полезную информацию уже не представляется возможным.
Руководитель дата-менеджмента и облачной платформы компании SAP Кен Тсай называет это «диссонансом данных»:
«При диссонансе данные нельзя привести в упорядоченный и совместимый вид без тщательной проработки всех массивов. В таком хранилище одни виды данных нельзя сопоставить и сгруппировать с другими».
В этом случае данные могут дублироваться или, наоборот, теряться между разными отделами компании.
Lets get acquainted! We will throw off intro materials about us and Data products. We promise - no spam ;)