Почему  аналитика и какой  способ управления данными будет лучшим?

Почему аналитика и какой способ управления данными будет лучшим?

Данные растут быстрыми темпами. Быстрее, чем мы можем это представить. Forbes подводит итоги прогноза IDC, написав о производстве колоссальных 180 зетабайт информации (или 180 триллионов гигабайт) в 2025 году. Для сравнения, в 2015 году было создано менее 10 зетабайт. Мир меняется так быстро, что в течение следующих пяти лет эти оценки могут измениться и предсказать еще более крутую кривую роста информации. 

Поэтому мы ищем новые способы хранения, анализа и использования материалов. Сомнений нет, данные - это золотая средина , нужно только найти нужные инструменты для их добычи.

Подходы к управлению: 

Существует два совершенно разных подхода к управлению материалов в организации. Одним из них является создание хранилища данных (eng. Data Warehouse) - система отчетности и анализа, созданная системным способом с заранее определенными правилами. Второе-сохранение Lake Data (рус. озеро данных) - хранилище данных, в котором почти нет предопределенных правил.

Как вы можете себе представить, оба решения имеют свои плюсы и минусы. Хранилище данных проще в управлении и проще в использовании. Но ее строительство занимает много времени, и требования меняются в процессе. Возможно, когда хранилище построено, оно уже устарело. И это дорого, вам нужно инвестировать в передовую технологию хранения информации , которая становится еще более дорогостоящей, когда вам нужно ее обновить.

Lake Data это хранилище всех видов данных-структурированных,полу структурированныхх и неструктурированных, хранящихся „как есть", наряду с метаданными, в распределенной технологии – Hadoop. Он дает вам гораздо лучшие возможности анализа, быстро настраивается, дешевле и очень гибок в использовании. Однако, если он не управляется должным образом, он может в конечном итоге поддерживать Data Swamp (от англ.болото) – хранилище, полное мусора с длительным временем отклика.

Lake Data может быть продуктивным методом обработки больших показателей, если оно будет хорошо выполнено. Отправной точкой здесь является управление материалами. Необходимо сформулировать правила, связанные с оптимизацией, защитой конфиденциальности имонетизацияй хранящихся данных. Политика управления большими данными должна быть адаптирована к целям многих функций, которые данные должны выполнять в организации. Одной из очень важных частей управления данными является реализация Data Lineage-отслеживание жизненного цикла данных, их происхождения и обработки, все на основе мета-данных.

Lake Data  может быть очень продуктивным методом обработки данных, если оно будет хорошо выполнено. Отправной точкой здесь является управление большиобъемомом информации. Необходимо сформулировать правила, связанные с оптимизацией, защитой конфиденциальности монетизацияей хранилища. Политика управления материалами должна быть адаптирована к целям многих функций, которые должны выполнять в организации. Одной из очень важных частей управления, является реализация Data Lineage-отслеживание жизненного цикла данных, их происхождения и обработки, все на основе мета-данных.  

Некоторые организации, видят огромную ценность в создании Центра компетенций Big Data – специализированных сотрудников, которые выступают в качестве защитников пользователей и заботятся о соблюдении правил управления .  

Эти два элемента - Big Data Governance от Data Lineage и Big Data Competence Center делают воду вашего Data Lake чистой и приятной в использовании.

Итак, что лучше: lake data или хранилиинформацииции? Нет простого ответа на этот вопрос. В современных организациях есть место для обоих решений. Наиболее важным фактором, определяющим подход к управлению материалами, должна быть бизнес-цель обработки. Если вам нужна отчетность для биржи-вы, вероятно, должны выбрать хранилище для этой части бизнеса. Однако, если вы ищете большую ценность от лучшего понимания своих клиентов, получая знания из разных источников или обнаруживая отношения между клиентами, вам, вероятно, следует использовать Data Lake.