Новая открытая архитектура Lakehouse, сочетающая в себе лучшие элементы озер данных (Data Lake) и хранилищ данных (Data Warehouse), активно привлекает внимание бизнеса в последние годы. Это гибридное решение не только обеспечивает гибкость и масштабируемость озер данных, но и фокусируется на строгом управлении данными (Data Governance), включая четкое разделение уровней доступа и встроенные механизмы безопасности для надежного хранения и обработки информации в рамках концепции классических корпоративных хранилищ данных. В то время, как Data Lakes уже широко используются бизнесом в Азербайджане для обработки больших объемов данных и последующей аналитики, концепция Data Lakehouse только начинает активно распространяться.
Чтобы лучше понять преимущества этого подхода, мы пообщались с Русланом Мамедовым, генеральным директором компании DataLead Consulting, которая активно продвигает решение Data Lakehouse от компании IOMETE.
— Почему ваша компания решила сосредоточиться на таком направлении, как Data Lakehouse?
— Начнем с того, что Data Lakehouse — это не единственное направление деятельности нашей компании. Наша компания начинала свою деятельность с предоставления услуг по обслуживанию таких традиционных систем управления базами данных (СУБД), как Oracle, MS-SQL и PostgreSQL, по которым у нашей команды сертификация высшего уровня, включая Oracle Certified Master, EDB Certified Professional и др. Также мы исторически работаем с NoSQL решениями, такими как MongoDB, Cassandra и HBase. Нами реализовано множество успешных проектов в государственных учреждениях, банковской и других сферах бизнеса. Более чем 20-летний опыт работы позволяет нашей команде предоставлять оперативный и, что главное, гарантированно качественный сервис.
В то же время за последние годы произошли существенные изменения в бизнес-требованиях к работе с данными. Объемы данных растут экспоненциально и традиционные системы хранения данных уже не всегда справляются с современными задачами. Появившаяся потребность хранить и обрабатывать такие типы неструктурированных данных, как изображения, видео и документы современных бизнес-приложений, информацию из социальных сетей и огромный объем телеметрии различных устройств (в том числе и IoT-устройств), привела к появлению и развитию решений DataLake, которые активно применяются бизнесом последнее десятилетие. Но в настоящее время существующие решения озер данных не предоставляют бизнесу достаточно гарантированных механизмов для безопасного доступа, обработки и хранения данных. Именно поэтому следующим эволюционным этапом развития озер данных стала технология Data Lakehouse — гибридная архитектура, которая объединяет в себе лучшие элементы Data Lakes и Data Warehouses, позволяя не только безопасно хранить и обрабатывать большие объемы данных, но и эффективно управлять ими.
— В чем заключается принципиальное отличие Data Lakehouse от привычных систем хранения данных и решений DataLake?
— Для того чтобы оценить преимущества Data Lakehouse, нужно сравнивать его сразу с обоими подходами — Data Warehouse и Data Lake.
Традиционное хранилище данных (Data Warehouse) — это решение для хранения структурированных данных, которые предварительно обрабатываются перед загрузкой. После загрузки данные становятся доступными для проверки, анализа и других целей. Это высокоэффективное решение, обеспечивающее стандартизацию и согласованность данных. Однако есть и недостатки. Data Warehouse не учитывает необработанные данные, которые остаются за его пределами, что ограничивает возможности по их анализу и обработке. Кроме того, временные и финансовые затраты на предварительную обработку (структурирование) и внесение информации в базы данных Data Warehouse могут значительно возрастать по мере увеличения объема данных. Ощутимо увеличивает время обработки данных и требования к аппаратным ресурсам в парадигме DWH индексация и извлечение метаданных из прикрепленных внешних файлов, а также отслеживание их актуальности и достоверности (версионность).
Data Lake, напротив, может хранить структурированные и неструктурированные данные в их исходном виде. Это централизованное хранилище может получать данные в режиме реального времени, что позволяет компаниям проводить глубокую аналитику и использовать различные алгоритмы машинного обучения. Но и озера данных имеют свои слабые стороны. Одной из ключевых проблем является Data Governance — управление данными. В Data Lake зачастую отсутствуют четкие механизмы контроля качества данных, управления доступом и защиты. Неуправляемое озеро данных рискует превратиться в так называемое «болото данных», где неструктурированные и плохо организованные данные становятся бесполезными. Кроме того, недостаточное внимание к безопасности данных может привести к серьезным рискам, особенно для организаций, работающих в регламентированных отраслях.
Архитектура Data Lakehouse — это эволюционное развитие Data Lake, созданная для устранения ключевых недостатков, связанных с управлением данными в традиционных озерах данных. Она сочетает в себе масштабируемость и гибкость Data Lake с управляемостью и высокой производительностью запросов, присущей Data Warehouse. В Data Lakehouse данные могут храниться в необработанном виде, как в Data Lake, но при этом поддерживаются транзакции и управление метаданными для структурированной аналитики, что характерно для Data Warehouse.
Data Lakehouse улучшает механизмы Data Governance, включая контроль качества данных, управление доступом, использование метаданных и поддержку транзакций ACID. Это решение объединяет гибкость и масштабируемость Data Lake с функциональностью и структурированным подходом, характерным для Data Warehouse, что позволяет обеспечить более эффективное и безопасное управление данными. Благодаря этим улучшениям Data Lakehouse становится идеальным выбором для организаций, работающих с большими объемами данных, где важны надежность, безопасность и управляемость.
Data Lakehouse предлагает единую систему управления и хранилище для всех типов данных, а также обеспечивает управление метаданными, транзакции ACID и масштабируемость. Архитектура Lakehouse позволяет организациям эффективно работать с данными, обеспечивая баланс между гибкостью Data Lake и управляемостью Data Warehouse. Кроме того, платформа IOMETE Data Lakehouse, предлагаемая нашей компанией, поддерживает широкий спектр таких инструментов обработки данных, как Python, R, SQL, Scala, Java Julia и других, что делает ее идеальной для машинного обучения и расширенной аналитики.
— Какие ключевые преимущества для бизнеса дает использование Data Lakehouse от IOMETE — Self-Hosted Data Lakehouse Platform?
— Основные преимущества Data Lakehouse включают:
- Поддержка различных рабочих нагрузок: IOMETE Data Lakehouse может обрабатывать как структурированные, так и неструктурированные данные, позволяет выполнять как аналитические запросы (OLAP), так и операционные (OLTP) что делает его гибким для задач расширенной аналитики и машинного обучения.
- Экономическая эффективность: Разделение вычислений и хранения (decoupled compute & storage architecture) в IOMETE позволяет компаниям гибко расширять вычислительные ресурсы или системы хранения по отдельности и платить только за используемые ресурсы, что значительно снижает затраты по сравнению с DWH и DataLake (based on coupled nodes).
- Безопасность и управление данными: В отличии от озер данных, IOMETE Data Lakehouse имеет встроенные механизмы безопасности, что позволяет управлять разделением доступа пользователей разного уровня в корпоративной среде и высоким уровнем защиты данных. Встроенные инструменты управления данными помогают контролировать качество данных и предотвращают дублирование и низкое качество данных, что характерно для озер данных.
- Так как IOMETE Self-Hosted Data Lakehouse Platform является зонтом для администрирования и автоматизации запросов целого комплекса таких решений на основе Open Source, как Apache Iceberg, Apache Spark, MinIO, Kubernetes, parquet и других, специалисты data-отделов компаний-заказчиков IOMETE продолжат работу в знакомой и уже настроенной среде, даже если заказчик решит не продлевать подписку IOMETE. У них останется полностью установленный и настроенный комплекс продуктов Open Source. Это дает компаниям уверенность в том, что их данные останутся под контролем, а используемые инструменты не станут зависимыми от подписок и лицензионных соглашений специфического ПО одного вендора.
— Какие задачи решает IOMETE Data Lakehouse?
— Data Lakehouse позволяет компаниям легко управлять данными и использовать их для создания отчетов, аналитики и поддержки искусственного интеллекта. Архитектура решения предоставляет бизнесу полный цикл хранения и управления данными:
- Единое хранение и обработка данных: Традиционные хранилища данных обрабатывают структурированные данные, а озера данных — неструктурированные. Архитектура Lakehouse объединяет оба типа данных на одной платформе, упрощая анализ и обработку данных.
- Преодоление ограничений традиционных хранилищ данных: Lakehouse сохраняет скорость и производительность хранилищ данных, одновременно предоставляя масштабируемость и гибкость озер данных, что оптимизирует хранение и быструю обработку данных.
- Интеграция потоковой и пакетной обработки данных: Архитектура поддерживает как потоковую, так и пакетную обработку на одной платформе, предоставляя организациям динамичные и гибкие возможности обработки данных.
- Единая платформа для аналитики и ИИ: Архитектура Lakehouse объединяет хранение и обработку всех типов данных, что позволяет легко применять модели машинного обучения (ML) и ИИ к данным без необходимости сложной интеграции или перемещения данных между системами.
— Какие вызовы сопровождают переход на Data Lakehouse?
— Хотя Data Lakehouse обладает множеством преимуществ, ее внедрение требует квалифицированных специалистов, способных настроить архитектуру и, если потребуется, перенести данные (Data Engineering) и обучить команду заказчика. Без данной поддержки успешный переход на это решение может занять больше времени. В DataLead Consulting мы активно развиваем экспертизу в области Data Lakehouse, помогая нашим клиентам успешно решать задачи, связанные с переходом на новую архитектуру.
— Почему компании выбирают Data Lakehouse?
— Для современных Insight Driven компаний, работающих с большими данными и аналитическими задачами, Data Lakehouse предоставляет широкий набор инструментов для работы с данными, поддерживая все этапы от получения данных до их анализа, а также помогает организациям существенно снизить затраты на хранение данных, повысить их масштабируемость и упростить управление данными.
Следует отметить, что такая знаковая для IT-рынка корпорация, как Dell Technologies, остановила свой выбор на IOMETE Self-Hosted Data Lakehouse Platform для реализации своих нужд в области управления данными и, успешно завершив начальный этап внедрения, продолжает расширять использование платформы. Компания постепенно переносит данные все большего количества департаментов, которые изначально не планировались для включения в проект, что свидетельствует о росте доверия к решению IOMETE и его эффективности в поддержке работы различных подразделений.