Məlumat gölü və məlumat anbarının ən yaxşı elementlərini birləşdirən Lakehouse-un yeni açıq arxitekturası son illərdə müəssisələrin diqqətini fəal şəkildə cəlb edir. Bu hibrid həll yalnız məlumat gölünün çevikliyini və miqyasını təmin etmir, həm də bizneslərin məlumat anbarlarının klassik konsepsiyası çərçivəsində məlumatın etibarlı saxlanması və emalı üçün giriş səviyyələrinin aydın şəkildə ayrılması və daxili təhlükəsizlik mexanizmləri daxil olmaqla məlumat idarə edilməsi (data governance) məsələsinə diqqət yetirir. Məlumat gölləri Azərbaycanda böyük həcmdə məlumatların işlənməsi və sonradan təhlili üçün artıq geniş şəkildə istifadə edilsə də, Data Lakehouse konsepsiyası yenicə tətbiq olunmağa başlayır.
Bu yanaşmanın faydalarını daha yaxşı başa düşmək üçün IOMETE-nin Data Lakehouse həllini fəal şəkildə təbliğ edən DataLead Consulting şirkətinin baş direktoru Ruslan Məmmədovla söhbət etdik.
— Niyə şirkətiniz Data Lakehouse kimi bir istiqamətə diqqət yetirmək qərarına gəldi?
— Gəlin ondan başlayaq ki, Data Lakehouse şirkətimizin yeganə fəaliyyət sahəsi deyil. Şirkətimiz fəaliyyətinə Oracle, MS-SQL və PostgreSQL kimi ənənəvi verilənlər bazası idarəetmə sistemlərinə (DBMS) xidmət göstərməklə başlamışdır və komandamız “Oracle Certified Master”, “EDB Certified Professional” və s. sertifikatına malikdir. kimi ən yüksək sertifikat səviyyəsinə malikdir. Biz həmçinin tarixən MongoDB, Cassandra və HBase kimi NoSQL həlləri ilə işləyirik. Biz dövlət qurumları, bankçılıq və digər biznes sahələrində çoxlu uğurlu layihələr həyata keçirmişik. 20 ildən artıq təcrübəmiz komandamıza sürətli və ən əsası zəmanətli yüksək keyfiyyətli xidmət göstərməyə imkan verir. Eyni zamanda, son illərdə məlumatla işləmək üçün biznes tələblərində əhəmiyyətli dəyişikliklər baş vermişdir. Məlumatların həcmi eksponensial olaraq artır və ənənəvi məlumat saxlama sistemləri artıq həmişə müasir tapşırıqların öhdəsindən gələ bilmir. Müasir biznes proqramlarının şəkilləri, videoları və sənədləri, sosial şəbəkələrdən alınan məlumatlar və müxtəlif cihazlardan (o cümlədən IoT cihazları) böyük həcmdə telemetriya kimi strukturlaşdırılmamış məlumatların saxlanması və emalı ehtiyacının yaranması son onillikdə müəssisələr tərəfindən fəal şəkildə istifadə edilən və inkişafına səbəb olan göl həllərinin yaranmasına səbəb olmuşdur. Bununla belə, hazırda mövcud məlumat gölü həlləri biznesləri məlumatların təhlükəsiz girişi, emalı və saxlanması üçün kifayət qədər təminatlı mexanizmlərlə təmin etmir. Buna görə də, məlumat gölünün inkişafının növbəti təkamül mərhələsi Data Lakehouse texnologiyası, məlumat gölü və anbarının ən yaxşı elementlərini özündə birləşdirən hibrid arxitekturadır və nəinki böyük həcmdə məlumatı təhlükəsiz saxlamağa və emal etməyə, həm də onları effektiv idarə etməyə imkan verir.
— Data Lakehouse ilə ənənəvi məlumat saxlama sistemləri və məlumat gölü həlləri arasında əsas fərq nədir?
— Data Lakehouse-un üstünlüklərini qiymətləndirmək üçün onu eyni anda hər iki yanaşma ilə müqayisə etmək lazımdır.
Ənənəvi məlumat anbarı yükləmədən əvvəl öncədən işlənmiş strukturlaşdırılmış məlumatların saxlanması üçün bir həlldir. Yükləndikdən sonra məlumatlar yoxlama, təhlil və digər məqsədlər üçün əlçatan olur. Bu, məlumatların standartlaşdırılmasını və ardıcıllığını təmin edən yüksək səmərəli həlldir. Bununla belə, çatışmazlıqlar da var. Məlumat anbarı ondan kənarda qalan xam məlumatları nəzərə almır, bu da onları təhlil və emal etmək imkanlarını məhdudlaşdırır. Bundan əlavə, verilənlərin həcmi artdıqca ilkin emalın (strukturlaşdırılmasının) və məlumat anbarının verilənlər bazalarına məlumatın daxil edilməsinin vaxtı və dəyəri əhəmiyyətli dərəcədə arta bilər. Əlavə edilmiş xarici fayllardan metaməlumatların indeksləşdirilməsi və çıxarılması, həmçinin onların aktuallığının və etibarlılığının monitorinqi (versiyalaşdırılması) məlumat anbarı paradiqmasında verilənlərin emal vaxtını və aparat tələblərini əhəmiyyətli dərəcədə artırır.
Məlumat gölü isə strukturlaşdırılmış və strukturlaşdırılmamış məlumatları orijinal formada saxlaya bilir. Bu mərkəzləşdirilmiş məlumatları real vaxt rejimində qəbul edə bilər ki, bu da şirkətlərə dərin analitika aparmağa və müxtəlif maşın öyrənmə alqoritmlərindən istifadə etməyə imkan verir. Lakin məlumat göllərinin də zəif tərəfləri var. Əsas məsələlərdən biri məlumatların idarə edilməsidir (Data Governance). Məlumat gölləri çox vaxt məlumatların keyfiyyətinə nəzarət, girişə nəzarət və mühafizə üçün aydın mexanizmlərdən məhrumdur. İdarə olunmayan məlumat gölü, strukturlaşdırılmamış və zəif təşkil edilmiş məlumatların yararsız hala düşdüyü sözdə «məlumat bataqlığına» çevrilmək riski daşıyır. Bundan əlavə, məlumat təhlükəsizliyinə diqqət yetirilməməsi təşkilatlar üçün ciddi risklərə səbəb ola bilər.
Data Lakehouse arxitekturası məlumat gölünün təkamülüdür və ənənəvi məlumat göllərində verilənlərin idarə edilməsində əsas çatışmazlıqları aradan qaldırmaq üçün nəzərdə tutulmuşdur. O, məlumat gölünün miqyaslılığını və çevikliyini məlumat anbarının idarə oluna bilməsi və yüksək sorğu performansı ilə birləşdirir. Data Lakehouse məlumatları xam formada saxlaya bilər, həm də o, strukturlaşdırılmış analitika üçün əməliyyatları və metadata idarəçiliyini dəstəkləyir.
Data Lakehouse məlumatların keyfiyyətinə nəzarət, girişə nəzarət, metadata istifadəsi və ACID əməliyyatlarını dəstəkləmək daxil olmaqla məlumat idarəetmə mexanizmlərini təkmilləşdirir. O, məlumat gölünün çevikliyini və miqyasını məlumat anbarının funksionallığı və strukturlaşdırılmış yanaşması ilə birləşdirir və nəticədə daha səmərəli və təhlükəsiz məlumatların idarə olunması təmin edilir. Bu təkmilləşdirmələr Data Lakehouse-u etibarlılıq, təhlükəsizlik və idarəolunmanın vacib olduğu böyük həcmli məlumatlarla işləyən təşkilatlar üçün ideal seçim edir.
Data Lakehouse bütün məlumat növləri üçün vahid idarəetmə sistemi, saxlama və metadata idarəetməsi, ACID əməliyyatları və miqyaslılığı təmin edir. Lakehouse arxitekturası təşkilatlara verilənlərlə effektiv işləməyə imkan verir, məlumat gölünün çevikliyini məlumat anbarının idarəolunması ilə balanslaşdırır. Bundan əlavə, şirkətimiz tərəfindən təklif olunan IOMETE Data Lakehouse platforması Python, R, SQL, Scala, Java və s. kimi geniş çeşidli məlumatların emalı alətlərini dəstəkləyir və bu, onu maşın öyrənməsi və qabaqcıl analitika üçün ideal edir.
— IOMETE-nin Data Lakehouse platformasından istifadə etməyin biznesə əsas faydaları hansılardır?
— Data Lakehouse-un əsas üstünlükləri aşağıdakılardır:
- Müxtəlif iş yüklərinin dəstəklənməsi: IOMETE Data Lakehouse həm strukturlaşdırılmış, həm də strukturlaşdırılmamış məlumatları emal edə bilər, həm analitik (OLAP) həm də əməliyyat (OLTP) sorğularını yerinə yetirməyə imkan verir və onu qabaqcıl analitika və maşın öyrənmə alqoritmləri üçün uyğun edir.
- Xərc baxımından effektivlik: IOMETE-nin ayrılmış hesablama və saxlama arxitekturası şirkətlərə hesablama və ya saxlama resurslarını çevik şəkildə genişləndirməyə və yalnız istifadə etdikləri resurslara görə ödəniş etməyə imkan verir, bununla da məlumat anbarı və gölü (birləşdirilmiş qovşaqlar əsasında) ilə müqayisədə xərcləri əhəmiyyətli dərəcədə azaldır.
- Təhlükəsizlik və məlumatların idarə edilməsi: Məlumat göllərindən fərqli olaraq, IOMETE Data Lakehouse korporativ mühitdə müxtəlif səviyyələrdə istifadəçi girişinin ayrılmasını və məlumatların yüksək səviyyədə qorunmasını idarə etməyə imkan verən daxili təhlükəsizlik mexanizmlərinə malikdir. Daxili məlumat idarəetmə vasitələri məlumatların keyfiyyətinə nəzarət etməyə kömək edir və məlumat gölləri üçün xarakterik olan təkrarlanma və məlumat keyfiyyətinin aşağı olmasının qarşısını alır.
- Platforma Apache Iceberg, Apache Spark, MinIO, Kubernetes, Parquet və s. kimi bir sıra açıq mənbə həlləri ilə sorğuların idarə edilməsi və avtomatlaşdırılması üçün bir çətir olduğundan, IOMETE müştəri məlumatları şöbəsinin mütəxəssisləri IOMETE abunəliyini yeniləməmək qərarına gəlsə belə, tanış və artıq konfiqurasiya edilmiş mühitdə işləməyə davam edə bilirlər. Onlar hələ də tam quraşdırılmış və konfiqurasiya edilmiş açıq mənbə məhsul dəstinə sahib olacaqlar. Bu, şirkətlərə məlumatlarının nəzarət altında qalacağına və istifadə etdikləri alətlərin bir təchizatçıdan xüsusi proqram təminatı üçün abunəliklərdən və lisenziya müqavilələrindən asılı olmayacaqlarına əminlik verir.
— IOMETE Data Lakehouse hansı tapşırıqları həll edir?
— Data Lakehouse şirkətlərə məlumatları asanlıqla idarə etməyə və onlardan hesabat, analitika və süni intellektin dəstəklənməsi üçün istifadə etməyə imkan verir. Həll arxitekturası müəssisələrə məlumatların saxlanması və idarə edilməsinin tam şəkildə təmin edir:
- Vahid mühitdə məlumatların saxlanması və emalı: Ənənəvi məlumat anbarları strukturlaşdırılmış məlumatları emal edir, məlumat gölləri isə strukturlaşdırılmamış məlumatları emal edir. Lakehouse arxitekturası hər iki məlumat növünü bir platformada birləşdirərək məlumatların təhlilini və işlənməsini asanlaşdırır.
- Ənənəvi məlumat anbarlarının məhdudiyyətlərinin aradan qaldırılması: Lakehouse məlumat anbarlarının sürətini və performansını qoruyur, eyni zamanda məlumat göllərinin miqyasını və çevikliyini təmin edir, bu da saxlanma və məlumatların sürətli emalını optimallaşdırır.
- Axın və toplu məlumat emalının inteqrasiyası: Arxitektura vahid platformada həm axın, həm də toplu (stream and batch) işlənməsini dəstəkləyir, təşkilatlara dinamik və çevik məlumat emal imkanları təqdim edir.
- Analitika və süni intellekt üçün vahid platforma: Lakehouse arxitekturası bütün növ məlumatların saxlanmasını və işlənməsini birləşdirir ki, bu da maşın öyrənməsi (ML) və AI modellərini kompleks inteqrasiyaya və ya sistemlər arasında məlumatların ötürülməsinə ehtiyac olmadan verilənlərə tətbiq etməyi asanlaşdırır. .
— Data Lakehouse-a köçməyin hansı çətinlikləri var?
— Data Lakehouse bir çox üstünlüklərə malik olsa da, onun həyata keçirilməsi arxitekturasını qura bilən və lazım gəldikdə məlumatların (Data Engineering) miqrasiyasını həyata keçirə və müştəri komandasına təlim verə bilən ixtisaslı mütəxəssislər tələb edir. Bu dəstək olmadan bu həllə uğurlu keçid daha uzun çəkə bilər. DataLead Consulting-də biz müştərilərimizə yeni arxitekturaya keçidlə bağlı problemləri uğurla həll etməyə kömək edərək Data Lakehouse sahəsində təcrübəmizi fəal şəkildə inkişaf etdiririk.
— Nə üçün şirkətlər Data Lakehouse-u seçirlər?
— Böyük verilənlər və analitik tapşırıqlarla işləyən müasir şirkətlər üçün Data Lakehouse verilənlərlə işləmək üçün geniş çeşidli alətlər təqdim edir, məlumatların alınmasından onun təhlilinə qədər bütün mərhələləri dəstəkləyir, həmçinin təşkilatlara məlumatların saxlanması xərclərini əhəmiyyətli dərəcədə azaltmağa, onların miqyasını artırmağa kömək edir. və məlumatların idarə edilməsini sadələşdirir.
Qeyd etmək lazımdır ki, Dell Technologies kimi İT bazarı üçün əhəmiyyətli bir korporasiya məlumatların idarə edilməsi ehtiyaclarını həyata keçirmək üçün IOMETE Data Lakehouse Platformasını seçdi və ilkin tətbiq mərhələsini uğurla başa vuraraq, platformanın istifadəsini genişləndirməyə davam edir. Şirkət tədricən layihəyə daxil edilməsi planlaşdırılmayan artan sayda departamentlərdən məlumatları köçürür ki, bu da IOMETE həllinə artan inamı və onun müxtəlif departamentlərin işini dəstəkləməkdə effektivliyini göstərir.