Lakehouse

Lakehouse je jedinstvena arhitektura koja objedinjuje najbolje karakteristike Data Lake repozitorijuma, koji se koristi za čuvanje nestrukturiranih i polu-strukturiranih podataka, kao i skladišta podataka (Data Warehouse) koja se koriste za čuvanje strukturiranih podataka koji služe za kreiranje izveštaja. Odnosno, sve ove podatke možete da čuvate na jednom mestu i pristupite im putem PySpark ili SQL jezika…

Podaci unutar Lakehouse-a se čuvaju u Delta Parquet datotekama. Apache Spark koristi Parquet datoteke, a Microsoft je u okviru Fabric okruženja uveo i verzioniranje takvih datoteka (Delta).

Lakehouse se kreira tako što se najpre prijavite u Microsoft Fabric. Nakon što se pojavi uvodni ekran, kliknite na dugme Create, a zatim na OneLake catalog.

Kliknite na dugme Add Content. Zatim izaberite opciju Lakehouse.

Zatim, novom objektu dodelite neko ime i Workspace gde želite da se on čuva.

U momentu kreiranja Lakehouse sadrži dva foldera: Files (gde čuvate strukturirane ili polu-strukturirane datoteke, npr: JPG, PNG, MP4, CSV, XML, JSON itd.) i Tables (gde se uvoze tabele u kojima se čuvaju strukturirani podaci).

Hajde da uvezemo jednu proizvoljnu datoteku! Kliknite na Upload Files, a zatim pronađite sliku Slavko.jpg. Kliknite na Upload i ona će se pojaviti u Files folderu. Ako kliknete na nju, Microsoft Fabric će otvoriti ovu sliku i prikazati je u prozoru.

Na ovaj način možete da uvezete bilo koju datoteku koju želite da sačuvate u vašem Lakehouse-u.

Kako se kreiraju tabele? Ovo je moguće postići tako što najpre uvezemo datoteku, na isti način kao što smo učinili malopre. Uvezimo datoteku DBD.CSV. Kada se datoteka pojavi u folderu Files potrebno je otvoriti njen kontekstni meni, otvoriti meni Load to Tables, pa izabrati opciju New Table i dati joj neko ime, npr. DBDT.

Malopre navedeni način je sasvim korektan, ali preporuka je da prilikom uvoza ipak koristite Dataflow Gen2 funkcionalnost kako biste dodatno mogli i da izvršite transformaciju podataka. Kliknite na Get Data, pa Dataflow Gen2. Učitajte Excel datotetku DBD.xlsx, a zatim u njoj izaberite odgovarajuću tabelu.

Nakon što se otvori Editor, moguće je izvršiti još neke transformacije kako bi se podaci pripremili za izveštavanje.

U donjem desnom uglu videćete, u polju Data Destination, da je Microsoft Fabric sačuvao Dataflow Gen2 u okviru vašeg Lakehouse-a, ali nije napravio tabelu. Obrišite ovo podešavanje. Pokrenite ponovo postavljanje destinacije i navedite da želite da kreirate tabelu u okviru Lakehouse-a.

Nakon što se završi ova procedura tabela, kojoj smo dali ime Transakcije, pojaviće se u folderu Tables.

Svaki put kada napravite Lakehouse automatski se kreira i SQL analytics endpoint.

Ako otvorite SQL analytics endpoint ovde možete da vidite sve tabele, poglede i druge elemente Lakehouse-a. On vam omogućava da napišete SQL upit pomoću koga možete da izvučete željene podatke.