Lakehouse
Lakehouse je jedinstvena arhitektura koja objedinjuje najbolje karakteristike Data Lake repozitorijuma, koji se koristi za čuvanje nestrukturiranih i polu-strukturiranih podataka, kao i skladišta podataka (Data Warehouse) koja se koriste za čuvanje strukturiranih podataka koji služe za kreiranje izveštaja. Odnosno, sve ove podatke možete da čuvate na jednom mestu i pristupite im putem PySpark ili SQL jezika…
Podaci unutar Lakehouse-a se čuvaju u Delta Parquet datotekama. Apache Spark koristi Parquet datoteke, a Microsoft je u okviru Fabric okruženja uveo i verzioniranje takvih datoteka (Delta).
Lakehouse se kreira tako što se najpre prijavite u Microsoft Fabric. Nakon što se pojavi uvodni ekran, kliknite na dugme Create, a zatim na OneLake catalog.
Kliknite na dugme Add Content. Zatim izaberite opciju Lakehouse.
Zatim, novom objektu dodelite neko ime i Workspace gde želite da se on čuva.
U momentu kreiranja Lakehouse sadrži dva foldera: Files (gde čuvate strukturirane ili polu-strukturirane datoteke, npr: JPG, PNG, MP4, CSV, XML, JSON itd.) i Tables (gde se uvoze tabele u kojima se čuvaju strukturirani podaci).
Hajde da uvezemo jednu proizvoljnu datoteku! Kliknite na Upload Files, a zatim pronađite sliku Slavko.jpg. Kliknite na Upload i ona će se pojaviti u Files folderu. Ako kliknete na nju, Microsoft Fabric će otvoriti ovu sliku i prikazati je u prozoru.
Na ovaj način možete da uvezete bilo koju datoteku koju želite da sačuvate u vašem Lakehouse-u.
Kako se kreiraju tabele? Ovo je moguće postići tako što najpre uvezemo datoteku, na isti način kao što smo učinili malopre. Uvezimo datoteku DBD.CSV. Kada se datoteka pojavi u folderu Files potrebno je otvoriti njen kontekstni meni, otvoriti meni Load to Tables, pa izabrati opciju New Table i dati joj neko ime, npr. DBDT.
Malopre navedeni način je sasvim korektan, ali preporuka je da prilikom uvoza ipak koristite Dataflow Gen2 funkcionalnost kako biste dodatno mogli i da izvršite transformaciju podataka. Kliknite na Get Data, pa Dataflow Gen2. Učitajte Excel datotetku DBD.xlsx, a zatim u njoj izaberite odgovarajuću tabelu.
Nakon što se otvori Editor, moguće je izvršiti još neke transformacije kako bi se podaci pripremili za izveštavanje.
U donjem desnom uglu videćete, u polju Data Destination, da je Microsoft Fabric sačuvao Dataflow Gen2 u okviru vašeg Lakehouse-a, ali nije napravio tabelu. Obrišite ovo podešavanje. Pokrenite ponovo postavljanje destinacije i navedite da želite da kreirate tabelu u okviru Lakehouse-a.
Nakon što se završi ova procedura tabela, kojoj smo dali ime Transakcije, pojaviće se u folderu Tables.
Svaki put kada napravite Lakehouse automatski se kreira i SQL analytics endpoint.
Ako otvorite SQL analytics endpoint ovde možete da vidite sve tabele, poglede i druge elemente Lakehouse-a. On vam omogućava da napišete SQL upit pomoću koga možete da izvučete željene podatke.
Microsoft Fabric Lakehouse, između ostalog, omogućava kreiranje prečica (Shortcuts) ka eksternim izvorima podataka bez kopiranja podataka, već pristupanjem istim kao da se nalaze u okviru istog tenanta.