PBi_2_Data Oefening2 binnentrekken en klaarmaken (Uitleg oefening)

Bij de 2de oefening gaan we terug data binnentrekken, data opkuisen, relaties leggen tussen tabellen en gaan we ook met Dax formules werken.

We gaan terug Power Bi openen en het automatisch leggen van relaties uitschakelen. Daarna gaan we de file opslaan als Oef 2 Uitbreiding.pbix

In deze oefening gaan we starten met een Excel-file. De bestanden voor deze oefening vind je HIER.

Deel 1: AdventureWorks tabel

  • Selecteer ‘Excel‘ en klik op ‘Connect‘.
  • Browse naar de plaats waar je jouw files opgeslagen hebt.
  • Selecteer in de ‘AdventureWorks_Database‘.

PowerBI analyseert de file, waar die ook vandaan komt, kijkt wat er in aanwezig is en opent de ‘Navigator‘ met alle aanwezige entiteiten.

Nu, zoals je zal zien in die navigator, zijn er zowel benoemde tabellen als onbenoemde tabellen aanwezig. Dit gebeurt soms bij Excel-bestanden en dit kan behoorlijk verwarrend zijn.

Maar als je kijkt naar de inhoud van bijvoorbeeld Sheet2, dan zie je dat die dezelfde is als de inhoud van de tabel ‘Calendar’.
Sheet3 is identiek aan de tabel ‘Customer’.
Sheet4 komt overeen met de tabel ‘Product’ en zo verder…

Als in het Excel-bestand (onder Tabelontwerp) de tabel een naam gekregen heeft, zullen zowel die naam als de Sheet opgenomen worden in de navigator van PowerBI.

In onderstaand voorbeeld zie je hoe de Tabelnaam van Sheet2 ‘Calendar‘ is.

Wij kiezen in onze navigator de benoemde tabellen.

  • Selecteer de 5 benoemde tabellen. De anderen hebben we niet nodig.
  • Klik op ‘Laden‘ (Load)

PowerBI verbindt met de bron, welke dat ook is, en maakt een kopie van die dataset.

De dataset met de verschillende tabellen wordt zichtbaar in ons ‘Fields’-venster aan de rechterzijde van onze applicatie…

… maar ons scherm is nog steeds leeg. We zitten immers in de visualisatie-tab aan de linker kant.

Het tweede pictogram hebben we ook al gezien. Dit is de tab waarin we een zicht krijgen op onze data.

Door één van de tabellen te selecteren in het ‘Velden’-venster en naar ons ‘Datazicht‘ te gaan kunnen we zien waaruit de tabel precies is opgebouwd.

We gaan dit PowerBI-bestand nu opslaan en even kijken naar de bestandsgrootte…

Je kan hiervoor gaan via het ‘File’-menu of via het pictrogram van de diskette.

Ik bewaar mijn document in dezelfde folder als mijn oorspronkelijke Excel-bestanden.
De data hoeven niet in dezelfde folder te zitten als het PowerBI-bestand, maar ik zet hem hier om jullie iets te tonen… Is er iets dat jullie opvalt in onderstaande afbeelding?

Zoals je ziet is het PowerBI-bestand veel kleiner dan het originele Excel-werkblad, wat behoorlijk verbazend is als je weet dat Excel de bestanden al in een gecomprimeerd formaat opslaat.

PowerBI is verbazingwekkend wat het comprimeren van data betreft!

Dit maakt het voor PowerBi mogelijk om honderden miljoenen rijen aan te kunnen.

En tenslotte hebben we nog onze model- of relatietab.

Dit geeft ons zicht op de verschillende tabellen, hun velden en de relaties die PowerBI automatisch gemaakt heeft. We gaan hier zo meteen nog op terug komen.

De dataset die we hier hebben binnengetrokken was extreem zuiver. We hebben hier niets aan hoeven doen, maar zoals we gezien hebben in dag 1 van de workshop is dat niet altijd het geval. Beter gezegd: we hebben vaker te maken met ‘rommelige’ data in plaats van goed opgebouwde zuivere datasets.

Deel 2: Budget tabel

De 2de file die in onze map ‘DATA’ zit, is daar een goed voorbeeld van. Als we de file open doen in Excel, ziet die er zo uit:

Wij, mensen, vinden deze tabel misschien op het eerste zicht niet rommelig, maar de kleuren bijvoorbeeld hebben voor de computer, of beter voor PowerBI, weinig betekenis.

PowerBI heeft ook geen boodschap aan de bovenste rijen die enkel aanwezig zijn voor ons, mensen, om bijkomende informatie te krijgen.

We zien hier ook de maanden van 2016 verspreid over verschillende kolommen wat voor ons overzichtelijk is maar onhandig om ons datamodel op te bouwen en ‘best practice’ is het al zeker niet…

Dan is de kolom ‘Grand Total‘ eigenlijk overbodig want de nodige gegevens staan reeds in de tabel en kunnen gemakkelijk door PowerBI berekend worden.

Er zijn de subtotalen op verschillende plaatsen die we niet echt nodig hebben…

Nu mogen jullie zelf de 2 excel files met data binnenhalen in de Power Query Editor. De data bewerken waar het nodig is. Daarna mag je die binnentrekken in Power Bi.

De uitleg hoe je dit moet doen staat op de volgende pagina.