Schema first of data first? Maar waar is je data?

schema first of data first
Hoe Power BI aan de basis staat om inzicht te krijgen uit al je data.

Een serie blogs over Excel en Power BI.

BLOG – In mijn vorige blog schreef ik over de waarde van Business Intelligence. Ik brak toen een lans om zo snel mogelijk naar de echte waarde van de business te gaan: de vierde en vijfde laag in het vijflagen model voor Business Intelligence (zie afbeelding). Nu neem ik je mee naar de veranderingen in de opslag van data./p>

Door Henk Vlootman, adviseur, trainer, spreker en auteur, en topspecialist op het gebied van Microsoft Power BI en Power Query.

We kennen drie soorten bronnen waarin data is opgeslagen. De eerste bron is een bedrijfsdatabase, zoals een Data warehouse (DWH), vervolgens kwam de persoonlijke bron, zoals Excel en, de nieuwste variant, de externe bron, die niet van het bedrijf of van jou zijn, zoals internetsites of koppelingen naar externe gegevens. Tot voor niet zo lang geleden waren dat redelijk strikt gescheiden bronnen. De huidige technieken staan echter verbindingen tussen de drie verschillende bronnen steeds meer toe. En dat heeft consequenties voor de gebruiker en de opslag van data.

Datageschiedenis

De eerste bron, de gecontroleerde opslag in databases, ontstond commercieel in de Jaren 50. Het opslaan van informatie in een elektronisch medium werd steeds belangrijker voor (de grotere) bedrijven. Mainframes, de centrale computers van die tijd, verwerkten alleen transacties, die volgens een vooraf ingestelde methodiek werden ingevoerd. Zo gebruikten de mainframes van toen daarvoor bijvoorbeeld ponskaarten (“niet vouwen, kreuken of beschadigen”, voor wie de overschrijvingsformulieren van de Postbank nog kennen) of terminals, die echt alleen maar konden verbinden met het mainframe. Werknemers waren gebruikers, want de techneuten – zoals ICT’ers werden genoemd – kende de abracadabra talen om informatie uit het systeem te toveren. Dataopslag in die dagen waren exclusieve “corporate affairs”.

Dat veranderde in een ongelooflijk manier met de introductie van de Personal Computer (PC). In de jaren 80-90 was de IBM XT dé machine. Ik maakte de introductie mee toen ik bij een Ministerie werkte. Voor de prijs van een goede middenklasse auto werden de PC’s met vrachtwagens tegelijk het Ministerie binnen gereden. Hoewel niet voor iedereen, want het DOS-besturingsprogramma was wat spartaans, maar toch, de PC werd snel een onmisbaar business gereedschap. Plotseling kon de business meer doen met de computer, zoals Word, Excel en 10 jaar later, email en internet gebruik.

Excel werd de standaard voor de berekende business vraagstukken en bezit deze positie nog steeds. Maar wat vroeger in papieren dossiers werd opgeslagen komt steeds vaker terecht als een elektronische variant op de harde schijf. De tweede wereld, de wereld van persoonlijke business data, ontstond bijna geluidloos. Binnen de opslag van data ontstonden tussen de beide werelden muren of misschien wel ravijnen.

En een nieuwe derde bron van dataopslag komt op ons af: data vanuit de buitenwereld, het internet bijvoorbeeld. Ik hoef nooit meer in mijn stoffige meterkast te duiken, want mijn energiebedrijf weet allang wat mijn gebruik is. En ach, bankieren doe ik alleen nog maar via internet, naar wens op mijn smartphone of op mijn computer. De data gaat door het grote internet naar de hele (business) wereld. Internet zorgt voor een steeds grotere verspreiding, maar daarnaast ook voor een forse vergroten van de hoeveelheid data.

Te veel data?

Bedrijfsdatabases gebruiken relationele databases waarbij relaties tussen tabellen worden gelegd. Wat steeds vaker gebeurd is het mixen van de drie verschillende databronnen in een rapport. Je model is dan een cocktail van tabellen uit verschillende bronnen, die je verder be- en verwerkt om tot samenhangende inzichten te komen.

En daar ontstaat het probleem, en dat is echt een spagaat voor de databeheerder. Want databases in Datawarehouses (DWH) zijn niet in dag gebouwd. Het is een tijdrovend proces van zorgvuldige analyse, collecteren van de gegevens, gieten in tabellen en koppelen door middel van relaties. In IT-trainingen wordt de nadruk gelegd op het modelleren in een zogenaamd ster model, waar de relaties worden gegroepeerd in de vorm van een ster. Deze methodiek creëert een omvangrijk en robuust, maar lastig en zeer complex DWH. Maar daar zit het probleem niet. Het probleem zit in de andere bronnen. Jarenlang zijn Excel bestanden als niet-professioneel gezien door ICT. Maar met de komst van Power Query en Power Pivot in Excel ontstaan gestructureerde tabellen, die zich goed lenen om toe te voegen aan dashboards.

Het echte probleem is de stortvloed van nieuwe (business) tabellen en verwijzingen naar tabellen. Als je data mixt wil je een centraal systeem waar de tabellen snel en goed te vinden zijn. De vraag is, waar laat je die tabellen en verwijzingen? De strakke regie van de relaties in een DWH geeft weinig ruimte voor het opslaan van andere soorten gegevens dan vooraf ingepland. Daarnaast vraagt de mix van tabellen om het maken van de relaties in de derde laag van het vijflagen model, dus buiten het DWH om. Een bijkomend probleem is dat een DWH niet goed is in het vinden van (de informatie in) de tabellen. Daar is een transactie verwerkende systeem simpelweg niet voor gemaakt.

Power BI voor het Data Lake

Een Data Lake is juist ontworpen om snel data te vinden. Het maakt catalogussen van de metadata van tabellen. Omdat er ook steeds meer tabellen beschikbaar komen en er specifieke tabellen worden gemaakt om de gegevens te koppelen, komt ook steeds meer een snowflake schema tevoorschijn. In een snowflake schema zijn de relaties veel uitgebreider, meer in de vorm van een sneeuwvlok. Dat aspect is lastig te beheren in een traditionele DWH, maar Power BI lijkt ervoor gemaakt te zijn. Dat is dan wel een doorn in het oog van ICT-specialisten, want beheersbaarheid en governance van dit soort relaties is, in de traditionele manier van werken, erg lastig. Daar staat tegenover over dat meer en meer de succesvolle dashboards leunen op meerdere, gemixte bronnen in een snowflake schema.

De personen die werken in de business leren ook meer naar tabellen te kijken vanuit een technisch oogpunt. ICT en business groeien daarmee gelukkig naar elkaar toe. In plaats van een respectloze patstelling komt wederzijdse samenwerking steeds meer voor. Dat het maar een vreugdevolle en respectvolle relatie mag zijn. In succesvolle situaties stelt men de data voorop, boven welk schema dan ook.

Dus de vraag Schema first or Data first is voor mij makkelijk te beantwoorden. Een schema is mooi en soms zeker noodzakelijk, maar geef mij maar de data, dan creëer ik daaruit wel de gewenste inzichten.

Blogs in deze serie:

Gerelateerde artikelen