Een digitale wasstraat
Hoe beter de kwaliteit van financiële en andere data is, hoe beter. Maar hoe kun je ervoor zorgen dat je over hoogwaardige data kunt beschikken, ook als je met een brede range aan applicaties en dataformaten werkt? En hoe zorg je ervoor dat de herkomst van de centraal verzamelde data makkelijk traceerbaar is en nieuwe inzichten op kan leveren?
Uit het vorige artikel over datagedreven beslissingen en audits, sprak duidelijk hoe belangrijk het is om over goede data te beschikken. Een bedrijf dat niet eens in staat is om de data van de primaire processen te beheren, zal eerst aandacht moeten besteden aan de kwaliteit van data voordat het daar allerlei analyses op kan loslaten en beslissingen op kan baseren. Maar ook bedrijven die een hoger ‘data maturity level’ hebben, moeten de kwaliteit van de data nauwlettend in de gaten houden. De kwaliteit van de data is nooit vanzelfsprekend, fouten bij de invoer, opslag, verwerking en export kunnen altijd worden gemaakt.
De digitale wasstraat
Hoe kan je de datakwaliteit waarborgen en – waar nodig – verhogen? Bij Crowe Foederer werken we daartoe met een digitale wasstraat gebaseerd op Microsoft Azure, een data lake waar allerlei data (gestructureerd en ongestructureerd) kunnen worden opgeslagen voor verder gebruik. Die data zijn afkomstig uit allerlei informatiebronnen maar vooral uit ERP-systemen: inkoop- en verkoopdata, financiële data, HR-data en voorraad data. Relaties die van dit platform gebruikmaken, kunnen hun data hier beveiligd naartoe uploaden. Daarna worden ze zogezegd door de digitale wasstraat gehaald. Deze data onboarding bestaat uit drie stadia, die wij aanduiden als brons, zilver en goud.
Dit geautomatiseerde, iteratieve proces maakt het mogelijk om frequent stuurinformatie aan te leveren zodat altijd sprake is actuele dashboarding. De gefaseerde aanpak van data onboarding gaat als volgt in z’n werk:
Stadium 1: Brons
De data worden beveiligd geüpload. In dit stadium bevinden de data zich als het ware in de hal van de wasstraat. Er wordt automatisch gekeken of de data volledig en correct zijn overgekomen, dat wil zeggen of er geen data ontbreken of dat de structuur van het bestand is aangetast.
Stadium 2: Zilver
In dit stadium wordt vooral op veldniveau gekeken naar de kwaliteit en structuur van de data waaruit de bestanden zijn samengesteld. Ook dit gebeurt automatisch, net als in stadium 1. Als blijkt dat de structuur niet klopt, wordt dat genoteerd op een exceptielijst. Bij uitval wordt de risk appetite beoordeeld en kan besloten worden dat het databestand opnieuw aangeleverd dient te worden. Als dat is gebeurd, worden stappen 1 en 2 opnieuw doorlopen, net zo lang totdat de risk appetite op een voldoende niveau is en geaccepteerd kan worden.
Stadium 3: Goud
De data worden via vanuit het formaat van de relatie omgezet naar het Crowe Foederer Common Data Format (CDF), een generiek eigen dataformaat. Zodoende worden alle verschillende bronformaten en -systemen geconverteerd naar een generieke datastructuur dat is geoptimaliseerd voor big data toepassingen. Vervolgens wordt de data gebruikt voor het genereren en publiceren van de dashboards.
Business glossary en data lineage:
Om het voornoemde proces vlekkeloos te laten verlopen is Data Governance essentieel. Hierbij speelt de business glossary een belangrijke rol wat niet alleen als “woordenboek” wordt gehanteerd maar waarin ook de technische data elementen en kwaliteitscriteria actueel worden vastgelegd. Om de juistheid en traceerbaarheid van data op dashboards na te gaan is data lineage essentieel. Hierbij wordt de gehele keten van databewerkingen inzichtelijk gemaakt en kan de waarde van een dashboard element herberekend worden om de correctheid aan te tonen. Dit is bijvoorbeeld handig wanneer een interne of externe toezichthoudende instantie vragen stelt over de kwaliteit en herkomst van de data. Normaliter duurt de tracing dagen, maar in ons Data Science Platform zal deze structuur geautomatiseerd gegenereerd worden.
Van informatie naar exploratie
Naast het aanbieden van geavanceerde dashboards voor data analyses en datagedreven besluitvorming worden steeds meer stappen gezet om inzicht te bieden. Inzichten geven helderheid maar leiden vaak tot vragen omtrent oorzaken. Waarom is er een terugval in verkopen van een bepaald product of wat is de reden van een stijgend ziekteverzuim? Hiertoe biedt exploratief onderzoek uitkomst om relaties te onderkennen en zodoende verbanden te leggen. Door het leggen van verbanden wordt de interactie tussen data elementen helder waarop vervolgens acties kunnen worden uitgezet om sneller en meer doelgericht tot de gewenste resultaten komen. In het voorbeeld van de terugval in verkopen zou de oorzaak kunnen liggen in een substitutiegoed waardoor de sales strategie beter heroverwogen kan worden. Zo is steeds meer sprake van actieve stuurinformatie wat vervolgens kan leiden tot zelfsturende data. De gebruiker moet net als bij een zelfsturende auto uiteraard wel kritisch blijven op de uitkomst van dergelijke analyses. Maar in het algemeen kom je een eind met kwalitatief hoogwaardige data die door de digitale wasstraat zijn gehaald, is onze ervaring.
Arjen van Zon is Information Officer van Crowe Foederer
Dit artikel wordt u aangeboden door:
Deel 1: De weg naar datavolwassenheid: vijf fases in het data maturity model
Deel 3: 3 succesvoorwaarden voor een datagedreven audit