E-learning: Wat is Big Data?
Inleiding:
Wist u dat onze huidige database techniek is gebaseerd is op het ordenen van dossiers in een ladekast van rond de jaren ’30? En wist u dat in 1965 al het eerste datacentrum werd gebouwd? En dat in 1975 het onderwerp dataprivacy al ter sprake kwam? Op zich dus niet iets wat nu pas actueel is. De Financehub-module ‘Wat is Big Data’ geeft u als financial veel informatie en inzicht als het gaat om data. Met deze achtergrondinformatie is het makkelijker voor u als financial om keuzes te maken. Een onmisbare module dus in deze tijd.
Geschiedenis van big data
“Ik ben zelf altijd groot fan geweest van geschiedenis. Ook in het kader van Big Data is het interessant om te zien waar het vandaan komt en waar we nu staan in de tijd van al die ontwikkelingen, omdat we de laatste tijd natuurlijk veel horen over big data en wat daar allemaal mee mogelijk is”, begint docent Marco de Jong van Experience Data. “Maar een aantal ontwikkelingen is al langer geleden gestart en om te weten waar we naartoe gaan is het belangrijk om te weten waar we vandaan komen.
In de jaren ‘30 begon men al met hele grote kastsystemen met aparte laatjes dingen logisch vast te leggen. Bijvoorbeeld een laatje met alle klantgegevens, een laatje met artikelgegevens, een laatje met alle orders. Eigenlijk is een groot deel van de huidige databasetechniek daar nog steeds op gebaseerd. Een database is nog steeds een soort ladekast waarin allerlei verschillende zaken op een logische manier weggestopt worden met een systeem eromheen dat weet bij welke vraag welk laatje te openen. Dus heel veel is in dat opzicht eigenlijk niet veranderd.
In de jaren 30-40 werden de eerste computers ontwikkeld. De Colossus is een hele bekende. Het was een kolossaal apparaat dat een heel gebouw innam, met een rekenkracht die kleiner is dan wat we nu op ons mobieltje hebben.
De NSA wordt ook vaak genoemd in het kader van big data. Ze verzamelen heel veel data en gebruiken slimme technieken om terrorisme op te sporen en tegen te gaan. Het is opgericht in 1952. Zo is het interessant om te zien dat iets wat nu heel vaak in het nieuws is al zo’n lange tijd in ontwikkeling is.
In 1965 werd het eerste datacenter neergezet. Nu zien we dat veel vaker. Grote big tech bedrijven die bijvoorbeeld in Eemshaven grote datacenters neerzetten om de toenemende dataopslag te faciliteren. Grappig is dat een krantenartikel uit 1975 het ook al had over dataprivacy. Dus waar we nu veel discussie over hebben is ook al een onderwerp dat sinds 1975 leeft. Naarmate de tijd vordert en de snelheid van computers toeneemt, zijn de mogelijkheden om met data om te gaan enorm toegenomen. De belangrijkste reden dat we nu big datatechnieken hebben is dat computers momenteel in staat zijn om met die grote hoeveelheden data om te gaan, analyses te doen, en binnen redelijke tijd antwoorden hierop te kunnen geven. Het principe is dus al heel oud, maar de techniek staat ons toe om steeds meer te doen.
Er zijn 3 V’s als definitie van big data. Volume, hoe ga ik met grote hoeveelheden data om. Variety, allerlei verschillende typen data onder één noemer proberen te brengen om hele rijke analyses te doen. Denk dus niet in data in termen als getallen in een Excelsheet, maar ook aan film, video, geografische data, netwerkdata, et cetera. Om al dat soort datatypes op een efficiënte manier bij elkaar te brengen om analyses te kunnen doen, zijn er veel nieuwe technieken nodig. Met name op dat vlak is er de laatste tijd veel ontwikkeld. Daarnaast hebben we de laatste V in de definitie van big data en dat is de snelheid van dataverwerking. Je kunt je voorstellen dat wanneer je op een website een klant wilt helpen een gepersonaliseerd aanbod te doen, dan heb je maar heel weinig tijd om een analyse te doen en het resultaat terug te koppelen naar de website, zodat de klant naadloos de juiste aanbieding op zijn scherm ziet. De snelheid om die analyse en terugkoppeling te doen is een belangrijk fenomeen in de definitie van big data.
Je denkt misschien: ‘Dat is allemaal leuk, maar ik heb geen ontzettend grote hoeveelheden data, bij mij gaat het niet om e-commerce en ik heb geen grote variatie in data, wat heb ik dan eigenlijk aan big data?’ Zoals ik het zie zijn er veel grote ontwikkelaars over de hele wereld bezig om die drempels te ‘slechten’. Hoe meer techniek en technologie gebouwd wordt om die drempels te slechten, hoe sneller en makkelijker het wordt om verschillende data te analyseren. En hoe makkelijker het wordt om belangrijke vraagstukken die in het bedrijfsleven spelen te beantwoorden.
Zoals ik het zie is big data een soort gereedschapskist die elke dag toeneemt in kracht. Alle analyses die je bedenkt of zou willen doen zijn technisch mogelijk. Dat is wat de ontwikkeling van big data ons brengt. Als wij een analyse bedenken, is het bijna altijd mogelijk om die uit te voeren. Ik zeg niet dat dat altijd even makkelijk is, of dat het bedrijfseconomisch een goed idee is om die analyse te doen, maar technisch is bijna alles mogelijk. Dat geeft veel interessante mogelijkheden en ideeën. Ik wil jullie verleiden, gegeven jullie uitdagingen, om te bedenken waar je data kunt gebruiken om betere inzichten te krijgen. Om werkzaamheden leuker te maken, slimmer te doen, sneller te doen of te automatiseren. Dat is de uitdaging waar we met z’n allen voor staan, een goede integratie van data en technologie bieden kansen voor ons dagelijkse werk. Ik wil duidelijk maken dat we pas net zijn begonnen. Er is al 70 jaar ontwikkeling aan computers en datacenters hieraan vooraf gegaan. Denk niet dat je te laat bent en de hype gemist hebt. De techniek is er, de mogelijkheden zijn er. Het gaat er nu om dat wij de creativiteit hebben om die mogelijkheden om te zetten naar praktische toepassingen.
Wat kan je met big data?
Net heb ik jullie verteld over de geschiedenis, de definitie en de 3 V’s van big data. Nu gaan we kijken naar wat praktische voorbeelden om uit te leggen wat er kan met big data en waar je dan tegenaan loopt. Er zijn veel verschillende voorbeelden. Zelf vind ik de analyse die UPS (bezorgservice) in Amerika heeft gedaan heel interessant. Ze zijn gaan kijken naar alle data die ze konden verzamelen, dus de routes en de uiteindelijke leveringen, om te kijken hoe ze hun proces konden definiëren. Ze hebben heel breed gekeken en veel data meegenomen, brandstofkosten, uitval, tijdigheid van levering, et cetera. Ze zijn op een interessante uitkomst gekomen die uiteindelijk heel simpel lijkt. Namelijk: wij gaan voortaan alleen nog maar rechts afslaan. Er zijn in de VS veel tweebaanswegen en wat bleek: de wachttijd om met tegenliggend verkeer linksaf te slaan en het gevaar dat daarbij komt kijken, woog niet op tegen drie keer rechts afslaan om op dezelfde bestemming te komen. Ik vind dit een mooi voorbeeld omdat heel veel data is geanalyseerd en de uiteindelijke toepassing heel simpel is en goed te vertalen naar de praktijk.
Wat voor data hebben ze eigenlijk gebruikt? Je komt dan op een term die je veel zult horen als je het hebt over big data. Het is het verschil tussen gestructureerde data aan de ene kant en ongestructureerde data aan de andere kant. Gestructureerde data is data zoals je die wellicht allemaal kent, namelijk in spreadsheets, CSV-bestanden, in een ERP pakket. Dat is data waarvan de kolommen en de rijen bekend zijn en duidelijk is wat welke informatie bevat. Dit is data die makkelijk te verwerken is en waar wij als financials het meest mee te maken hebben.
Daarnaast heb je ongestructureerde data, wat meerdere datavormen beslaat. Zo heb je tekst, een goed voorbeeld van ongestructureerde data. We merken dat hier veel interessante contextinformatie uit te halen is. Dus zonder daadwerkelijk lastige dingen te doen met de tekst kan het al helpen om journaalposten te analyseren met behulp van de omschrijving die is meegegeven in het grootboek. Je kunt je voorstellen dat je een bepaalde analyse hebt gedaan en je vindt een gekke uitzondering in een kostenpost. Dan kun je zien welke leverancier dat is geweest en welke periode dat is geweest. Dat zijn dingen die in gestructureerde data vastliggen. Maar die tekst die de persoon die de journaalpost heeft gemaakt bevat vaak veel informatie die kan helpen om de kostenpost te duiden. Stel dat er staat ‘huur derde kwartaal’. Dat is hele relevante aanvullende informatie, die je normaal gesproken niet uit een grootboek kunt halen.
Daarnaast heb je beeldmateriaal, zoals foto’s, als ongestructureerde data. Je kunt pixels in foto’s vertalen in datapunten, maar vervolgens heb je slimme toepassingen nodig om logica te vinden in die datapunten om er iets mee te doen. Er zijn gelukkig veel algoritmes geschreven om data uit foto’s te analyseren en om bijvoorbeeld op basis van een foto te zien of er een hond of kat op de foto staat. Dit is ogenschijnlijk ongestructureerde data, maar algoritmes kunnen hier erg goed mee omspringen.
Maar wat is dan big data? Dat blijven mensen vragen. Moet je allemaal externe data toevoegen? Wat mij betreft hoeft het allemaal niet big te zijn. Het is leuk als je weet wat groot is. Maar de meeste organisaties hebben geen grote hoeveelheden data. Zij hebben echter wel veel baat bij de technieken die rondom die grote hoeveelheden data zijn ontwikkeld.
Data helpt je betere prognoses te maken. Om een betere analyse te maken van waarom je bij bepaalde groepen klanten winst maakt en bij andere niet. Dit zijn allemaal praktische toepassingen die met behulp van big datatechnieken op bestaande data binnen organisaties kunnen worden uitgevoerd. Hoe meer variabelen je toevoegt, hoe rijker je je analyses maakt. Kijk naar wat je met je eigen data kan doen en voeg externe data toe.”