Big data zin en onzin: een update

Finance professional, bezint eer gij investeert in big data.

De laatste jaren worden we overspoeld door rapporten, krantenartikelen en seminars die ons de indruk geven dat big data ons werkzame en persoonlijke leven gaan beheersen. Wie niet investeert in big data of niet de mensen heeft die big data op de juiste wijze kunnen analyseren, zal de boot missen. Natuurlijk is het zo dat in een aantal sectoren zoals de retail, luchtvaart en bankwezen big data een belangrijke rol spelen. Toch zijn er nogal wat misverstanden over de zin en onzin van big data. Wat moet je weten over big data? 

Han Mesters is Sector Banker bij ABN AMRO. Hij is binnen de afdeling Sector Advisory van ABN AMRO verantwoordelijk voor de Zakelijke Dienstverlening. Mesters geeft regelmatig presentaties over trends in zijn sector en is een actieve gebruiker van social media. Hij heeft een aantal rapporten geschreven over human capital omdat dat onderwerp het bindende element is in zijn sector. Mesters is bedrijfskundige en economisch historicus en heeft als specialisatie strategie.

 

Aanleiding voor deze kritische beschouwing over big data is het recent verschenen boek Big data, big dupe van Stephen Few. Volgens few is big data niet de Haarlemmer olie die al onze problemen zal oplossen. Liever noemt Few big data ‘snake-oil’. Een citaat van Few uit zijn boek maakt dit duidelijk: ‘Het echte werk van duiding geven aan data wordt gedaan door ervaren professionals die vaardigheden gebruiken die ze pas na jaren van studie en oefening eigen hebben gemaakt. Deze vaardigheden bestonden al geruime tijd voordat er sprake was van big data onzin’. 

Definitie
Voor een beter begrip van big data is het van belang het begrip goed te omschrijven. Volgens Marco Visser, directeur IT bij Brunel, zijn er geen big data. Volgens hem zijn er alleen metadata plus content. De Amerikaanse NSA en andere inlichtingendiensten wereldwijd houden zich met name bezig metadata; data óver de data. Dus niet met de inhoud (content) van telefoongesprekken, chats, mails en andere communicatievormen. Alleen valt de content wel vaak goed af te leiden uit de context, zoals blijkt uit de cartoon hier beneden. 

Veel specialisten zijn dan ook van mening dat metadata zóveel meer zijn dan alleen content. Sommigen zeggen zelfs dat content op zich waardeloos is. Een toenemend aantal specialisten komt tot het inzicht dat er bij data-analyse pas naar de content moet worden gekeken als daar aanleiding toe is op basis van de metadata. 

Snowden en de NSA
Een van de schokkende conclusies van de zogeheten ‘9/11 Commission’, in het leven geroepen om de aanslagen van 11 september 2001 te analyseren, was dat alle informatie die nodig was om de aanslagen van die dag te voorkomen, aanwezig was. Dit is de mening van voormalig CIA-medewerker en NSA-systeembeheerder Edward Snowden. Snowden verstrekte in juni 2013 journalisten van de The Washington Post en The Guardian geheime documenten over spionageactiviteiten van de NSA. Hij beschrijft de beperkingen van de geheime diensten als volgt: “We actually had records of the phone calls from the United States and out. The CIA knew who these guys were. The problem was not that we weren’t collecting information, it wasn’t that we didn’t have enough dots, it wasn’t that we didn’t have a haystack, it was that we did not understand the haystack that we have.” (Bron: https://www.rt.com/usa/162576-nbc-snowden-september-attack/)

Na 2001 gingen de Amerikanen de zaken gestructureerder aanpakken. En kwamen er metadata-successen. In de zomer van 2013 kwam de NSA naar buiten met wapenfeiten: sinds '9/11' waren 54 terroristische aanslagen onderschept (inclusief geplande aanslagen). 13 van deze aanslagen hadden plaats moeten vinden in de VS, 25 hadden betrekking op Europa, 5 op Afrika en 11 waren gepland in Azië. (Bron: http://abcnews.go.com/Politics/nsa-director-50-potential-terrorist-attacks-thwarted-controversial/story?id=19428148

Metadata en de finance professional
Metadata is dus het nieuwe buzzword. Wat heb je nodig om (als finance professional) succesvol metadata te kunnen analyseren? 
1. In elk geval geen dure datacenters en grote databergen. Uit het NSA voorbeeld blijkt dat de meeste, zo niet alle data al aanwezig zijn; 
2. Maar wel: een goede filtering en normalisering van de beschikbare data voorafgaand aan de analyse ervan; 
3. Normaliseer en filter de data door de juiste vragen te stellen. Dat kan het beste in een divers samengesteld team, dat beschikt over een breed referentiekader;
4. Stel een analyse-algoritme samen en blijf daarbij zelf begrijpen hoe dat analyse-algoritme werkt. De software die gebruikt wordt bij het analyseren van data wordt namelijk steeds geavanceerder. Zeker als er sprake is van zelflerend vermogen van die software. We bereiken het moment dat het voor mensen steeds moeilijk te begrijpen wordt hoe het algoritme van de software werkt. 
5. Analyseer en toets of de correlaties tussen data ook een causaal verband hebben; met andere woorden: elkaar in de echte wereld beïnvloeden; 
6. Zorg dat je organisatiestructuur past bij data-analyse. Een van de bevindingen van de aanslagen in 2001 was dat er te veel overheidsdiensten onafhankelijk van elkaar – of soms zelfs in competitie met elkaar – bezig waren met analyse.

Gerelateerde artikelen