Big data: leve de kromkommer!

Onlangs is in Nederlandse supermarkten een nieuwe groentesoort gesignaleerd: de kromkommer. De kromkommer is een representant van een beweging die aandacht vraagt voor 'gekke groente', ofwel groente en fruit dat er anders uitziet dan we gewend zijn.

Anders dan wat je zou verwachten als je voor het groenteschap staat, is gekke groente niet zeldzaam: naar schatting haalt 5% - 10% van geproduceerde groente nooit de winkel, enkel en alleen omdat de vorm anders is. Krom, bijvoorbeeld, als het om een komkommer gaat. 

Ook rond data zijn we gewend dat we veel aandacht besteden aan ‘goede’ data. Vooral als het gaat om financiële gegevens. Een boekhouding die niet sluit, is voor elke financial iets om wakker van te liggen. En wanneer we rapportages beoordelen, is de eerste vraag: kloppen deze cijfers wel? Een afwijking op het kleinste detail zet het vertrouwen in het complete rapport op het spel.

Bij alle aandacht die er de laatste tijd is voor big data, komt automatisch ook aandacht voor de kwaliteit van de data naar voren. Veel organisaties beginnen niet aan big data, omdat ze het idee hebben dat ze eerst maar eens de kwaliteit van hun data op orde moeten krijgen. Als je nog niet eens in staat bent om correcte BI-rapportages op te leveren op basis van weinig data, hoeveel ellende haal je dan over je heen als je met big data aan de slag gaat? Nu is het altijd goed om ervoor te zorgen dat je BI op orde is. Het is echter een misvatting om te denken dat dat een absolute voorwaarde is om met big data te beginnen. Ik leg uit waarom.

De essentie van big data analytics is het ontdekken van verborgen verbanden en structuren in data. De technieken die hiervoor gebruikt worden kijken niet zozeer naar op zichzelf staande gegevens, maar juist naar het grote geheel. Met behulp van statistische en wiskundige technieken worden correlaties tussen verschillende soorten gegevens bepaald. Deze correlaties worden gebruikt om voorspellingen te doen over een heel scala aan vraagstukken, zoals het potentieel frauduleuze karakter van transacties of de betaaltermijn van een factuur.

De aard van de gebruikte wiskundige methoden brengt met zich mee dat een afwijking in een enkel stuk informatie slechts een marginaal effect heeft op de precisie van de voorspelling. Een voorbeeld: al jarenlang worden adressen op poststukken grotendeels automatisch gelezen en geïnterpreteerd. Onze postcodes, met een vaste volgorde van cijfers en letters, helpen daarbij enorm. Dit werkt alleen maar doordat de gebruikte methoden om kunnen gaan met de enorme verschillen in hoe mensen die cijfers en letters schrijven, en bovendien met kreukels in een envelop, vegen, en verschillende kleuren papier en inkt (er is nog een tijd geweest dat die postcode binnen speciaal daarvoor gedrukte vakjes moest worden geschreven, maar inmiddels is de techniek zover doorontwikkeld dat dat niet meer nodig is). Als het automatisch lezen alleen zou werken met ‘goede data’, in dit geval gedrukte postcodes in precies de juiste grootte en lettertypes, zou deze toepassing praktisch nutteloos zijn.

De kwaliteit van beschikbare data is dus geen belemmering om te beginnen met big data analytics. Het is zelfs zo dat big data kan helpen om de kwaliteit van data te verhogen, door fouten op te sporen en ontbrekende gegevens in te vullen. Rommelige data komt zo toch goed van pas. Net zoals een kromkommer even lekker is als z’n rechte soortgenoot.