Voorbij de hype... Big data gaat volgende fase in

'Big data' is misschien wel de meest gehypete term van de afgelopen jaren. Maar met het verstrijken der jaren verliest de term die bedrijven grote rijkdom zou brengen zijn marketingleegte en lijkt vooral het woordje 'big' steeds minder relevant te worden, ziet Seppe vanden Broucke, assistent-professor Datawetenschappen aan de KU Leuven. "Een focus op kwaliteit is belangrijker dan een focus op volume."

Een van de belangrijkste constateringen die bedrijven de afgelopen jaren hebben gedaan met betrekking tot big data is dat het makkelijk gezegd is, maar niet makkelijk gedaan. Dat heeft ook Vanden Broucke de afgelopen jaren geconstateerd. “Het klinkt interessant als term, maar voor de pioniers, de grote techbedrijven, was het pure noodzaak om op die manier met data om te gaan, om de vaak ongestructureerde data-volumes hanteerbaar te maken. Van daaruit ging de bal rollen en werd het een hype: ook bedrijven waarvoor data niet tot de core business behoren gingen ermee aan de slag.”

Van ‘dataloodgieterij’ naar genereren van waardevolle inzichten
Die bedrijven moesten in de meeste gevallen harde lessen leren. De eerste software die commercieel op de markt kwam om met big data aan de slag te gaan sloot vaak niet goed aan bij de wensen. Vanden Broucke: “Ik noem die fase wat neerbuigend ‘dataloodgieterij’. De first movers zijn alle data die ze al hadden gaan overladen in nieuwe systemen en toepassingen. Maar toen het erin zat vroeg men zichzelf pas: wat kunnen we er eigenlijk mee? De veronderstelling was vaak dat automatisch de inzichten eruit zouden rollen, maar dat was natuurlijk niet zo. De eerste technieken waren meer gericht op het opslaan en managen van gegevens en niet op het verkrijgen van inzichten.”

Bovendien bleek er zeer specifieke kennis nodig te zijn om die insights te generen en was het aanbod van personeel dat ermee uit de voeten kon nauwelijks aan te trekken. “Dat zorgde voor de eerste teleurstelling”, constateert Vanden Broucke. “Maar daarna is een nieuwe beweging in gang gezet. Het gaat er tegenwoordig niet meer zo om hoe veel of weinig data je hebt, maar er wordt meer gekeken naar wat voor oplossingen eruit zijn te halen. Het draait meer om de kenmerken van de data zelf en men beseft dat ‘big data’ en ‘data analytics’, of ‘data science’ los van elkaar staan. Ook als iets niet typisch big data is kun je er hele relevante kennis uit halen.”

Error in shortcode: slug must be set



De datawetenschapper ziet dus een andere omgang met data, meer gericht op het zoeken naar praktische toepassingen en vraagstukken. “We werken bijvoorbeeld geregeld samen met banken en telecombedrijven en merken dat de hindernissen uit het begin zijn gepasseerd. Het gaat steeds meer om concrete user cases en bedrijven zijn bezig data science teams en kennis op te bouwen”, ziet Vanden Broucke. “Het draait niet meer om welke tooling wel of niet gebruikt wordt, maar eerder om de praktische modellen die gebouwd worden en dat is een goede ontwikkeling.”

Bedenk vooraf wanneer het genoeg is
Wat zijn de belangrijkste tips die Vanden Broucke heeft voor bedrijven die met (big) data aan de slag zijn of willen? “Het belangrijkste waar ik altijd op hamer is: start met een concrete businessvraag, niet met de technologie. Dan ben je bezig met een oplossing terwijl je het probleem niet kent.” Daarnaast zijn er nog twee belangrijke adviezen waar bedrijven hun voordeel mee kunnen doen als zij met data aan de slag willen. “Ten eerste moet je niet focussen op grootte, op de omvang van je databestanden, maar op de kwaliteit ervan. Keer op keer merken we dat data vaak niet van goede kwaliteit is. Een project wat eigenlijk een maand zou duren, kost ineens een half jaar om data te cleanen en te verwerken of samen te voegen. Dat wordt heel vaak onderschat”, stelt Vanden Broucke. 

“Het tweede is om naast het stellen van de juiste vraag ook goed af te timmeren wanneer je tevreden bent met de uitkomst.” Daarmee wordt bedoeld dat het belangrijk is om af te bakenen wat je wel en niet kunt (en wilt) verwachten van een (big) data-project. Je kunt zo diep en lang graven als je wilt, maar het is beter vooraf al te bedenken wanneer het genoeg is. “Niet alleen waar het de accuraatheid betreft, maar ook de interpreteerbaarheid en dus bruikbaarheid van modellen.”

Een ander belangrijk punt dat Vanden Broucke benadrukt is dat je als data-afdeling vooraf goed moet nadenken over hoe je anderen in je bedrijf meeneemt in zo’n proces. Die overtuig je doorgaans niet door geavanceerde modellen op te tuigen waarmee alle mogelijkheden worden getoond, maar juist door het simpel en overzichtelijk te houden. “Je moet een model aan je stakeholders kunnen uitleggen. Ook wat de achterliggende systematiek is. Als je voorspelt dat bepaalde klanten weggaan moet je ook kunnen uitleggen waarom dat zo is, dat je model geen black box is”, legt Vanden Broucke uit. “Zeker als ze gewend zijn vanuit hun buikgevoel te redeneren. Het moet betrouwbaar en uitlegbaar zijn, het liefst kleine, zeer goed gedefinieerde projecten. Als het goed gaat kun je steeds een stapje ingewikkelder projecten gaan optuigen.”

Begin met een concrete vraag
Het is ook verstandig om brugfuncties te creëren binnen je organisatie. Mensen die ervoor zorgen dat de betrokken afdelingen elkaar begrijpen en waarderen. Zeker wanneer je voor het eerst aan de gang gaat met data-projecten. Vanden Broucke: “Om een project te laten slagen heb je mensen nodig die zich kunnen plaatsen tussen de technische mensen en de business mensen die ermee moeten gaan werken. Een vertaalslag van beide kanten is bij de eerste keer dat je zoiets doet heel belangrijk. Je moet relaties opbouwen en uitleggen dat het een andere manier van werken is, dat sommige veronderstellingen bevestigd zullen worden, maar andere juist worden weerlegd. En dat er uitkomsten zullen zijn die je totaal niet zag aankomen.”

De tijd van big data als holle marketingfrase ligt dus achter ons en beetje bij beetje volwassen, waarbij het zich steeds meer richting data science beweegt. Maar wat is dan de nieuwe hype in dataland? Die moeten we volgens Vanden Broucke zoeken in AI. “Termen als deep learning en zelflerende algoritmes hoor je op dit moment erg veel. Je ziet ook dat de modellen steeds complexer worden en niet meer alleen uit traditionele data bestaan. Databronnen veranderen, zo wordt er bijvoorbeeld gekeken of gezichtstrekken kunnen voorspellen of iemand een goede of slechte klant zal zijn. Of op basis van een stemanalyse wordt gekeken of iemand kwaad of tevreden is, zodat daar de benadering op kan worden afgestemd.”

Voor deze hype heeft Vanden Broucke hetzelfde advies als bij big data: ga alleen met zo’n hype aan de slag als je een concrete vraag hebt en het eerst op kleine schaal in je bedrijf kunt implementeren alvorens door te groeien. Zo niet: wacht dan gerust nog een tijdje voor ook deze hype zich uiteindelijk zal settelen.

Bekijk ook: Big Data & Analytics voor Financials (Dossier)