4 mythes over Big Data
1. Big Data gaat vooral over technologie
In artikelen en discussies over Big Data gaat het al snel over technologie. De technische termen, platforms, technologieën en programmeertalen vliegen je om de oren: Hadoop, NoSQL, MapReduce, Hive, R, Mahout… Ontegenzeggelijk biedt Big Data meer dan genoeg voor techneuten om eens flink de tanden in te zetten.
Maar in werkelijkheid gaat Big Data over business. Het gaat over hoe organisaties er beter van worden als ze meer doen met de informatie waarover ze beschikken. Meer en meer breekt het inzicht door dat die informatie het meest waardevolle bezit is van organisaties: data is de nieuwe olie.
Onderzoeksbureau Gartner heeft voorspeld dat organisaties die optimaal gebruiken maken van hun data en een gezonde informatiestrategie hebben opgesteld, in 2015 al 20% beter presteren in financieel opzicht dan hun concurrenten.
Het is niet zo dat Big Data ‘doen’ automatisch betekent dat je organisatie beter gaat presteren. Wel zou je als financieel manager erover moeten nadenken welke data je organisatie heeft, wat je daarvan gebruikt, en hoe je dat gebruik kunt verbeteren. Big Data-technologie kan daarbij een antwoord zijn.
2. Big Data gaat over social media
De technologie die aan de basis stond van het begrip Big Data is bedacht en ontwikkeld bij internetbedrijven als Google, Yahoo en Facebook. Als gevolg daarvan denken veel mensen direct aan social media wanneer het gaat over Big Data: als honderden miljoenen mensen updates ‘posten’ op Facebook, Twitter of andere social media, levert dat een enorme hoeveelheid informatie op waarin gouden bergen verstopt zijn. Als je maar goed zoekt.
Maar in feite gaat Big Data over veel meer dan social media. De term ‘Big Data’ doet weliswaar vermoeden dat het om veel data gaat, maar veel belangrijker is dat het gaat om gegevens die niet vooraf netjes gestructureerd zijn. In bestaande bedrijfsdatabases worden gegevens volgens een strak gedefinieerde structuur vastgelegd. Dit zorgt ervoor dat die gegevens heel efficiënt doorzocht kunnen worden, maar het brengt ook vaak met zich mee dat informatie verloren gaat.
Veelal heeft dit te maken met de overweging om zo min mogelijk data op te slaan in relatief dure databasesystemen. Bij een webwinkel wordt bijvoorbeeld wel vastgelegd op welk tijdstip iemand iets aanschaft, maar niet hoeveel verschillende producten die persoon heeft bekeken voorafgaande aan de aanschaf.
Bij Big Data gaat het er juist om om data gewoon op te slaan en niet vooraf te bedenken wat je wilt bewaren en wat je gaat weggooien. Het gaat hier ook om gegevens die niet in traditionele databases passen, zoals (ingescande) documenten, foto’s en video’s.
3. Big Data vraagt enorme investeringen
Het klinkt logisch: veel gegevens opslaan kost veel geld. Om die reden komen ook steeds meer hardware-leveranciers met hun eigen Big Data-oplossingen. Maar ‘veel gegevens’ blijkt de laatste tijd een relatief begrip te zijn. De reden dat Big Data plotseling zo in de belangstelling staat, is dat de kosten voor het opslaan van informatie steeds verder omlaag gaan. Dit gaat zo snel, dat organisaties het zich inmiddels kunnen veroorloven om gegevens te bewaren die eerder werden weggegooid, omdat je dat verwacht terug te verdienen met de waarde die je in de nabije toekomst uit die data kunt halen. Het kostenplaatje wordt nog aantrekkelijker als Big Data samen gaat met de cloud.
De echte investering zit op dit moment juist in de tijd en de kennis die nodig zijn om een Big Data-platform uit te nutten. De technologieën rond Big Data zijn namelijk nog een stuk minder volwassen dan wat we kennen in de gestructureerde database- en business analytics-wereld en vereisen specialistische kennis. De aanpak van Microsoft is om de toegankelijkheid van Big Data te verbeteren door een betere combinatie tussen gestructureerde en ongestructureerde data.
Daarnaast is het goed te beseffen dat ook bestaande producten steeds beter in staat zijn om met grotere hoeveelheden gegevens te werken. Neem nu Excel: nog niet zo lang geleden kende Excel een maximum van zo’n 65.000 rijen in een werkblad, maar in de laatste versies is dat gegroeid tot rond een miljoen. En met PowerPivot in Excel bewerken gebruikers vele miljoenen, tot wel 100 miljoen rijen data of meer!
4. Iedereen moet aan de Big Data
Als je de berichtgeving moet geloven, mis je de boot als je nu niet investeert in Big Data. Maar is dat wel zo? Als je de vragen van vandaag kunt beantwoorden met je bestaande Business Intelligence-oplossing, is het natuurlijk niet nodig om nu ineens over te stappen naar een Big Data-oplossing. Maar hoe wordt je organisatie dan wel beter van Big Data?
Een eerste mogelijkheid is dat je organisatie beschikt over veel informatie die ook voor anderen waardevol is. Je kunt (als je een commercieel bedrijf bent) deze informatie als concurrentievoordeel zien, maar het kan ook een middel zijn om extra inkomsten te genereren of om bekendheid in de markt te creëren als aanbieder van data en expert op een bepaald vakgebied. Er bestaan inmiddels distributiecentra voor data, zoals de Windows Azure Marketplace, die het verspreiden van je data heel eenvoudig maken.
Een andere mogelijkheid om te profiteren van de ontwikkelingen in Big Data doet zich voor als je over kennis beschikt om data te verrijken, te structureren of andere slimme dingen te doen met data. Als je bijvoorbeeld over goede algoritmes beschikt om frauduleuze transacties te detecteren, kun je deze al dan niet tegen betaling aanbieden aan anderen.
De derde mogelijkheid is natuurlijk om nieuwe inzichten te verkrijgen uit de data die je hebt, al dan niet met gebruik van aanvullende informatie en verrijkende algoritmes van derden. Het gaat dan niet om antwoorden op vragen die je nu ook al kunt beantwoorden, maar inzichten die je eerder niet kon verkrijgen.
Michiel Rozema (michielr@microsoft.com) is bij Microsoft Nederland verantwoordelijk voor Business Intelligence.