Grenzen van big data en data-analyse

Hoewel de data-groei en de analyse-mogelijkheden van big data onbeperkt lijken zitten er voorlopig wel degelijk grenzen aan. Juist door de heterogeniteit en de hoeveelheid data, maar ook doordat mensen deze overvloed maar beperkt kunnen bevatten en gebruiken, ontstaan grenzen. Met een voorbeeld, waarin met een overvloedige hoeveelheid data geprobeerd wordt de verkoopprijs van afzonderlijke woningen te verklaren en de invloed van afzonderlijke eigenschappen op deze prijs te berekenen, wil ik dit laten zien. Hopelijk verklaart dit waarom data-projecten vastlopen zonder dat er van een schuldvraag sprake is.

Door Rene Verbrugge 

De data omvatten de werkelijke verkoopprijzen van 1460 woningen in Ames, Iowa in de periode 2006 t/m 2010. Bij elke verkoopprijs horen 80 variabelen over interne en externe kenmerken van elke woning en kenmerken van lokatie en transaktie. Het bestand vindt u hier.


Plattegrond Ames

Inspectie van de data laat grote verschillen zien met de Nederlandse woningmarkt. In Iowa houden ze niet van rijtjeshuizen, maar wel van grote stukken grond (gemiddeld 880 m2). Een garage is standaard (gemiddeld is er plaats voor 2 auto's), net zoals een open haard en een veranda. Maar slechts de helft heeft een betonnen fundering en maar 0,5% heeft een zwembad.

Veel van de variabelen blijken ongelijk verdeeld, d.w.z. dat het gemiddelde duidelijk afwijkt van de middelste waarde. Zo is de gemiddelde woningprijs $181.000, maar de middelste waarneming $163.000.

Het Ames-onderzoek is niet het eerste dat woningprijzen wil verklaren.
• Er is een RABO-onderzoek (1) dat de relatie berekende tussen macro-economische grootheden en de gemiddelde huizenprijs, dus niet de prijs van afzonderlijke woonhuizen.
• Er is de u welbekende OZB-methode, die de waarde berekent van een afzonderlijke woning aan de hand van recente verkopen van vergelijkbare woningen in de buurt met correcties voor de verschillen met deze woningen.

Het Ames-onderzoek berekent met een beslisboom de waarde van een afzonderlijke woning met gevonden relaties tussen gerealiseerde verkoopprijzen en eigenschappen van die woningen. Lineaire regressie was niet mogelijk omdat veel variabelen klassen en geen getallen zijn.

Het Ames-onderzoek is niet het eerste dat woningprijzen wil verklaren.
• Er is een RABO-onderzoek (1) dat de relatie berekende tussen macro-economische grootheden en de gemiddelde huizenprijs, dus niet de prijs van afzonderlijke woonhuizen.
• Er is de u welbekende OZB-methode, die de waarde berekent van een afzonderlijke woning aan de hand van recente verkopen van vergelijkbare woningen in de buurt met correcties voor de verschillen met deze woningen.

Uitkomsten Ames-onderzoek; ondanks overvloed aan data onduidelijkheid
Heel teleurstellend geeft de berekende beslisboom met het verband tussen de eigenschappen van de woonhuizen en hun verkoopprijzen slechts een nauwkeurigheid van 79,5%. Dit betekent dat het berekende model 79,5% van de spreiding rondom de gemiddelde woningprijs ($181.000) verklaart. Meer factoren beïnvloeden de woningprijs dus en/of toeval speelt sterk mee. Het betekent ook dat de gevonden beslisboom niet gebruikt kan worden om verkoopprijzen met hun woning-eigenschappen nauwkeurig te voorspellen.

Helaas is de gevonden beslisboom te gedetailleerd om hier af te beelden. 

Wat verklaart de matige nauwkeurigheid?
Woningprijzen worden waarschijnlijk ook verklaard (zoals het RABO-onderzoek aantoont) door marktfactoren aan de vraagkant en de aanbodkant en door de manier waarop de markt werkt, zoals:
• Welke en hoeveel verkoopinspanning is geleverd?
• Waren er veranderingen in de financieringsruimte, zoals in de rentestand, hypotheeknormen of fiscale aftrekbaarheid?
• Wat was de krapteverhouding?
• Was sprake van professionele begeleiding bij verkoop of aankoop?
• Was er aan de aanbodkant tijddruk?
Van deze variabelen, die ongetwijfeld invloed uitoefenen, hebben we geen data.

Andere eigenschappen, zoals de woonkamer-oppervlakte, oppervlakte van de bovenverdieping, aantal slaapkamers en bouwstijl blijken van minimaal belang. Maar vier van de tachtig variabelen bepalen 55% (24 + 14 + 10 + 7)  van de spreiding rondom de gemiddelde woningwaarde. Kennelijk spelen 76 extra's een minimale rol in de waarde, wat moeilijk te begrijpen is want ze scheppen wel woongenot.


Relatie tussen Totaalindruk en Verkoopprijs


Relatie tussen Wijk en Verkoopprijs

Waar liggen dus grenzen van data-analyse en Big data?

A. Resultaat niet goed genoeg 
Het Ames-onderzoek laat zien dat overvloedige data toch een model met een matige nauwkeurigheid kunnen opleveren.

B. Bekende oorzaken blijken niet 
Eind 2007 begonnen de woningprijzen in de VS gedurende enige jaren te dalen. Dit betekent dat uit de data zou moeten blijken dat ook de variabele VerkoopJaar (YrSold) significant is. Vreemd genoeg is dat niet zo en de reden is onbekend.

C. Geen data over bekende oorzaken
In het algemeen is bekend dat ook marktfactoren, die dus niet samenhangen met de woningeigenschappen, woningprijzen verklaren. Beschikbaar maken en gebruiken van data hierover vergt een nog aanzienlijker tijdsinvestering.

D. Correlaties verbergen werkelijke oorzaken
In het Ames-onderzoek blijkt 'Wijk' (Neighbourhood) een belangrijke oorzaak achter de woningprijs, maar 'BouwStijl' (HouseStyle) niet. Omdat in een wijk veel huizen met dezelfde bouwstijl staan en omdat niet gevraagd werd naar de kwaliteit van wijkvoorzieningen, zou 'Wijk' voor 'Voorzieningen' en 'BouwStijl' kunnen staan.

E. Teveel keuzes
Er zijn zoveel fysieke verschillen tussen de woningen dat afzonderlijke kenmerken voor kopers niet meer te evalueren en te waarderen zijn. Zij gaan dan af op totaal-indrukken zoals blijkt uit het belang van 'Totaalindruk' (OverallQuality).

Ik concludeer dat de huidige overvloed aan data enerzijds toch niet genoeg blijkt, maar dat anderzijds interessante inzichten er ook in ondersneeuwen.

Drs. Rene Verbrugge is zelfstandig adviseur voor het MKB en auteur van het boek “Schep meer financiële ruimte om te ondernemen en zorg voor grip op uw werkkapitaal”. 

*1) https://economie.rabobank.com/publicaties/2015/augustus/huizenprijzen-vooral-bepaald-door-inkomen-en-rente/

Gerelateerde artikelen