Is het succes van een film voorspelbaar?

Kun je de publiekswaardering, kassa-omzet en winst van een film voorspellen? En hangen deze factoren met elkaar samen? Naar aanleiding van de Oscaruitreiking 2017 op zondag 26 februari zocht Rene Verbrugge het uit met behulp van (big)-data analyse.

Omdat een filmproductie een duur en dus riskant project is, helpt het de succesfactoren te weten. Is het de promotie, zijn het de acteurs, de poster, de regisseur, het productiebudget, het genre of misschien de Facebook-likes? Met data-analyse wil ik het verband tussen kenmerken en succes laten zien. Want ... succes blijkt verklaarbaar, zodat je met kennis van succesfactoren de risico's kunt beperken.

Zijn er data over films?
Veel data over films, zoals hun waardering, kassa-omzet en budget, zijn openbaar. Ik gebruik de data met filmbeoordelingen van de Engelstalige IMDB (InternetMovieDataBase). De dataset vind je hier.

Een kritische blik op de data leert dat deze wat gebreken hebben en bewerkt moeten worden. Ik gebruik - vanwege geldontwaarding en gewijzigde publieksvoorkeur - alleen recente data, dus films van na 1995. De hoeveelheid ontbrekende data valt mee. In noodzakelijke gevallen (bijv. kassa-omzet) vullen we de gaten aan met het gemiddelde van die variabele, zoals 'kassa-omzet per film.' Ongeloofwaardige data, zoals budgetten boven $1 miljard, schrap ik. Zo houden we een bruikbare dataset met 4110 recente films over.

Toch is er een potentieel probleem; data over de omvang en samenstelling van de promotie en publiciteit - bij commerciële diensten nogal invloedrijk - ontbreken; deze factoren kunnen slechte films toch goed verkopen of andersom.

Wat is het totaal-beeld?
IMDB blijkt grotendeels Engelstalig; 3817 van de 4110 films zijn Engels (93%). Er zitten slechts 4 Nederlandse films in.

Op het eerste gezicht wordt er aan de gemiddelde film verdiend; de gemiddelde kassa-omzet is $50,3 miljoen en het gemiddelde productiebudget $38,0 miljoen. Maar een nadere analyse onthult dat 2057 van de 4110 films (50%) verlieslatend zijn. Als je een film financiert heb je dus - als je geen maatregelen neemt – 50 procent kans op verlies.

De gemiddelde publiekswaardering van de films is 6,3. Die blijkt per land van herkomst van de film te verschillen:
Verenigde Staten - 6,2
Verenigd Koninkrijk - 6,7
Frankrijk - 6,7
Nederland - 7,4

Voor alle films geldt dat ze niet in één genre passen, maar een combinatie van twee of meer genres zijn. Door deze overlap is het onmogelijk het succes per genre te berekenen. De combinatie 'Action|Adventure|Comedy|Romance|Sci-Fi' heeft de hoogste gemiddeld omzet; $363 miljoen.

Beïnvloedt de waardering de kassa-omzet?
Nee, eenvoudige lineaire regressie-analyse laat zien dat er een minimaal verband is tussen waardering en kassa-omzet. Als je de omzet wilt verklaren met alleen de waardering krijg je een model dat slechts 2,5% van de variatie rondom de gemiddelde omzet per film verklaart. Een film die een 8 scoort haalt maar iets meer omzet dan een film met een 4. Andere factoren zijn dus veel belangrijker.

Beïnvloedt het budget de omzet?
Nee, een eenvoudige regressie-analyse laat zien dat er vrijwel geen verband is tussen deze twee. Als je de omzet probeert te verklaren met alleen de variabele 'budget' krijg je een model dat slechts 1 procent van de variatie rondom de gemiddelde filmomzet verklaart. Het heeft dus weinig zin om veel te besteden aan de productie teneinde de omzet te verhogen. Voor project-controllers een belangrijke steun in de rug; kostenbewaking moet prioriteit hebben.

Wat verklaart dan wel de waardering?
Omdat veel variabelen (zoals regisseur, acteurs, titel, genre en beschrijving film) klassen zijn en geen getallen gebruiken we een beslisboom, en geen lineaire regressie, voor een allesomvattend model. Om de nauwkeurigheid te verhogen kiezen we een fijnvertakt model, dat we daardoor hier helaas niet kunnen afbeelden.
______________________________________________________________________________
Bezoek Big Data Day & Awards op 15 juni 2017
Grote bedrijven kunnen niet meer zonder het inzetten van data. Elke afdeling wordt geconfronteerd met data en daarom wordt de omgang met (Big) Data voor iedere medewerker steeds belangrijker. Daarom worden tijdens Big Data Day diverse disciplines bij elkaar gebracht. Alleen door samen te werken ontstaat er een strategie die bijdraagt aan nieuwe inzichten, producten, processen en business modellen. Gezamenlijk met CEO’s, CFO’s, CHRO’s, CMO’s en COO’s bespreken we hoe er echt waarde uit big data gehaald kan worden en welke vraagstukken bij Big Data-gebruik opdoemen. Hoe kunnen we data nu echt inzetten om waarde toe te voegen? Schrijf u nu in.... 
______________________________________________________________________________

Dit levert een heel nauwkeurig model op dat de waardering voor 97 procent nauwkeurig voorspelt. De kenmerken die hieraan bijdragen zijn:

Opvallend is dat kenmerken als 'aantal Facebook-likes', poster, genre, beeldformaat, verschijningsjaar en taal geen invloed hebben op de waardering.

Ook opvallend is het hoge belang (58%) van betrokken personen; ik vermoed dat hun namen fungeren als substituut-merken, waar het publiek een (gunstig) kwaliteitsoordeel aan verbindt. Dat is dan de verklaring van de hoge acteurs-salarissen en de hoge terugkeer-frequentie van succesvolle personen. 

De filmtitel en de beschrijving doen er toe. Gelukkig zijn zo onderwerp en verhaallijn voor de waardering belangrijk. En hier is waarschijnlijk ook de invloed van teleurgestelde of overtroffen verwachtingen t.o.v. de promotie in verwerkt.

Wat verklaart de omzet?
Zoals eerder geconstateerd is er geen verband tussen de waardering en de kassa-omzet. Dit kan betekenen dat andere factoren de omzet verklaren dan die de waardering verklaren.

Analyse levert een beslisboom op die de omzet met 94 procent nauwkeurigheid voorspelt. De kenmerken die hieraan bijdragen verschillen inderdaad enigszins:

Opvallend is dat kenmerken als 'aantal Facebook-likes', poster, beeldformaat, verschijningsjaar en taal geen invloed hebben op de omzet. Het genre blijkt de omzet wel te beïnvloeden (maar de waardering niet). 

Opvallend is ook hier het hoge belang (53%) van betrokken personen; acteurs/actrices 41 procent en de regisseur 12 procent. De filmtitel is voor de omzet belangrijker dan voor de waardering. Dat is waarschijnlijk de invloed van de promotie, waarvan we helaas geen data hebben. Het onderwerp en de verhaallijn zijn onbelangrijk.

Kun je het succes van een film dus voorspellen?
De invloed van acteurs/actrices en regisseur op de waardering en omzet is groot. De helft van de films draait verlies. Succes is terugblikkend wel goed verklaarbaar, maar omdat filmtitels en woorden in de beschrijving van nieuwe films doorgaans uniek zijn, is succes maar beperkt voorspelbaar. De filmwereld is ook in financieel opzicht de wereld van de illusies (een verband tussen publiekswaardering en kassa-omzet bestaat niet) en bovendien meestal zonder happy end; tenslotte resulteert de helft van de films in een verlies.

Drs. Rene Verbrugge is zelfstandig adviseur voor het MKB en auteur van het boek “Schep meer financiële ruimte om te ondernemen en zorg voor grip op uw werkkapitaal”.

Error in shortcode: slug must be set