Ca faisait un petit bout de temps qu'une question m'intriguait : la courbe du nombre d'entrées réalisées par un film offre-t-elle toujours un même profil d'évolution dans le temps ?
Parvient-on à distinguer d'une part des films "à marketing lourd", dont le nombre d'entrées dans les premières semaines est particulièrement boosté par une forte exposition médiatique, et d'autre part des films ayant davantage profité d'un bouche à oreille favorable qui garantirait une décroissance moins rapide du nombre d'entrées ?

Il faut pour cela identifier une source (apparemment) fiable, j'en ai notamment trouvé une sur http://www.cinemondial.com, qui a le bon goût d'offrir depuis septembre 2002 les 10 premiers du box-office national sur une page dont l'URL est construite de la même manière : http://www.cinemondial.com/visu_bofra.php?rechweek=20020911
C'est évidemment mon ami Perl qui s'est chargé du boulot, dans le même esprit que ce que j'avais fait sur "Data digging for dummies".
On utilise ici le package LWP::Simple pour faire de la récup simple de page web, ainsi que Date::Calc pour faciliter l'utilisation de dates (il est nécessaire de faire une triple boucle imbriquée sur année, mois et jour en s'assurant que la date sélectionnée est bien un mercredi).

Oh, bien sûr, le code HTML de la page est un peu chargé, mais on y distingue un commentaire qui permet d'isoler simplement la section contenant les chiffres de la semaine en cours :

<!-- affichage TOP 10 HEBDOMADAIRE -->

Un peu plus bas, la ligne contenant les résultats ayant le bon goût d'être construite avec des champs permettant la localisation des données qui nous intéressent (titre, nb de semaines depuis la sortie, nombre d'entrées), un peu de tripatouillage de regexp permet de parvenir à ses fins. Le script crée un fichier tabulé contenant, en lignes, le titre et le nombre d'entrées semaine par semaine, jusqu'à disparition du top 10 (Pour ceux que ça intéresse, j'ai uploadé le code sur github)

box_office_01.gif

La méthode souffre d'un biais d'observation évident : on ne parle que des films qui ont au moins passé une semaine dans le top 10, et donc rarement des films d'auteur balinais, tournés en noir et blanc par des acteurs non-professionnels. Nonobstant, on peut faire quelques constats intéressants ...

Le nombre brut d'entrées ne facilite pas la comparaison. On normalise donc les résultats en divisant le nombre d'entrées de chaque semaine par le nombre total d'entrées :

box_office_02.gif

Yapuka tracer les courbes (ici les 50 premiers du classement) :

box_office_03.gif

L'anomalie Spiderman 3 qui émerge en 2e semaine s'explique relativement aisément (après un peu de recherche quand même) : le film est sorti le 1er mai 2007 ... qui était un mardi. Les chiffres de la 1e semaine sont donc probablement ceux du mardi seulement.

box_office_04.gif

L'autre anomalie qui émerge est Arthur et les Minimoys. Sa 3e semaine correspond à la semaine de vacances de fin d'année. Pour un film familial, le coup de boost est donc logique ...

box_office_05.gif

Dans le même genre, le film dont la 1e semaine constitue le plus gros score relatif est les Aventures de Tintin, sorti un 26 octobre, donc pendant les vacances de la Toussaint :

box_office_06.gif

Une fois ce ménage fait, on se retrouve avec un nuage de courbes sensiblement plus homogène :

box_office_07.gif

Dans la partie la plus dense de ce faisceau, on voit que le ratio du nb d'entrées en 1e semaine au nb total d'entrées s'étend quand même grosso modo de 0.2 à 0.5. Cela signifie clairement que le nombre d'entrées en 1e semaine ne suffit pas à présager avec précision du succès final au box-office : le nombre total d'entrées sera en gros compris entre 2 et 5 fois celui de la 1e semaine ...

Allez, encore un peu de ménage en enlevant la Reine des Neiges (top en semaine 4 à Noël) qui perturbait un peu la lecture, et on retrouve "en-dehors du paquet" 4 films

box_office_08.gif

... qui constituent tout simplement le top 4 sur la période étudiée (depuis septembre 2002). Titanic, Astérix et les Visiteurs étaient en effet sortis auparavant : http://www.cinemondial.com/visu_bofra.php#historique

Si le nb d'entrées de la 1e semaine ne suffit pas, l'évolution du nb d'entrées entre semaine 1 et 2 constitue donc un excellent indicateur du succès à long terme ...

On calcule maintenant les ratios (semaine 2/semaine 1), (semaine 3/semaine 1), etc ... En triant les 50 premiers films par valeur décroissante sur le ratio "2/1", et si on met de côté l'effet vacances (Skyfall en avait également bénéficié à la Toussaint 2012), ou encore l'anomalie Spiderman 3 déjà évoquée, on obtient le tableau suivant.

box_office_09.gif

Ca donne un classement pas très éloigné du box-office final, tout ça ... Il reste les Petits Mouchoirs en "intrus" (5 millions d'entrées au total quand même), mais ... petit effet vacances encore (les congés scolaires couraient du 23/10 au 04/11)

On peut continuer et sortir plein de nuages de points amusants, dont le plus intéressant est à mon avis le suivant.

box_office_10.gif

J'espère que la notation est suffisamment claire :

  • total/N1 = rapport entre le nb total d'entrées et celui en 1e semaine
  • N2/N1 = rapport entre le nb d'entrées en 2e semaine et celui en 1e semaine

On voit que dès la 2e semaine, des tendances se dégagent assez clairement :

  • tous les films pour lesquels N2/N1<0.5 ne dépasseront pas total/N1=3
  • tous les films pour lesquels N2/N1<0.7 ne dépasseront pas total/N1=4

A partir de N2/N1=0.85, le ratio total/N1 peut alors dépasser 5, et s'envoler vers des hauteurs que peu atteignent. Pas forcément des cartons absolus d'ailleurs, puisqu'on retrouve au milieu de ces ténors du box-office un film comme Je vous trouve très beau, qui n'émarge qu'à la 96e place avec 3.3 millions d'entrées. On peut voir qu'à la 7e semaine, il faisait encore largement plus de la moitié des entrées de la 1e semaine !