Le billet "Peut-on prédire la qualité d’un vin grâce au Data-Mining ?" que l'on peut lire sur data-business.fr mentionne un article d'Orley Ashenfelter datant des années 80 dont je n'avais jamais entendu parler. Dans cet article, Ashenfelter construit un modèle statistique faisant le lien entre d'une part la qualité d'un millésime, qualité qu'il estime suffisamment bien déterminée par le prix de vente moyen des vins lors de ventes aux enchères, et d'autre part des inducteurs météorologiques supposés pertinents.
L'équation obtenue par Ashenfelter est un peu malmenée dans les différentes sources la mentionnant. C'est ainsi qu'on trouve :
wine quality = 12.145 + 0.00117 winter rainfall + 0.0614 average growing season temperature - 0.00386 harvest rainfall
sur snooth.com (c'est l'équation lue dans l'article de data-business.fr, ou bien dans l'ouvrage The Intelligent Web, page 192), mais également (avec une faute de frappe manifeste)
wine quality = 12.145 / 0.00117 winter rainfall + 0.0614 average growing season temperature - 0.00386 harvest rainfall
sur le blog Big Data de SAP.
Dans les billets "First crush the grapes, then crunch the numbers" (pdf) et In vino veritas?, un signe moins se glisse devant le 12.145, mais les coefficients demeurent identiques.
Dans l'ouvrage "Keeping up with the quants" (lien sur google books), le signe moins est absent et le 0.0614 s'est transformé en 0.616 !
Une belle illustration de la nécessité d'aller chercher les infos à la source : par exemple sur ce papier de l'auteur lui-même sur wine-economics.org, ce qui permet de confirmer le 0.616 (mais la constante n'est pas renseignée), ou encore directement sur son site, qui nous conduit à l'article BORDEAUX WINE VINTAGE QUALITY AND THE WEATHER, où l'on est (enfin ! quel suspense ...) redirigé vers le résultat originel (on oublie ici volontairement le facteur "vieillissement", qui sera évoqué plus tard) :
wine quality = -12.145 + 0.00117 winter rainfall + 0.6164 average growing season temperature - 0.00386 harvest rainfall
Model: MODEL1 Dependent Variable: LPRICE2 Logarithm of Average Vintage Price Relative to 1961 Variable Definitions Variable DF Label INTERCEP 1 Intercept WRAIN 1 Winter (Oct.-March) Rain ML DEGREES 1 Average Temperature (Deg Cent.) April-Sept. HRAIN 1 Harvest (August and Sept.) ML TIME_SV 1 Time since Vintage (Years) . Denotes missing observations Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > |T| INTERCEP 1 -12.145398 1.68808445 -7.195 0.0001 WRAIN 1 0.001167 0.00048203 2.421 0.0242 DEGREES 1 0.616397 0.09517460 6.476 0.0001 HRAIN 1 -0.003860 0.00080753 -4.781 0.0001 TIME_SV 1 0.023847 0.00716666 3.327 0.0031
A suivre ... ici
(NB : certains élèves ont été plus sérieux que d'autres. Ceux-là, par exemple, ont la bonne équation)