Le billet "Peut-on prédire la qualité d’un vin grâce au Data-Mining ?" que l'on peut lire sur data-business.fr mentionne un article d'Orley Ashenfelter datant des années 80 dont je n'avais jamais entendu parler. Dans cet article, Ashenfelter construit un modèle statistique faisant le lien entre d'une part la qualité d'un millésime, qualité qu'il estime suffisamment bien déterminée par le prix de vente moyen des vins lors de ventes aux enchères, et d'autre part des inducteurs météorologiques supposés pertinents.

L'équation obtenue par Ashenfelter est un peu malmenée dans les différentes sources la mentionnant. C'est ainsi qu'on trouve :
wine quality = 12.145 + 0.00117 winter rainfall + 0.0614 average growing season temperature - 0.00386 harvest rainfall
sur snooth.com (c'est l'équation lue dans l'article de data-business.fr, ou bien dans l'ouvrage The Intelligent Web, page 192), mais également (avec une faute de frappe manifeste)
wine quality = 12.145 / 0.00117 winter rainfall + 0.0614 average growing season temperature - 0.00386 harvest rainfall
sur le blog Big Data de SAP.
Dans les billets "First crush the grapes, then crunch the numbers" (pdf) et In vino veritas?, un signe moins se glisse devant le 12.145, mais les coefficients demeurent identiques. Dans l'ouvrage "Keeping up with the quants" (lien sur google books), le signe moins est absent et le 0.0614 s'est transformé en 0.616 !

Une belle illustration de la nécessité d'aller chercher les infos à la source : par exemple sur ce papier de l'auteur lui-même sur wine-economics.org, ce qui permet de confirmer le 0.616 (mais la constante n'est pas renseignée), ou encore directement sur son site, qui nous conduit à l'article BORDEAUX WINE VINTAGE QUALITY AND THE WEATHER, où l'on est (enfin ! quel suspense ...) redirigé vers le résultat originel (on oublie ici volontairement le facteur "vieillissement", qui sera évoqué plus tard) :

wine quality = -12.145 + 0.00117 winter rainfall + 0.6164 average growing season temperature - 0.00386 harvest rainfall



Model: MODEL1  
 Dependent Variable: LPRICE2    Logarithm of Average Vintage Price Relative to 1961   
  
                             Variable Definitions
								
       Variable  DF     Label
  
       INTERCEP   1  Intercept                               
       WRAIN      1  Winter (Oct.-March) Rain  ML                
       DEGREES    1  Average Temperature (Deg Cent.) April-Sept.   
       HRAIN      1  Harvest (August and Sept.) ML               
       TIME_SV    1  Time since Vintage (Years) 
       .             Denotes missing observations                                    
  
                               Parameter Estimates
  
                        Parameter      Standard    T for H0:               
       Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
  
       INTERCEP   1    -12.145398    1.68808445        -7.195        0.0001
       WRAIN      1      0.001167    0.00048203         2.421        0.0242
       DEGREES    1      0.616397    0.09517460         6.476        0.0001
       HRAIN      1     -0.003860    0.00080753        -4.781        0.0001
       TIME_SV    1      0.023847    0.00716666         3.327        0.0031

A suivre ... ici

(NB : certains élèves ont été plus sérieux que d'autres. Ceux-là, par exemple, ont la bonne équation)