(Billet précédent : Part 1)

Le titre du billet de data-business.fr, "Peut-on prédire la qualité d’un vin grâce au Data-Mining ?", est maladroit parce que trop ambitieux : l'objectif initial d'Ashenfelter est "seulement" d'essayer de prédire la qualité d'un millésime, et non d'un vin pris isolément. L'analyse est en outre restreinte aux crus du Bordelais, en s'appuyant sur un échantillon constitué de châteaux parmi les plus prestigieux : Lafite, Latour, Margaux, Cheval Blanc, Ducru Beaucaillou, Leoville Las Cases, Palmer, Pichon Lalande, Beychevelle, Cos d'Estournel, Giscours, Gruaud-Larose, and Lynch-Bages ...

L'amateur de vins tout comme le critique affûté bondissent évidemment de concert lorsqu'on leur annonce qu'il est possible de "résumer" la qualité d'un millésime à des grandeurs aussi simples que :
- la quantité de précipitations en hiver (période d'octobre à mars précédant le millésime)
- la température moyenne sur la période avril-septembre
- la quantité de précipitations pendant les vendanges (août-septembre)

La qualité de la régression obtenue est pourtant plutôt convaincante, puisque le modèle statistique permet d'expliquer 80% de la variation du prix des vins (sur la base des millésimes 1952 à 1980). Ashenfelter estime donc qu'il est possible de prédire la qualité d'un millésime "en cours" en s'appuyant uniquement sur les relevés météorologiques :

With this model, it is possible to predict the relative price at which the new vintage should be sold as soon as the growing season is complete.

Nombre d'amateurs de vins sont à l'affût, dès le mois de septembre, des premiers avis sur la qualité du millésime en cours. Si les vignerons refusent généralement de s'exprimer aussi tôt, les critiques et journalistes s'en privent moins ... en s'appuyant eux aussi sur des impressions diffuses principalement liées à la météo des mois écoulés. C'est en quelque sorte ce que résume le modèle d'Ashenfelter ...

L'avantage d'un modèle aussi simpliste est qu'il ne risque pas de souffrir de sur-ajustement, mais ... quels sont ses pouvoirs prédictifs (parce que c'est bien ce qui intéresse l'amateur) ?

(A suivre ... ici)