Curiosity - Mot-clé - data science

Quelques data sur le tennis

2017-05-31T21:24:00+01:00

Le site on-the-t.com de Stephanie Kovalchik, et son compte Twitter @StatsOnTheT

Le compte Twitter @any_lytics

Les bases de données de Jeff Sackmann sur github

http://www.tennisabstract.com/

http://gamesetmap.com/, sous-titré "Rethinking analytics for tennis using Hawk-Eye data".

Vin et data science

2015-09-17T13:14:00+01:00

(à suivre ...)

http://io9.com/wine-tasting-is-bullshit-heres-why-496098276

https://www.ucl.ac.uk/news/news-articles/0815/050815-fine-wine-price-prediction

http://www.datanami.com/2015/02/20/outsmarting-wine-snobs-with-machine-learning/

https://infocus.emc.com/william_schmarzo/data-scientist-quest-perfect-wine/

http://www.datasciencecentral.com/profiles/blogs/it-s-time-to-bring-your-own-data

http://www.datasciencecentral.com/profiles/blogs/data-science-meets-bubbly-what-data-says-about-champagne-buying

http://blogs.microsoft.com/blog/2014/09/02/bings-kevin-white-red-wine-data-science-perfect-pairing/

https://onlinecourses.science.psu.edu/stat857/node/223

http://www.pricingleadership.com/big-data-and-wine/

http://blog.revolutionanalytics.com/2011/11/because-its-friday-data-mining-wine.html

http://www.foodandwine.com/articles/wine-technology-can-harvesting-data-make-better-wine

http://www.businessinsider.com/big-data-makes-your-wine-taste-better-2013-8?IR=T

http://www.forbes.com/sites/sap/2014/04/30/how-big-data-can-predict-the-wine-of-the-century/

https://www.linkedin.com/pulse/20140707174508-161818492-big-data-wine-a-sustainable-story

https://hbr.org/2012/05/big-data-for-the-small-company/

Ressources data science

2015-07-17T08:35:00+01:00

Data Science Central
KD Nuggets : Data Mining, Analytics, Big Data, and Data Science

Sur Scoop.it :

(à compléter ...)

Datalogging / acquisition de données

2015-03-23T18:10:00+00:00

Quelques ressources :

RaceChrono : sous Android, gratuit
Un tuto sur forum-auto.com (le même ici)
Le matériel compatible
Harry's LapTimer Rookie (7€99)
le wiki des listes mc-engine et mc-chassis
hardware chez Aim Sports
Explication chaine d'acquisition (capteur / conditionneur)
GPSLogger

GPS "ready for use"

les produits de chez Qstarz
chez Conrad

Modules GPS à packager :

receveurs GPS sparkfun
U-Blox G6010 5Hz, à coupler avec un Arduino
LS20031 5Hz

Pour exploiter un signal GPS avec un Arduino :

Accéléro et Arduino

Gyroscopes :

Gyroscope Wii Motion Plus

Box-office data mining

2015-02-05T13:48:00+00:00

Ca faisait un petit bout de temps qu'une question m'intriguait : la courbe du nombre d'entrées réalisées par un film offre-t-elle toujours un même profil d'évolution dans le temps ?
Parvient-on à distinguer d'une part des films "à marketing lourd", dont le nombre d'entrées dans les premières semaines est particulièrement boosté par une forte exposition médiatique, et d'autre part des films ayant davantage profité d'un bouche à oreille favorable qui garantirait une décroissance moins rapide du nombre d'entrées ?

Il faut pour cela identifier une source (apparemment) fiable, j'en ai notamment trouvé une sur http://www.cinemondial.com, qui a le bon goût d'offrir depuis septembre 2002 les 10 premiers du box-office national sur une page dont l'URL est construite de la même manière : http://www.cinemondial.com/visu_bofra.php?rechweek=20020911
C'est évidemment mon ami Perl qui s'est chargé du boulot, dans le même esprit que ce que j'avais fait sur "Data digging for dummies".
On utilise ici le package LWP::Simple pour faire de la récup simple de page web, ainsi que Date::Calc pour faciliter l'utilisation de dates (il est nécessaire de faire une triple boucle imbriquée sur année, mois et jour en s'assurant que la date sélectionnée est bien un mercredi).

Oh, bien sûr, le code HTML de la page est un peu chargé, mais on y distingue un commentaire qui permet d'isoler simplement la section contenant les chiffres de la semaine en cours :

<!-- affichage TOP 10 HEBDOMADAIRE -->

Un peu plus bas, la ligne contenant les résultats ayant le bon goût d'être construite avec des champs permettant la localisation des données qui nous intéressent (titre, nb de semaines depuis la sortie, nombre d'entrées), un peu de tripatouillage de regexp permet de parvenir à ses fins. Le script crée un fichier tabulé contenant, en lignes, le titre et le nombre d'entrées semaine par semaine, jusqu'à disparition du top 10 (Pour ceux que ça intéresse, j'ai uploadé le code sur github)

La méthode souffre d'un biais d'observation évident : on ne parle que des films qui ont au moins passé une semaine dans le top 10, et donc rarement des films d'auteur balinais, tournés en noir et blanc par des acteurs non-professionnels. Nonobstant, on peut faire quelques constats intéressants ...

Le nombre brut d'entrées ne facilite pas la comparaison. On normalise donc les résultats en divisant le nombre d'entrées de chaque semaine par le nombre total d'entrées :

Yapuka tracer les courbes (ici les 50 premiers du classement) :

L'anomalie Spiderman 3 qui émerge en 2e semaine s'explique relativement aisément (après un peu de recherche quand même) : le film est sorti le 1er mai 2007 ... qui était un mardi. Les chiffres de la 1e semaine sont donc probablement ceux du mardi seulement.

L'autre anomalie qui émerge est Arthur et les Minimoys. Sa 3e semaine correspond à la semaine de vacances de fin d'année. Pour un film familial, le coup de boost est donc logique ...

Dans le même genre, le film dont la 1e semaine constitue le plus gros score relatif est les Aventures de Tintin, sorti un 26 octobre, donc pendant les vacances de la Toussaint :

Une fois ce ménage fait, on se retrouve avec un nuage de courbes sensiblement plus homogène :

Dans la partie la plus dense de ce faisceau, on voit que le ratio du nb d'entrées en 1e semaine au nb total d'entrées s'étend quand même grosso modo de 0.2 à 0.5. Cela signifie clairement que le nombre d'entrées en 1e semaine ne suffit pas à présager avec précision du succès final au box-office : le nombre total d'entrées sera en gros compris entre 2 et 5 fois celui de la 1e semaine ...

Allez, encore un peu de ménage en enlevant la Reine des Neiges (top en semaine 4 à Noël) qui perturbait un peu la lecture, et on retrouve "en-dehors du paquet" 4 films

... qui constituent tout simplement le top 4 sur la période étudiée (depuis septembre 2002). Titanic, Astérix et les Visiteurs étaient en effet sortis auparavant : http://www.cinemondial.com/visu_bofra.php#historique

Si le nb d'entrées de la 1e semaine ne suffit pas, l'évolution du nb d'entrées entre semaine 1 et 2 constitue donc un excellent indicateur du succès à long terme ...

On calcule maintenant les ratios (semaine 2/semaine 1), (semaine 3/semaine 1), etc ... En triant les 50 premiers films par valeur décroissante sur le ratio "2/1", et si on met de côté l'effet vacances (Skyfall en avait également bénéficié à la Toussaint 2012), ou encore l'anomalie Spiderman 3 déjà évoquée, on obtient le tableau suivant.

Ca donne un classement pas très éloigné du box-office final, tout ça ... Il reste les Petits Mouchoirs en "intrus" (5 millions d'entrées au total quand même), mais ... petit effet vacances encore (les congés scolaires couraient du 23/10 au 04/11)

On peut continuer et sortir plein de nuages de points amusants, dont le plus intéressant est à mon avis le suivant.

J'espère que la notation est suffisamment claire :

total/N1 = rapport entre le nb total d'entrées et celui en 1e semaine
N2/N1 = rapport entre le nb d'entrées en 2e semaine et celui en 1e semaine

On voit que dès la 2e semaine, des tendances se dégagent assez clairement :

tous les films pour lesquels N2/N1<0.5 ne dépasseront pas total/N1=3
tous les films pour lesquels N2/N1<0.7 ne dépasseront pas total/N1=4

A partir de N2/N1=0.85, le ratio total/N1 peut alors dépasser 5, et s'envoler vers des hauteurs que peu atteignent. Pas forcément des cartons absolus d'ailleurs, puisqu'on retrouve au milieu de ces ténors du box-office un film comme Je vous trouve très beau, qui n'émarge qu'à la 96e place avec 3.3 millions d'entrées. On peut voir qu'à la 7e semaine, il faisait encore largement plus de la moitié des entrées de la 1e semaine !

Best quotes about Big Data

2014-10-10T15:39:00+00:00

"Data matures like wine, applications like fish." – James Governor

"If we have data, let’s look at data. If all we have are opinions, let’s go with mine." – Jim Barksdale, former CEO of Netscape Communications Corporation.

“Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.” – Dan Ariely

“It’s easy to lie with statistics. It’s hard to tell the truth without statistics.” – Andrejs Dunkels

“Data is not information, information is not knowledge, knowledge is not understanding, understanding is not wisdom.” – Clifford Stoll

“With too little data, you won’t be able to make any conclusions that you trust. With loads of data you will find relationships that aren’t real… Big data isn’t about bits, it’s about talent.” – Douglas Merrill

“Listening to the data is important… but so is experience and intuition. After all, what is intuition at its best but large amounts of data of all kinds filtered through a human brain rather than a math model?” – Steve Lohr

“We chose it because we deal with huge amounts of data. Besides, it sounds really cool.” – Larry Page

Sources :
http://bigdata-madesimple.com/30-thought-provoking-big-data-quotes-that-you-should-know/

Data digging for dummies (wine and Perl inside)

2014-09-30T23:28:00+00:00

(Je n'ose pas appeler ça du data mining, même si techniquement, il s'agit bien d'aller récupérer l'information là où elle est ... :) )

Petit exercice pratique de Perl, suite à une question posée (ici) sur un forum d'alcooliques : "quels sont les domaines sur Châteauneuf du pape ayant des cuvées à forte proportion de cinsault ?" Le plus dur, c'est sans doute de trouver le "bon" site : celui-ci, tenu par un passionné danois, semble faire l'affaire. Beaucoup de domaines y sont référencés (tous ?), les noms des cuvées et les encépagements sont spécifiés (modulo les variations annuelles, mais bon ...). L'objectif est évidemment de NE PAS effectuer la recherche à la main, mais de l'automatiser, et tant qu'à faire d'y parvenir en moins de 20 lignes de code. Pour récupérer une page web, on peut utiliser le package LWP::Simple. En deux lignes :

use LWP::Simple;
my $content = get('http://www.chateauneuf.dk/en/index.htm');

Quand on regarde le code source de la page de départ, on voit ces séquences là : <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/30/cdpen133.htm">Beaucastel</a> (toutes les urls sont sur le format cdpen*.htm)

On récupère donc à la fois l'url de la page et le nom du domaine avec l'expression régulière suivante (recherche "globale", en mode liste) :

my %domaine = ($content =~ m/(cdpen\d+\.htm)">(.+?)<\/a>/g);

Cela permet d'affecter un hash construit sur le modèle $domaine{url}=nom; Puis on effectue une boucle sur toutes les pages :

foreach my $page (keys %domaine) {

... dont on récupère le contenu :

	my $cdp = get('http://www.chateauneuf.dk/en/'.$page);

... que l'on parcourt :

	while ($cdp =~ /(Chateauneuf.+(\n){1}.+?(\d+)\%\s+Cinsault)/g) {

Cette regexp mérite quand même une petite explication : le détail des cuvées est écrit sur deux lignes, on ne cherche que des Châteauneuf (certaines cuvées peuvent être en Côtes du Rhône), contenant un certain pourcentage de Cinsault. Sur la page du domaine du Père Pape, on voit par exemple :

Chateauneuf du Pape Domaine du Pere Pape
2010: 65% Grenache, 20% Syrah and 15% Cinsault.

avec le code html suivant :

<b>Chateauneuf du Pape</b> <b>Domaine du Pere Pape</b><br>
      2010: 65% Grenache, 20%<span style="mso-spacerun: yes">&nbsp;S</span>yrah and 15% Cinsault.&nbsp;<br>

On cherche donc la chaîne Chateauneuf, suivie d'un certain nombre de caractères .+, d'un seul saut de ligne (\n){1}, d'un certain nombre de caractères (en mode non-greedy !) .+?, du signe % (que l'on échappe), d'un ou plusieurs espaces \s+, et enfin de la chaîne Cinsault.

On récupère les modèles qui nous intéressent :

		my $quest = $1;			
		my $percent = $3;

On vire les balises :

		$quest =~ s/<.+?>//g;

... puis la newline pour faire joli :

		$quest =~ s/\n//g;

Et on affiche enfin seulement ceux qui nous intéressent :

		if ($percent >=10) {print $domaine{$page},"\t",$quest,"\n\n";}

ET VOILA !

En résumé :

use strict;
use LWP::Simple;
my $path = 'http://www.chateauneuf.dk/en/';
my $cepage = 'Cinsault';
my $content = get('http://www.chateauneuf.dk/en/index.htm');
my %domaine = ($content =~ m/(cdpen\d+\.htm)">(.+?)<\/a>/g);

foreach my $page (keys %domaine) {
	my $cdp = get($path.$page);
	while ($cdp =~ /(Chateauneuf.+(\n){1}.+?(\d+)\%\s+$cepage)/g) {
		my $quest = $1;			
		my $percent = $3;
		$quest =~ s/<.+?>//g;		# On vire les balises
		$quest =~ s/\n//g;		# On supprime la newline
		if ($percent >=10) {print $domaine{$page},"\t",$quest,"\n\n";}
	}
}

L'équation du vin de Bordeaux - Part 5

2014-09-18T23:05:00+00:00

(Billets précédents : Part 1 - Part 2 - Part 3 - Part 4)

Dans le dernier billet, on a vu que le modèle utilisé par Ashenfelter lui permettait de donner une "note" (wine quality) à chaque millésime. En triant le tableau précédemment obtenu par "wine quality" décroissante, on obtient le classement suivant :

2003, année atypique d'un point de vue météorologique (été caniculaire), se retrouve sans grande surprise en tête de ce classement. Est-ce la meilleure année de la période 1982-2008 ? Je pense que peu d'amateurs de Bordeaux seront d'accord avec ça. On peut s'en rendre compte en allant fouiller sur les sites de Robert Parker, de la RVF (pdf), du Figaro, du Savour Club, du guide Hachette (voir ici), etc ...

J'ai également récupéré le tableau de millésimes de lapassionduvin.com, et j'ai fait la moyenne des notes attribuées par les contributeurs du forum aux Bordeaux des deux rives. On obtient le classement suivant :

La juxtaposition des deux, sur la période commune de 20 millésimes allant de 1989 à 2008, montre clairement l'écart considérable entre la prévision du modèle d'Ashenfelter et ce que pense une large population d'amateurs avertis :

C'est peut-être un peu plus lisible en ajoutant le nombre de rangs d'écart entre les deux classements. 2003 passe du 1e au 11e rang, 2006 du 2e au 9e rang, etc ... :

Plus de la moitié des millésimes ont 5 rangs d'écart ou plus d'un classement à l'autre ! Les notes attribuées par des internautes n'ont certes pas la même valeur indicative que les prix de ventes aux enchères, mais le modèle d'Ashenfelter semble avoir du plomb dans l'aile ...

Il est sans doute un peu trop simple : par exemple son paramètre harvest rainfall de cumul des précipitations sur août et septembre n'est pas assez riche et mériterait de tenir compte du nb de jours de précipitations : il me semble assez évident que 100 mm de flotte en 2 jours et 58 jours de beau temps ne donnent pas le même résultat que 60 jours de crachin quasi-continu .. en tout cas à la vigne, car dans son modèle justement ça ne change rien. Peut-être a-t-il aussi été victime du réchauffement climatique :) Son modèle est construit sur une certaine période (1952-1980), et la "linéarité" de sa régression par rapport à la température moyenne a peut-être atteint ses limites avec des millésimes comme 2003. Un été chaud c'est bien, mais un été caniculaire pas forcément ... Mais bon, l'idée de départ demeure intéressante (s'appuyer sur les prix des vins aux enchères pour juger avec du recul de la qualité d'un millésime ... même s'il y a des effets de bord), et je trouve toujours ça amusant de trouver des corrélations même grossières sur ce genre de données.

L'équation du vin de Bordeaux - Part 4

2014-09-12T00:22:34+00:00

(Billets précédents : Part 1 - Part 2 - Part 3)

Bon, forcément, après tout ça, je me suis dit que j'allais m'y coller aussi. Donc j'ai récupéré les données météo (températures mini, maxi, et précipitations), et j'ai pondu quelques bouts de Perl pour aboutir à ce tableau :

et par conséquent à cette courbe :

NB : l'indice de qualité du vin étant défini par Ashenfelter comme étant le logarithme du ratio du prix du millésime courant divisé par le prix du (mythique) millésime 1961 (voir ici), il n'est pas étonnant que la plupart des valeurs soient négatives.
NMB (Nota Molto Bene) : il faut ici raisonner "après correction de l'inflation". Les millésimes récents ont vu leurs prix exploser du fait de la demande internationale, et n'ont plus rien à voir avec les prix de 1961. On ne quantifie ici que le facteur météorologique ...

Les variations observées dans ce graphique correspondent-elles à ce qui se dit aujourd'hui (avec du recul) de ces millésimes ?

(A suivre ...)

L'équation du vin de Bordeaux - Part 3

2014-09-11T23:18:10+00:00

(Billets précédents : Part 1 - Part 2)

D'après data-business.fr, Ashenfelter aurait affirmé que le millésime 1986 serait médiocre, prenant le contrepied de l'avis évoqué par Robert Parker qui l'encensait à sa sortie :

En 1989, Parker publie dans son magazine, « The Wine Advocate », un article expliquant pourquoi selon lui le Bordeaux de 86 serait « très bon, voire exceptionnel ». Ashenfelter, jugeant que les précipitations au-dessus de la moyenne et la faible température « condamnent le cru à la médiocrité », critique ouvertement Parker dans un article du NY Times.

L'article en question semble être celui-ci : Wine Equation Puts Some Noses Out of Joint (New York Times, 04/03/1990), dont on peut apprécier le passage suivant :

Mr. Parker rates the 1986's as very good and sometimes exceptional. Peter A. Sichel, author of the influential Bordeaux Vintage and Market Report, said the 1986's have elegance and classic Bordeaux structure. New York stores, brimming with the vintage, are pricing the wines in the same range as the much-praised 1985's.

But according to the Ashenfelter system, below-average growing season temperatures and above-average harvest rainfall doom the 1986 Bordeaux to mediocrity. When the dust settles, he predicts, it will be judged the worst vintage of the 1980's, and no better than the unmemorable 1974's or 1969's.

L'amateur de crus bordelais sera sans doute surpris de ce jugement ... Certains avis sur 1986 sont aujourd'hui critiques, comme par exemple The Wine Cellar Insider (on peut se demander si ce n'est pas Ashenfelter lui-même qui a rédigé ce passage) :

"Critics at the time were enamored with 1986 Bordeaux wine, when they first tasted them. But time has not been kind to most 1986 Bordeaux wine. The fruit has fled over the past few decades and with few exceptions, only the brutal, hard tannins remain. 1986 Bordeaux wine has power, structure and concentration, but most lack charm, elegance or softness. 1986 Bordeaux wine is a stern, old school Bordeaux vintage that fans of what is known as “traditional Bordeaux” enjoy."

Il y est quand même dit :

"It is undeniable that a few great wines were produced"

Encore plus étonnant, le constat météo ne semble pas coller avec ce qu'en disait Ashenfelter. Il y est fait mention de chaleur et de sécheresse, à l'exception d'un épisode de fortes pluies mi-septembre :

"1986 Bordeaux wine was shaped by a difficult vintage created from heat and draught from start to finish of the growing season. The bud break occurred late, but flowering was normal. The summer was hot, sunny and very dry. By September, the vines were experiencing stress from drought conditions. The grapes had stopped maturing and were in danger of not reaching maturity, as the growing cycle was shutting down. The rain that fell in mid September changed that. The initial rain was followed by a massive storm that caused flooding in some Bordeaux appellations. This caused the Merlot to become diluted and bloated from too much water. The 1986 Bordeaux harvest got started September 23. For the next 23 days, Bordeaux enjoyed three weeks of hot, sun drenched and windy conditions that was perfect for the vines and the pickers."

Chez Berry Brothers & Rudd, le bilan est très positif (ils en ont peut-être encore à vendre ...)

A very large vintage (the biggest to date since the war) and one that has produced some sensational wines that are characterised by their concentration, power, and depth of fruit. After a harsh winter and extremely cold weather throughout April, the vines` development process was nearly a month in arrears. Luckily, May was warm and dry and Bordeaux enjoyed a hot, dry summer with July and August being particularly hot. There was some rain in September but not enough to seriously disrupt the harvest. The weather was perfect in early October and, for those producers who waited the quality of the fruit, particularly the Cabernet Sauvignon, was exceptional.

Chez Bob lui-même, les notes sont toujours bonnes, au moins sur la rive gauche : 90 pour Margaux, 94 pour St-Julien / Pauillac / St-Estèphe. Peut-être lui est-il difficile de se dédire, s'il a effectivement applaudi 1986 à sa sortie ...

Jancis Robinson en propose une lecture intéressante :

"Dense, brooding and viciously tannic at first. Some may impress in the end but have required enormous patience."

(Brooding: Wines that are brooding offer dark colors with intense concentration of flavor) Cela sous-entend que le millésime se révèle finalement de qualité, en dépit d'un début potentiellement difficile ... et on pourrait précisément être positivement surpris par la vision qu'en a très tôt eu Parker, et considérer que l'avis d'Ashenfelter ne trouve pas de justification a posteriori.

(A suivre)

L'équation du vin de Bordeaux - Part 2

2014-09-11T22:28:44+00:00

(Billet précédent : Part 1)

Le titre du billet de data-business.fr, "Peut-on prédire la qualité d’un vin grâce au Data-Mining ?", est maladroit parce que trop ambitieux : l'objectif initial d'Ashenfelter est "seulement" d'essayer de prédire la qualité d'un millésime, et non d'un vin pris isolément. L'analyse est en outre restreinte aux crus du Bordelais, en s'appuyant sur un échantillon constitué de châteaux parmi les plus prestigieux : Lafite, Latour, Margaux, Cheval Blanc, Ducru Beaucaillou, Leoville Las Cases, Palmer, Pichon Lalande, Beychevelle, Cos d'Estournel, Giscours, Gruaud-Larose, and Lynch-Bages ...

L'amateur de vins tout comme le critique affûté bondissent évidemment de concert lorsqu'on leur annonce qu'il est possible de "résumer" la qualité d'un millésime à des grandeurs aussi simples que :
- la quantité de précipitations en hiver (période d'octobre à mars précédant le millésime)
- la température moyenne sur la période avril-septembre
- la quantité de précipitations pendant les vendanges (août-septembre)

La qualité de la régression obtenue est pourtant plutôt convaincante, puisque le modèle statistique permet d'expliquer 80% de la variation du prix des vins (sur la base des millésimes 1952 à 1980). Ashenfelter estime donc qu'il est possible de prédire la qualité d'un millésime "en cours" en s'appuyant uniquement sur les relevés météorologiques :

With this model, it is possible to predict the relative price at which the new vintage should be sold as soon as the growing season is complete.

Nombre d'amateurs de vins sont à l'affût, dès le mois de septembre, des premiers avis sur la qualité du millésime en cours. Si les vignerons refusent généralement de s'exprimer aussi tôt, les critiques et journalistes s'en privent moins ... en s'appuyant eux aussi sur des impressions diffuses principalement liées à la météo des mois écoulés. C'est en quelque sorte ce que résume le modèle d'Ashenfelter ...

L'avantage d'un modèle aussi simpliste est qu'il ne risque pas de souffrir de sur-ajustement, mais ... quels sont ses pouvoirs prédictifs (parce que c'est bien ce qui intéresse l'amateur) ?

(A suivre ... ici)

L'équation du vin de Bordeaux - Part 1

2014-09-11T18:43:31+00:00

Le billet "Peut-on prédire la qualité d’un vin grâce au Data-Mining ?" que l'on peut lire sur data-business.fr mentionne un article d'Orley Ashenfelter datant des années 80 dont je n'avais jamais entendu parler. Dans cet article, Ashenfelter construit un modèle statistique faisant le lien entre d'une part la qualité d'un millésime, qualité qu'il estime suffisamment bien déterminée par le prix de vente moyen des vins lors de ventes aux enchères, et d'autre part des inducteurs météorologiques supposés pertinents.

L'équation obtenue par Ashenfelter est un peu malmenée dans les différentes sources la mentionnant. C'est ainsi qu'on trouve :
wine quality = 12.145 + 0.00117 winter rainfall + 0.0614 average growing season temperature - 0.00386 harvest rainfall
sur snooth.com (c'est l'équation lue dans l'article de data-business.fr, ou bien dans l'ouvrage The Intelligent Web, page 192), mais également (avec une faute de frappe manifeste)
wine quality = 12.145 / 0.00117 winter rainfall + 0.0614 average growing season temperature - 0.00386 harvest rainfall
sur le blog Big Data de SAP.
Dans les billets "First crush the grapes, then crunch the numbers" (pdf) et In vino veritas?, un signe moins se glisse devant le 12.145, mais les coefficients demeurent identiques. Dans l'ouvrage "Keeping up with the quants" (lien sur google books), le signe moins est absent et le 0.0614 s'est transformé en 0.616 !

Une belle illustration de la nécessité d'aller chercher les infos à la source : par exemple sur ce papier de l'auteur lui-même sur wine-economics.org, ce qui permet de confirmer le 0.616 (mais la constante n'est pas renseignée), ou encore directement sur son site, qui nous conduit à l'article BORDEAUX WINE VINTAGE QUALITY AND THE WEATHER, où l'on est (enfin ! quel suspense ...) redirigé vers le résultat originel (on oublie ici volontairement le facteur "vieillissement", qui sera évoqué plus tard) :

wine quality = -12.145 + 0.00117 winter rainfall + 0.6164 average growing season temperature - 0.00386 harvest rainfall

Model: MODEL1  
 Dependent Variable: LPRICE2    Logarithm of Average Vintage Price Relative to 1961   
  
                             Variable Definitions
								
       Variable  DF     Label
  
       INTERCEP   1  Intercept                               
       WRAIN      1  Winter (Oct.-March) Rain  ML                
       DEGREES    1  Average Temperature (Deg Cent.) April-Sept.   
       HRAIN      1  Harvest (August and Sept.) ML               
       TIME_SV    1  Time since Vintage (Years) 
       .             Denotes missing observations                                    
  
                               Parameter Estimates
  
                        Parameter      Standard    T for H0:               
       Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
  
       INTERCEP   1    -12.145398    1.68808445        -7.195        0.0001
       WRAIN      1      0.001167    0.00048203         2.421        0.0242
       DEGREES    1      0.616397    0.09517460         6.476        0.0001
       HRAIN      1     -0.003860    0.00080753        -4.781        0.0001
       TIME_SV    1      0.023847    0.00716666         3.327        0.0031

A suivre ... ici

(NB : certains élèves ont été plus sérieux que d'autres. Ceux-là, par exemple, ont la bonne équation)

La sélection "à lire ailleurs" de la semaine

2012-12-07T23:25:00+00:00

Plein (trop) de choses sur la livraison du 8 novembre (oui, on est le 7 décembre, et alors ?) d'Internet Actu. Ma sélection :

Il nous faut nous préparer à la route sans conducteurs (sans doute inévitable à moyen terme, la première question étant "quand ?", la 2nde "quid de la responsabilité juridique en cas d'accident ?". Guillaud pointe ce lien en fin d'article)
Why Things Fail: From Tires to Helicopter Blades, Everything Breaks Eventually (plutôt pas mal du tout, pour un article de vulgarisation)
5 leçons scientifiques du succès de Nate Silver (chez Tom Roud, à propos du data miner qui avait prédit le résultat des élections US dans tous les états)
La liberté de bidouiller : fonctionnalité manquante des tablettes et smartphones (tiens, Nitot blogue encore ? ... et fait encore des rêves de geek ?)
Phone Call Data Reveals How Pace of Life Accelerates In Cities (classique ...)
Anthropology of Mid-Sized Startups
Hummingbird, l’Arduino pour les petits (pourquoi pour les petits ? ça m'irait très bien, pour apprendre en même temps que la puce. Mais ça fait cher le kit)

...et ce n'était pas sur Internet Actu mais (même si corrélation n'est pas causalité ... bla bla ...) le constat est intéressant, d'autant que le propos est un peu moins sarcastique que d'habitude :

Rendements boursiers et vieillissement de population

Que le meilleur gagne

2008-06-29T13:48:00+00:00

Dans le même genre que la deuxième partie de ceci, le labo de Los Alamos se demande "comment choisir un champion", ou plus conformément au contenu de l'article, quel est le nombre minimum de matchs qu'il faut jouer pour que la meilleure équipe soit titrée.
Les auteurs montrent, en faisant l'hypothèse que l'équipe la plus forte gagne avec une probabilité donnée, que le nombre de matchs nécessaires est en N^3. Or un championnat classique avec matchs aller-retour ne conduit qu'à N^2 rencontres.
Une solution plus efficace consiste à organiser des poules de qualification, puis à enchainer avec une formule type championnat entre les équipes sorties de poules. N^1.8 matchs suffisent alors à faire en sorte que le meilleur gagne.