Curiosity - Mot-clé - data science2024-01-27T00:01:40+01:00urn:md5:167b0ddfbb8af8fbf0a6e94ec75719b5DotclearQuelques data sur le tennisurn:md5:0711a3b370ec646265380fed5669f6772017-05-31T21:24:00+01:002017-05-31T21:24:00+01:00Eric CabrolDeportivodata sciencetennis <p>Le site <a href="http://on-the-t.com/" hreflang="en">on-the-t.com</a> de Stephanie Kovalchik, et son compte Twitter <a href="https://twitter.com/StatsOnTheT">@StatsOnTheT</a></p>
<p>Le compte Twitter <a href="https://twitter.com/any_lytics">@any_lytics</a></p>
<p>Les bases de données de Jeff Sackmann sur <a href="https://github.com/JeffSackmann">github</a></p>
<p><a href="http://www.tennisabstract.com/">http://www.tennisabstract.com/</a></p>
<p><a href="http://gamesetmap.com/">http://gamesetmap.com/</a>, sous-titré "Rethinking analytics for tennis using Hawk-Eye data".</p>Vin et data scienceurn:md5:19aa5a0718a208c83c6b1efad0cc83ac2015-09-17T13:14:00+01:002015-11-18T19:33:59+00:00Eric CabrolIntellodata sciencevin <p>(à suivre ...)</p>
<p>http://io9.com/wine-tasting-is-bullshit-heres-why-496098276</p>
<p>https://www.ucl.ac.uk/news/news-articles/0815/050815-fine-wine-price-prediction</p>
<p>http://www.datanami.com/2015/02/20/outsmarting-wine-snobs-with-machine-learning/</p>
<p>https://infocus.emc.com/william_schmarzo/data-scientist-quest-perfect-wine/</p>
<p>http://www.datasciencecentral.com/profiles/blogs/it-s-time-to-bring-your-own-data</p>
<p>http://www.datasciencecentral.com/profiles/blogs/data-science-meets-bubbly-what-data-says-about-champagne-buying</p>
<p>http://blogs.microsoft.com/blog/2014/09/02/bings-kevin-white-red-wine-data-science-perfect-pairing/</p>
<p>https://onlinecourses.science.psu.edu/stat857/node/223</p>
<p>http://www.pricingleadership.com/big-data-and-wine/</p>
<p>http://blog.revolutionanalytics.com/2011/11/because-its-friday-data-mining-wine.html</p>
<p>http://www.foodandwine.com/articles/wine-technology-can-harvesting-data-make-better-wine</p>
<p>http://www.businessinsider.com/big-data-makes-your-wine-taste-better-2013-8?IR=T</p>
<p>http://www.forbes.com/sites/sap/2014/04/30/how-big-data-can-predict-the-wine-of-the-century/</p>
<p>https://www.linkedin.com/pulse/20140707174508-161818492-big-data-wine-a-sustainable-story</p>
<p>https://hbr.org/2012/05/big-data-for-the-small-company/</p>Ressources data scienceurn:md5:6a52242765f20464d59b4214f7f482922015-07-17T08:35:00+01:002015-11-18T19:32:38+00:00Eric CabrolIntellodata science <ul>
<li><a href="http://www.datasciencecentral.com/">Data Science Central</a></li>
<li><a href="http://www.kdnuggets.com/">KD Nuggets</a> : Data Mining, Analytics, Big Data, and Data Science</li>
</ul>
<p>Sur Scoop.it :</p>
<ul>
<li><a href="http://www.scoop.it/t/bigdata-marketing">Big Data & Digital Marketing</a></li>
<li><a href="http://www.scoop.it/t/business-intelligence-solutions-by-greg-deckler">Business Intelligence Insights</a></li>
<li><a href="http://www.scoop.it/t/big-data-computation-and-internet-of-things">Big Data, Computation and Internet of Things</a></li>
</ul>
<p>(à compléter ...)</p>Datalogging / acquisition de donnéesurn:md5:9740fe2ce5e8f4dacc7d21fc28ea799c2015-03-23T18:10:00+00:002015-03-24T08:10:12+00:00Eric CabrolIntelloacquisitionarduinodata sciencegpslogger <p>Quelques ressources :</p>
<ul>
<li><a href="https://play.google.com/store/apps/details?id=com.racechrono.app">RaceChrono</a> : sous Android, gratuit</li>
<li>Un tuto sur <a href="http://www.forum-auto.com/moto/sport/sujet375525.htm">forum-auto.com</a> (le même <a href="http://www.binano.fr/viewtopic.php?f=12&t=39467">ici</a>)</li>
<li>Le <a href="http://www.racechrono.com/vanilla/discussion/654/which-phone-gps-receiver-should-i-buy-report-your-experiences-here">matériel compatible</a></li>
<li><a href="https://play.google.com/store/apps/details?id=com.harrys.laptimer&hl=fr_FR">Harry's LapTimer Rookie</a> (7€99)</li>
<li>le <a href="https://sites.google.com/site/mcchassiswiki/home/data-logging">wiki</a> des listes mc-engine et mc-chassis</li>
<li>hardware chez <a href="http://www.aimsports.com/index.html">Aim Sports</a></li>
<li>Explication <a href="http://www.si.ens-cachan.fr/accueil_V2.php?page=affiche_ressource&id=7&page2=annexe&numannexe=4">chaine d'acquisition</a> (capteur / conditionneur)</li>
<li><a href="http://code.mendhak.com/gpslogger/">GPSLogger</a></li>
</ul>
<p>GPS "ready for use"</p>
<ul>
<li>les produits de chez <a href="http://www.qstarz.com/GPS_products.html">Qstarz</a></li>
<li>chez <a href="http://www.conrad.fr/ce/fr/overview/0403041/Traceurs-GPS-enregistreurs-GPS;jsessionid=2490FD8512ABCED6859845CD6E2C9100.ASTPCEN25">Conrad</a></li>
</ul>
<p>Modules GPS à packager :</p>
<ul>
<li>receveurs GPS <a href="https://www.sparkfun.com/pages/GPS_Guide">sparkfun</a></li>
<li><a href="http://freematics.com/store/index.php?route=product/product&product_id=55">U-Blox G6010 5Hz</a>, à coupler avec un Arduino</li>
<li><a href="https://www.sparkfun.com/products/8975">LS20031 5Hz</a></li>
</ul>
<p>Pour exploiter un signal GPS avec un Arduino :</p>
<ul>
<li><a href="http://arduiniana.org/libraries/tinygps/">TinyGPS</a></li>
<li><a href="http://forum.arduino.cc/index.php?topic=91038.0">Help with TinyGPS and LS20031 GPS 5Hz Receiver</a></li>
<li><a href="http://diydrones.com/profiles/blogs/using-the-5hz-locosys-gps-with">Using the 5Hz Locosys GPS with Arduino/ArduPilot</a></li>
</ul>
<p>Accéléro et Arduino</p>
<ul>
<li><a href="http://www.instructables.com/id/Accelerometer-Gyro-Tutorial/">Accelerometer & Gyro Tutorial</a></li>
<li><a href="http://letmeknow.fr/blog/tuto-utiliser-un-accelerometre-mma7361/">Utiliser un accéléromètre MMA7361</a></li>
<li><a href="http://www.instructables.com/id/Guide-to-gyro-and-accelerometer-with-Arduino-inclu/?utm_source=base&utm_medium=related-instructables&utm_campaign=related_test">Guide to gyro and accelerometer with Arduino including Kalman filtering</a></li>
<li><a href="http://blog.tkjelectronics.dk/2012/09/a-practical-approach-to-kalman-filter-and-how-to-implement-it/">A practical approach to Kalman filter and how to implement it</a></li>
<li><a href="http://stevesprojectpages.com/accelerometer-data-logger-with-ir-trigger/">Accelerometer Data Logger with IR Trigger</a></li>
<li><a href="http://www.instructables.com/id/Geo-Data-Logger-ArduinoGPSSDAccelerometer-to-l/?ALLSTEPS">Geo Data Logger: Arduino+GPS+SD+Accelerometer</a></li>
<li><a href="http://www.embedds.com/arduino-3-axis-accelerometer-logger/">Arduino 3-axis accelerometer logger</a></li>
<li><a href="http://www.jeremyblum.com/2011/04/05/tutorial-11-for-arduino-sd-cards-and-datalogging/">Tutorial 11 for Arduino: SD Cards and Datalogging</a></li>
<li><a href="http://letmeknow.fr/blog/arduino-yun-datalogger/">Arduino Yun datalogger</a>, inspiré de <a href="http://arduino.cc/en/Tutorial/YunDatalogger">Yún Datalogger</a></li>
</ul>
<p>Gyroscopes :</p>
<ul>
<li><a href="http://www.pobot.org/Gyroscope-Wii-Motion-Plus.html">Gyroscope Wii Motion Plus</a></li>
</ul>Box-office data miningurn:md5:4859ab66b106361d2f065ed34bc5f0f52015-02-05T13:48:00+00:002015-07-16T16:01:31+01:00Eric CabrolIntellobox-officecinémadata sciencePerl <p>Ca faisait un petit bout de temps qu'une question m'intriguait : la courbe du nombre d'entrées réalisées par un film offre-t-elle toujours un même profil d'évolution dans le temps ? <br />
Parvient-on à distinguer d'une part des films "à marketing lourd", dont le nombre d'entrées dans les premières semaines est particulièrement boosté par une forte exposition médiatique, et d'autre part des films ayant davantage profité d'un bouche à oreille favorable qui garantirait une décroissance moins rapide du nombre d'entrées ?</p>
<p>Il faut pour cela identifier une source (apparemment) fiable, j'en ai notamment trouvé une sur <a href="http://www.cinemondial.com/archives.php?pays=fra">http://www.cinemondial.com</a>, qui a le bon goût d'offrir depuis septembre 2002 les 10 premiers du box-office national sur une page dont l'URL est construite de la même manière : http://www.cinemondial.com/visu_bofra.php?rechweek=20020911<br />
C'est évidemment mon ami Perl qui s'est chargé du boulot, dans le même esprit que ce que j'avais fait sur "<a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/30/1395-data-digging-for-dummies">Data digging for dummies</a>". <br />
On utilise ici le package LWP::Simple pour faire de la récup simple de page web, ainsi que Date::Calc pour faciliter l'utilisation de dates (il est nécessaire de faire une triple boucle imbriquée sur année, mois et jour en s'assurant que la date sélectionnée est bien un mercredi).</p>
<p>Oh, bien sûr, le code HTML de la page est un peu chargé, mais on y distingue un commentaire qui permet d'isoler simplement la section contenant les chiffres de la semaine en cours :</p>
<pre>
<!-- affichage TOP 10 HEBDOMADAIRE -->
</pre>
<p>Un peu plus bas, la ligne contenant les résultats ayant le bon goût d'être construite avec des champs permettant la localisation des données qui nous intéressent (titre, nb de semaines depuis la sortie, nombre d'entrées), un peu de tripatouillage de regexp permet de parvenir à ses fins.
Le script crée un fichier tabulé contenant, en lignes, le titre et le nombre d'entrées semaine par semaine, jusqu'à disparition du top 10
(Pour ceux que ça intéresse, j'ai uploadé le code <a href="https://github.com/EricCabrol/box_office">sur github</a>)</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/public/.box_office_01_m.jpg" alt="box_office_01.gif" style="display:block; margin:0 auto;" title="box_office_01.gif, fév. 2015" /></p>
<p>La méthode souffre d'un biais d'observation évident : on ne parle que des films qui ont au moins passé une semaine dans le top 10, et donc rarement des films d'auteur balinais, tournés en noir et blanc par des acteurs non-professionnels. Nonobstant, on peut faire quelques constats intéressants ...</p>
<p>Le nombre brut d'entrées ne facilite pas la comparaison. On normalise donc les résultats en divisant le nombre d'entrées de chaque semaine par le nombre total d'entrées :</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/public/.box_office_02_m.jpg" alt="box_office_02.gif" style="display:block; margin:0 auto;" title="box_office_02.gif, fév. 2015" /></p>
<p>Yapuka tracer les courbes (ici les 50 premiers du classement) :</p>
<p><a href="http://eric.cabrol.free.fr/dotclear/public/box_office_03.gif" title="box_office_03.gif"><img src="http://eric.cabrol.free.fr/dotclear/public/box_office_03.gif" alt="box_office_03.gif" style="display:block; margin:0 auto;" title="box_office_03.gif, fév. 2015" /></a></p>
<p>L'anomalie <em>Spiderman 3</em> qui émerge en 2e semaine s'explique relativement aisément (après un peu de recherche quand même) : le film est sorti le 1er mai 2007 ... qui était un mardi. Les chiffres de la 1e semaine sont donc probablement ceux du mardi seulement.</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/public/box_office_04.gif" alt="box_office_04.gif" style="display:block; margin:0 auto;" title="box_office_04.gif, fév. 2015" /></p>
<p>L'autre anomalie qui émerge est <em>Arthur et les Minimoys</em>. Sa 3e semaine correspond à la <a href="http://www.cinemondial.com/visu_bofra.php?rechweek=20061227">semaine de vacances de fin d'année</a>. Pour un film familial, le coup de boost est donc logique ...</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/public/box_office_05.gif" alt="box_office_05.gif" style="display:block; margin:0 auto;" title="box_office_05.gif, fév. 2015" /></p>
<p>Dans le même genre, le film dont la 1e semaine constitue le plus gros score relatif est <em>les Aventures de Tintin</em>, <a href="http://www.allocine.fr/film/fichefilm-49757/box-office/">sorti un 26 octobre</a>, donc pendant les vacances de la Toussaint :</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/public/box_office_06.gif" alt="box_office_06.gif" style="display:block; margin:0 auto;" title="box_office_06.gif, fév. 2015" /></p>
<p>Une fois ce ménage fait, on se retrouve avec un nuage de courbes sensiblement plus homogène :</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/public/box_office_07.gif" alt="box_office_07.gif" style="display:block; margin:0 auto;" title="box_office_07.gif, fév. 2015" /></p>
<p>Dans la partie la plus dense de ce faisceau, on voit que le ratio du nb d'entrées en 1e semaine au nb total d'entrées s'étend quand même grosso modo de 0.2 à 0.5. Cela signifie clairement que le nombre d'entrées en 1e semaine ne suffit pas à présager avec précision du succès final au box-office : le nombre total d'entrées sera en gros compris entre 2 et 5 fois celui de la 1e semaine ...</p>
<p>Allez, encore un peu de ménage en enlevant la <em>Reine des Neiges</em> (<a href="http://www.allocine.fr/film/fichefilm-203691/box-office/">top en semaine 4 à Noël</a>) qui perturbait un peu la lecture, et on retrouve "en-dehors du paquet" 4 films</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/public/box_office_08.gif" alt="box_office_08.gif" style="display:block; margin:0 auto;" title="box_office_08.gif, fév. 2015" /></p>
<p>... qui constituent tout simplement le top 4 sur la période étudiée (depuis septembre 2002). <em>Titanic</em>, <em>Astérix</em> et <em>les Visiteurs</em> étaient en effet sortis auparavant : <a href="http://www.cinemondial.com/visu_bofra.php#historique">http://www.cinemondial.com/visu_bofra.php#historique</a></p>
<p><strong>Si le nb d'entrées de la 1e semaine ne suffit pas, l'évolution du nb d'entrées entre semaine 1 et 2 constitue donc un excellent indicateur du succès à long terme ...</strong></p>
<p>On calcule maintenant les ratios (semaine 2/semaine 1), (semaine 3/semaine 1), etc ... En triant les 50 premiers films par valeur décroissante sur le ratio "2/1", et si on met de côté l'effet vacances (<em>Skyfall</em> en avait également bénéficié à la Toussaint 2012), ou encore l'anomalie <em>Spiderman 3</em> déjà évoquée, on obtient le tableau suivant.</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/public/box_office_09.gif" alt="box_office_09.gif" style="display:block; margin:0 auto;" title="box_office_09.gif, fév. 2015" /></p>
<p>Ca donne un classement pas très éloigné du box-office final, tout ça ...
Il reste <em>les Petits Mouchoirs</em> en "intrus" (5 millions d'entrées au total quand même), mais ... petit <a href="http://www.allocine.fr/film/fichefilm-146632/box-office/">effet vacances</a> encore (les congés scolaires couraient du 23/10 au 04/11)</p>
<p>On peut continuer et sortir plein de nuages de points amusants, dont le plus intéressant est à mon avis le suivant. <br /></p>
<p><img src="http://eric.cabrol.free.fr/dotclear/public/box_office_10.gif" alt="box_office_10.gif" style="display:block; margin:0 auto;" title="box_office_10.gif, fév. 2015" /></p>
<p>J'espère que la notation est suffisamment claire :</p>
<ul>
<li>total/N1 = rapport entre le nb total d'entrées et celui en 1e semaine</li>
<li>N2/N1 = rapport entre le nb d'entrées en 2e semaine et celui en 1e semaine</li>
</ul>
<p>On voit que dès la 2e semaine, des tendances se dégagent assez clairement :</p>
<ul>
<li>tous les films pour lesquels N2/N1<0.5 ne dépasseront pas total/N1=3</li>
<li>tous les films pour lesquels N2/N1<0.7 ne dépasseront pas total/N1=4</li>
</ul>
<p>A partir de N2/N1=0.85, le ratio total/N1 peut alors dépasser 5, et s'envoler vers des hauteurs que peu atteignent. Pas forcément des cartons absolus d'ailleurs, puisqu'on retrouve au milieu de ces ténors du box-office un film comme <em>Je vous trouve très beau</em>, qui n'émarge qu'à la 96e place avec 3.3 millions d'entrées. On peut voir qu'à la 7e semaine, il faisait encore <a href="http://www.allocine.fr/film/fichefilm-59132/box-office/">largement plus</a> de la moitié des entrées de la 1e semaine !</p>Best quotes about Big Dataurn:md5:c56cf28cc75049eea2186299207418002014-10-10T15:39:00+00:002015-11-20T21:14:11+00:00Eric CabrolRigolocitationdata science <p>"Data matures like wine, applications like fish." – James Governor</p>
<p>"If we have data, let’s look at data. If all we have are opinions, let’s go with mine." – Jim Barksdale, former CEO of Netscape Communications Corporation.</p>
<p>“Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.” – Dan Ariely</p>
<p>“It’s easy to lie with statistics. It’s hard to tell the truth without statistics.” – Andrejs Dunkels</p>
<p>“Data is not information, information is not knowledge, knowledge is not understanding, understanding is not wisdom.” – Clifford Stoll</p>
<p>“With too little data, you won’t be able to make any conclusions that you trust. With loads of data you will find relationships that aren’t real… Big data isn’t about bits, it’s about talent.” – Douglas Merrill</p>
<p>“Listening to the data is important… but so is experience and intuition. After all, what is intuition at its best but large amounts of data of all kinds filtered through a human brain rather than a math model?” – Steve Lohr</p>
<p>“We chose it because we deal with huge amounts of data. Besides, it sounds really cool.” – Larry Page</p>
<p>Sources :<br />
<a href="http://bigdata-madesimple.com/30-thought-provoking-big-data-quotes-that-you-should-know/">http://bigdata-madesimple.com/30-thought-provoking-big-data-quotes-that-you-should-know/</a></p>Data digging for dummies (wine and Perl inside)urn:md5:ba2a1e688bc609374549ee3c13ec1e0c2014-09-30T23:28:00+00:002015-02-24T10:30:32+00:00Eric CabrolInfodata sciencePerlvin <p>(Je n'ose pas appeler ça du data mining, même si techniquement, il s'agit bien d'aller récupérer l'information là où elle est ... :) )</p>
<p>Petit exercice pratique de Perl, suite à une question posée (<a href="http://www.buveurs-detiquettes.fr/viewtopic.php?f=34&t=8926#p70342" hreflang="fr">ici</a>) sur un forum d'alcooliques : "quels sont les domaines sur Châteauneuf du pape ayant des cuvées à forte proportion de cinsault ?"
Le plus dur, c'est sans doute de trouver le "bon" site : <a href="http://www.chateauneuf.dk/en/index.htm" hreflang="en">celui-ci</a>, tenu par un passionné danois, semble faire l'affaire. Beaucoup de domaines y sont référencés (tous ?), les noms des cuvées et les encépagements sont spécifiés (modulo les variations annuelles, mais bon ...). L'objectif est évidemment de NE PAS effectuer la recherche à la main, mais de l'automatiser, et tant qu'à faire d'y parvenir en moins de 20 lignes de code.
Pour récupérer une page web, on peut utiliser le package <a href="http://search.cpan.org/dist/libwww-perl/lib/LWP/Simple.pm" hreflang="en">LWP::Simple</a>. En deux lignes :</p>
<pre>use LWP::Simple;
my $content = get('http://www.chateauneuf.dk/en/index.htm');</pre>
<p>Quand on regarde le code source de la page de départ, on voit ces séquences là : <em><a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/30/cdpen133.htm">Beaucastel</a></em>
(toutes les urls sont sur le format <em>cdpen*.htm</em>)</p>
<p>On récupère donc à la fois l'url de la page et le nom du domaine avec l'expression régulière suivante (recherche "globale", en mode liste) :</p>
<pre>my %domaine = ($content =~ m/(cdpen\d+\.htm)">(.+?)<\/a>/g);</pre>
<p>Cela permet d'affecter un hash construit sur le modèle $domaine{<strong>url</strong>}=<strong>nom</strong>;
Puis on effectue une boucle sur toutes les pages :</p>
<pre>foreach my $page (keys %domaine) {</pre>
<p>... dont on récupère le contenu :</p>
<pre> my $cdp = get('http://www.chateauneuf.dk/en/'.$page);</pre>
<p>... que l'on parcourt :</p>
<pre> while ($cdp =~ /(Chateauneuf.+(\n){1}.+?(\d+)\%\s+Cinsault)/g) {</pre>
<p>Cette regexp mérite quand même une petite explication : le détail des cuvées est écrit sur deux lignes, on ne cherche que des Châteauneuf (certaines cuvées peuvent être en Côtes du Rhône), contenant un certain pourcentage de Cinsault. Sur la page du domaine du Père Pape, on voit par exemple :</p>
<blockquote><p><strong>Chateauneuf du Pape Domaine du Pere Pape</strong><br />
2010: 65% Grenache, 20% Syrah and 15% Cinsault.</p></blockquote>
<p>avec le code html suivant :</p>
<pre><b>Chateauneuf du Pape</b> <b>Domaine du Pere Pape</b><br>
2010: 65% Grenache, 20%<span style="mso-spacerun: yes">&nbsp;S</span>yrah and 15% Cinsault.&nbsp;<br></pre>
<p>On cherche donc la chaîne <strong>Chateauneuf</strong>, suivie d'un certain nombre de caractères <strong>.+</strong>, d'un seul saut de ligne <strong>(\n){1}</strong>, d'un certain nombre de caractères (en mode non-greedy !) <strong>.+?</strong>, du signe <strong>%</strong> (que l'on échappe), d'un ou plusieurs espaces <strong>\s+</strong>, et enfin de la chaîne <strong>Cinsault</strong>.</p>
<p>On récupère les modèles qui nous intéressent :</p>
<pre> my $quest = $1;
my $percent = $3;</pre>
<p>On vire les balises :</p>
<pre> $quest =~ s/<.+?>//g;</pre>
<p>... puis la newline pour faire joli :</p>
<pre> $quest =~ s/\n//g;</pre>
<p>Et on affiche enfin seulement ceux qui nous intéressent :</p>
<pre> if ($percent >=10) {print $domaine{$page},"\t",$quest,"\n\n";}</pre>
<p><strong>ET VOILA !</strong></p>
<p>En résumé :</p>
<pre>use strict;
use LWP::Simple;
my $path = 'http://www.chateauneuf.dk/en/';
my $cepage = 'Cinsault';
my $content = get('http://www.chateauneuf.dk/en/index.htm');
my %domaine = ($content =~ m/(cdpen\d+\.htm)">(.+?)<\/a>/g);
foreach my $page (keys %domaine) {
my $cdp = get($path.$page);
while ($cdp =~ /(Chateauneuf.+(\n){1}.+?(\d+)\%\s+$cepage)/g) {
my $quest = $1;
my $percent = $3;
$quest =~ s/<.+?>//g; # On vire les balises
$quest =~ s/\n//g; # On supprime la newline
if ($percent >=10) {print $domaine{$page},"\t",$quest,"\n\n";}
}
}</pre>L'équation du vin de Bordeaux - Part 5urn:md5:1831384a1511488d3012b2df741ac6df2014-09-18T23:05:00+00:002016-06-14T20:11:35+00:00Eric CabrolIntelloBordeauxdata sciencePerlvin <p>(Billets précédents : <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1389-l-equation-de-bordeaux" hreflang="fr">Part 1</a> - <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1390-l-equation-du-vin-de-bordeaux-part-2" hreflang="fr">Part 2</a> - <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1391-l-equation-du-vin-de-bordeaux-part-3" hreflang="fr">Part 3</a> - <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/12/1392-l-equation-du-vin-de-bordeaux-part-4" hreflang="fr">Part 4</a>)</p>
<p>Dans le dernier billet, on a vu que le modèle utilisé par Ashenfelter lui permettait de donner une "note" (wine quality) à chaque millésime. En triant le tableau <a href="http://eric.cabrol.free.fr/dotclear/images/vins/ashenfelter_1.gif" hreflang="fr">précédemment obtenu</a> par "wine quality" décroissante, on obtient le classement suivant :</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/images/vins/ashenfelter_3.gif" alt="" /></p>
<p>2003, année atypique d'un point de vue météorologique (<a href="http://fr.wikipedia.org/wiki/Canicule_europ%C3%A9enne_de_2003" hreflang="fr">été caniculaire</a>), se retrouve sans grande surprise en tête de ce classement. Est-ce la meilleure année de la période 1982-2008 ? Je pense que peu d'amateurs de Bordeaux seront d'accord avec ça. On peut s'en rendre compte en allant fouiller sur les sites de <a href="https://www.erobertparker.com/newsearch/VintageChart.aspx" hreflang="en">Robert Parker</a>, de la RVF (<a href="http://www.larvf.com/data/fichiers/guide_millesimes%20_rvf_2011.pdf" hreflang="fr">pdf</a>), du <a href="http://avis-vin.lefigaro.fr/connaitre-deguster/tout-savoir-sur-le-vin/guide-des-millesimes" hreflang="fr">Figaro</a>, du <a href="http://www.savourclub.fr/millesimes-du-vin.aspx" hreflang="fr">Savour Club</a>, du guide Hachette (voir <a href="http://levinsurlenet.pagesperso-orange.fr/id82.htm" hreflang="fr">ici</a>), etc ...</p>
<p>J'ai également récupéré le <a href="http://lapassionduvin.com/phorum/lpv/carte_millesimes.php" hreflang="fr">tableau de millésimes</a> de lapassionduvin.com, et j'ai fait la moyenne des notes attribuées par les contributeurs du forum aux Bordeaux des deux rives. On obtient le classement suivant :</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/images/vins/ashenfelter_4.gif" alt="" /></p>
<p>La juxtaposition des deux, sur la période commune de 20 millésimes allant de 1989 à 2008, montre clairement l'écart considérable entre la prévision du modèle d'Ashenfelter et ce que pense une large population d'amateurs avertis :</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/images/vins/ashenfelter_5.gif" alt="" /></p>
<p>C'est peut-être un peu plus lisible en ajoutant le nombre de rangs d'écart entre les deux classements. 2003 passe du 1e au 11e rang, 2006 du 2e au 9e rang, etc ... :</p>
<p><img src="http://eric.cabrol.free.fr/dotclear/images/vins/ashenfelter_6.gif" alt="" /></p>
<p>Plus de la moitié des millésimes ont 5 rangs d'écart ou plus d'un classement à l'autre ! Les notes attribuées par des internautes n'ont certes pas la même valeur indicative que les prix de ventes aux enchères, mais le modèle d'Ashenfelter semble avoir du plomb dans l'aile ...</p>
<p>Il est sans doute un peu trop simple : par exemple son paramètre harvest rainfall de cumul des précipitations sur août et septembre n'est pas assez riche et mériterait de tenir compte du nb de jours de précipitations : il me semble assez évident que 100 mm de flotte en 2 jours et 58 jours de beau temps ne donnent pas le même résultat que 60 jours de crachin quasi-continu .. en tout cas à la vigne, car dans son modèle justement ça ne change rien.
Peut-être a-t-il aussi été victime du réchauffement climatique :) Son modèle est construit sur une certaine période (1952-1980), et la "linéarité" de sa régression par rapport à la température moyenne a peut-être atteint ses limites avec des millésimes comme 2003. Un été chaud c'est bien, mais un été caniculaire pas forcément ...
Mais bon, l'idée de départ demeure intéressante (s'appuyer sur les prix des vins aux enchères pour juger avec du recul de la qualité d'un millésime ... même s'il y a des effets de bord), et je trouve toujours ça amusant de trouver des corrélations même grossières sur ce genre de données.</p>L'équation du vin de Bordeaux - Part 4urn:md5:ea8dec35e45fb1e988baeb8d586e7b7b2014-09-12T00:22:34+00:002014-09-22T00:18:46+00:00Eric CabrolIntelloBordeauxdata sciencePerlvin <p>(Billets précédents : <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1389-l-equation-de-bordeaux" hreflang="fr">Part 1</a> - <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1390-l-equation-du-vin-de-bordeaux-part-2" hreflang="fr">Part 2</a> - <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1391-l-equation-du-vin-de-bordeaux-part-3" hreflang="fr">Part 3</a>)</p>
<p>Bon, forcément, après tout ça, je me suis dit que j'allais m'y coller aussi. Donc j'ai récupéré les données météo (températures <a href="http://www.meteo-paris.com/bibliotheque/documents/3391.txt" hreflang="fr">mini</a>, <a href="http://www.meteo-paris.com/bibliotheque/documents/3392.txt" hreflang="fr">maxi</a>, et <a href="http://www.meteo-paris.com/bibliotheque/documents/3393.txt" hreflang="fr">précipitations</a>), et j'ai pondu quelques bouts de Perl pour aboutir à ce tableau : <br />
<br />
<img src="http://eric.cabrol.free.fr/dotclear/images/vins/ashenfelter_1.gif" alt="" />
<br />
<br />
<br />
et par conséquent à cette courbe :<br />
<br />
<img src="http://eric.cabrol.free.fr/dotclear/images/vins/ashenfelter_2.gif" alt="" />
<br />
<br />
NB : l'indice de qualité du vin étant défini par Ashenfelter comme étant le logarithme du ratio du prix du millésime courant divisé par le prix du (mythique) millésime 1961 (voir <a href="http://www.liquidasset.com/winedata.html" hreflang="en">ici</a>), il n'est pas étonnant que la plupart des valeurs soient négatives.<br />
NMB (Nota Molto Bene) : il faut ici raisonner "après correction de l'inflation". Les millésimes récents ont vu leurs prix exploser du fait de la demande internationale, et n'ont plus rien à voir avec les prix de 1961. On ne quantifie ici que le facteur météorologique ...</p>
<p>Les variations observées dans ce graphique correspondent-elles à ce qui se dit aujourd'hui (avec du recul) de ces millésimes ?</p>
<p>(<a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/18/1393-l-equation-du-vin-de-bordeaux-part-5" hreflang="fr">A suivre</a> ...)</p>L'équation du vin de Bordeaux - Part 3urn:md5:ee900f64890fa83d225b94f4cfac6ca72014-09-11T23:18:10+00:002014-09-22T00:18:18+00:00Eric CabrolIntelloBordeauxdata sciencePerlvin <p>(Billets précédents : <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1389-l-equation-de-bordeaux" hreflang="fr">Part 1</a> - <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1390-l-equation-du-vin-de-bordeaux-part-2" hreflang="fr">Part 2</a>)</p>
<p>D'après <a href="http://www.data-business.fr/statistiques-prediction-qualite-prix-vin-parker-ashenfelter/" hreflang="fr">data-business.fr</a>, Ashenfelter aurait affirmé que le millésime 1986 serait médiocre, prenant le contrepied de l'avis évoqué par Robert Parker qui l'encensait à sa sortie :</p>
<blockquote><p>En 1989, Parker publie dans son magazine, « The Wine Advocate », un article expliquant pourquoi selon lui le Bordeaux de 86 serait « très bon, voire exceptionnel ». Ashenfelter, jugeant que les précipitations au-dessus de la moyenne et la faible température « condamnent le cru à la médiocrité », critique ouvertement Parker dans un article du NY Times.</p></blockquote>
<p>L'article en question semble être celui-ci : <strong>Wine Equation Puts Some Noses Out of Joint</strong> (<a href="http://www.nytimes.com/1990/03/04/us/wine-equation-puts-some-noses-out-of-joint.html" hreflang="en">New York Times</a>, 04/03/1990), dont on peut apprécier le passage suivant :</p>
<blockquote><p>Mr. Parker rates the 1986's as <em>very good and sometimes exceptional.</em> Peter A. Sichel, author of the influential Bordeaux Vintage and Market Report, said the 1986's have <em>elegance and classic Bordeaux structure.</em> New York stores, brimming with the vintage, are pricing the wines in the same range as the much-praised 1985's.</p>
<p>
But according to the Ashenfelter system, below-average growing season temperatures and above-average harvest rainfall doom the 1986 Bordeaux to mediocrity. When the dust settles, he predicts, it will be judged the worst vintage of the 1980's, and no better than the unmemorable 1974's or 1969's.</p></blockquote>
<p>L'amateur de crus bordelais sera sans doute surpris de ce jugement ... Certains avis sur 1986 sont aujourd'hui critiques, comme par exemple <a href="http://www.thewinecellarinsider.com/wine-topics/bordeaux-wine-buying-guide-tasting-notes-ratings/bordeaux-wine-detailed-vintage-summary-1945-today/1986-bordeaux-wine-vintage-report-buying-tips/" hreflang="en">The Wine Cellar Insider</a> (on peut se demander si ce n'est pas Ashenfelter lui-même qui a rédigé ce passage) :</p>
<blockquote><p>"Critics at the time were enamored with 1986 Bordeaux wine, when they first tasted them. But time has not been kind to most 1986 Bordeaux wine. The fruit has fled over the past few decades and with few exceptions, only the brutal, hard tannins remain. 1986 Bordeaux wine has power, structure and concentration, but most lack charm, elegance or softness. 1986 Bordeaux wine is a stern, old school Bordeaux vintage that fans of what is known as “traditional Bordeaux” enjoy."</p></blockquote>
<p>Il y est quand même dit :</p>
<blockquote><p>"It is undeniable that a few great wines were produced"</p></blockquote>
<p>Encore plus étonnant, le constat météo ne semble pas coller avec ce qu'en disait Ashenfelter. Il y est fait mention de chaleur et de sécheresse, à l'exception d'un épisode de fortes pluies mi-septembre :</p>
<blockquote><p>"1986 Bordeaux wine was shaped by a difficult vintage created from heat and draught from start to finish of the growing season. The bud break occurred late, but flowering was normal. The summer was hot, sunny and very dry. By September, the vines were experiencing stress from drought conditions. The grapes had stopped maturing and were in danger of not reaching maturity, as the growing cycle was shutting down. The rain that fell in mid September changed that. The initial rain was followed by a massive storm that caused flooding in some Bordeaux appellations. This caused the Merlot to become diluted and bloated from too much water. The 1986 Bordeaux harvest got started September 23. For the next 23 days, Bordeaux enjoyed three weeks of hot, sun drenched and windy conditions that was perfect for the vines and the pickers."</p></blockquote>
<p>Chez <a href="http://www.bbr.com/vintage-21986-red-bordeaux-1986" hreflang="en">Berry Brothers & Rudd</a>, le bilan est très positif (ils en ont peut-être encore à vendre ...)</p>
<blockquote><p>A very large vintage (the biggest to date since the war) and one that has produced some sensational wines that are characterised by their concentration, power, and depth of fruit. After a harsh winter and extremely cold weather throughout April, the vines` development process was nearly a month in arrears. Luckily, May was warm and dry and Bordeaux enjoyed a hot, dry summer with July and August being particularly hot. There was some rain in September but not enough to seriously disrupt the harvest. The weather was perfect in early October and, for those producers who waited the quality of the fruit, particularly the Cabernet Sauvignon, was exceptional.</p></blockquote>
<p>Chez Bob lui-même, les notes sont <a href="https://www.erobertparker.com/newsearch/vintageChart2.aspx" hreflang="en">toujours bonnes</a>, au moins sur la rive gauche : 90 pour Margaux, 94 pour St-Julien / Pauillac / St-Estèphe. Peut-être lui est-il difficile de se dédire, s'il a effectivement applaudi 1986 à sa sortie ...</p>
<p>Jancis Robinson en propose <a href="http://www.jancisrobinson.com/learn/vintages/bordeaux-red" hreflang="en">une lecture</a> intéressante :</p>
<blockquote><p>"Dense, brooding and viciously tannic at first. Some may impress in the end but have required enormous patience."</p></blockquote>
<p>(<a href="http://www.thewinecellarinsider.com/wine-topics/wine-educational-questions/abc-of-wine-glossary-of-wine-terms/" hreflang="en">Brooding</a>: Wines that are brooding offer dark colors with intense concentration of flavor)
Cela sous-entend que le millésime se révèle finalement de qualité, en dépit d'un début potentiellement difficile ... et on pourrait précisément être positivement surpris par la vision qu'en a très tôt eu Parker, et considérer que l'avis d'Ashenfelter ne trouve pas de justification a posteriori.</p>
<p>(<a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/12/1392-l-equation-du-vin-de-bordeaux-part-4" hreflang="fr">A suivre</a>)</p>L'équation du vin de Bordeaux - Part 2urn:md5:2f5a038f08ec4ce96d0f2d96a7665de12014-09-11T22:28:44+00:002014-09-11T23:23:16+00:00Eric CabrolIntelloBordeauxdata sciencePerlvin <p>(Billet précédent : <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1389-l-equation-de-bordeaux" hreflang="fr">Part 1</a>)</p>
<p>Le titre du billet de <a href="http://www.data-business.fr/statistiques-prediction-qualite-prix-vin-parker-ashenfelter/" hreflang="fr">data-business.fr</a>, "Peut-on prédire la qualité d’un vin grâce au Data-Mining ?", est maladroit parce que trop ambitieux : l'objectif initial d'Ashenfelter est "seulement" d'essayer de prédire la qualité d'un millésime, et non d'un vin pris isolément. L'analyse est en outre restreinte aux crus du Bordelais, en s'appuyant sur un échantillon constitué de châteaux parmi les plus prestigieux : Lafite, Latour, Margaux, Cheval Blanc, Ducru Beaucaillou, Leoville Las Cases, Palmer, Pichon Lalande, Beychevelle, Cos d'Estournel, Giscours, Gruaud-Larose, and Lynch-Bages ...</p>
<p>L'amateur de vins tout comme le critique affûté bondissent évidemment de concert lorsqu'on leur annonce qu'il est possible de "résumer" la qualité d'un millésime à des grandeurs aussi simples que :<br />
- la quantité de précipitations en hiver (période d'octobre à mars précédant le millésime)<br />
- la température moyenne sur la période avril-septembre<br />
- la quantité de précipitations pendant les vendanges (août-septembre)<br /></p>
<p>La qualité de la régression obtenue est pourtant plutôt convaincante, puisque le modèle statistique permet d'expliquer 80% de la variation du prix des vins (sur la base des millésimes 1952 à 1980). <strong>Ashenfelter estime donc qu'il est possible de prédire la qualité d'un millésime "en cours" en s'appuyant uniquement sur les relevés météorologiques : </strong></p>
<blockquote><p><strong>With this model, it is possible to predict the relative price at which the new vintage should be sold as soon as the growing season is complete.</strong></p></blockquote>
<p>Nombre d'amateurs de vins sont à l'affût, dès le mois de septembre, des premiers avis sur la qualité du millésime en cours. Si les vignerons refusent généralement de s'exprimer aussi tôt, les critiques et journalistes s'en privent moins ... en s'appuyant eux aussi sur des impressions diffuses principalement liées à la météo des mois écoulés. C'est en quelque sorte ce que résume le modèle d'Ashenfelter ...</p>
<p>L'avantage d'un modèle aussi simpliste est qu'il ne risque pas de souffrir de <a href="http://fr.wikipedia.org/wiki/Surapprentissage" hreflang="fr">sur-ajustement</a>, mais ... quels sont ses pouvoirs prédictifs (parce que c'est bien ce qui intéresse l'amateur) ?</p>
<p>(A suivre ... <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1391-l-equation-du-vin-de-bordeaux-part-3" hreflang="fr">ici</a>)</p>L'équation du vin de Bordeaux - Part 1urn:md5:48f9a978a4c7771d08b13e57a21c75742014-09-11T18:43:31+00:002014-09-11T22:36:45+00:00Eric CabrolIntelloBordeauxdata sciencePerlvin <p>Le billet "<strong>Peut-on prédire la qualité d’un vin grâce au Data-Mining ?</strong>" que l'on peut lire sur <a href="http://www.data-business.fr/statistiques-prediction-qualite-prix-vin-parker-ashenfelter/" hreflang="fr">data-business.fr</a> mentionne un article d'Orley Ashenfelter datant des années 80 dont je n'avais jamais entendu parler. Dans cet article, Ashenfelter construit un modèle statistique faisant le lien entre d'une part la qualité d'un millésime, qualité qu'il estime suffisamment bien déterminée par le prix de vente moyen des vins lors de ventes aux enchères, et d'autre part des inducteurs météorologiques supposés pertinents.</p>
<p>L'équation obtenue par Ashenfelter est un peu malmenée dans les différentes sources la mentionnant. C'est ainsi qu'on trouve :<br />
<code>wine quality = 12.145 + 0.00117 winter rainfall + 0.0614 average growing season temperature - 0.00386 harvest rainfall</code><br />
sur <a href="http://www.snooth.com/talk/topic/abc-wine-quality/" hreflang="en">snooth.com</a> (c'est l'équation lue dans l'article de data-business.fr, ou bien dans l'ouvrage The Intelligent Web, <a href="http://books.google.fr/books?id=mRv7AAAAQBAJ&pg=PA192&lpg=PA192&dq=ashenfelter+harvest+rain+fall&source=bl&ots=tQ6ob6lPU4&sig=XaTUUKjKRJWhRmExia8uJgRaRq8&hl=fr&sa=X&ei=0Z0RVIi1OZDmare6gIAP&ved=0CC0Q6AEwAQ#v=onepage&q=ashenfelter%20harvest%20rain%20fall&f=false" hreflang="en">page 192</a>), mais également (avec une faute de frappe manifeste)<br />
<code>wine quality = 12.145 / 0.00117 winter rainfall + 0.0614 average growing season temperature - 0.00386 harvest rainfall</code><br />
sur le blog <a href="http://blogs.sap.com/innovation/big-data/how-big-data-can-predict-the-wine-of-the-century-01250371" hreflang="en">Big Data de SAP</a>.<br />
Dans les billets "First crush the grapes, then crunch the numbers" (<a href="http://www.buec.udel.edu/kherh/wine-quality-ashenfelter.pdf" hreflang="en">pdf</a>) et <a href="http://cyberlibris.typepad.com/psp/2004/03/in_vino_veritas.html" hreflang="en">In vino veritas?,</a> un signe moins se glisse devant le 12.145, mais les coefficients demeurent identiques.
Dans l'ouvrage "Keeping up with the quants" (<a href="http://books.google.fr/books?id=SSa5J-Yy9k4C&pg=PT79&lpg=PT79&dq=ashenfelter+harvest+rain+fall&source=bl&ots=9zVv7aYla-&sig=fcEhqj9ma_zG5M1xWgWoGxHC3t8&hl=fr&sa=X&ei=0Z0RVIi1OZDmare6gIAP&ved=0CDIQ6AEwAg#v=onepage&q=ashenfelter%20harvest%20rain%20fall&f=false" hreflang="en">lien sur google books</a>), le signe moins est absent et le 0.0614 s'est transformé en 0.616 !</p>
<p>Une belle illustration de la nécessité d'aller chercher les infos à la source : par exemple sur ce papier de l'auteur lui-même <a href="http://www.wine-economics.org/workingpapers/AAWE_WP04.pdf" hreflang="en">sur wine-economics.org</a>, ce qui permet de confirmer le 0.616 (mais la constante n'est pas renseignée), ou encore directement sur son site, qui nous conduit à l'article <a href="http://www.liquidasset.com/orley.htm" hreflang="en">BORDEAUX WINE VINTAGE QUALITY AND THE WEATHER</a>, où l'on est (enfin ! quel suspense ...) redirigé vers le <a href="http://www.liquidasset.com/winedata.html" hreflang="en">résultat</a> originel (on oublie ici volontairement le facteur "vieillissement", qui sera évoqué plus tard) : <br />
<br />
<strong><code>wine quality = -12.145 + 0.00117 winter rainfall + 0.6164 average growing season temperature - 0.00386 harvest rainfall</code></strong>
<br />
<br /></p>
<hr />
<p><br /></p>
<pre>Model: MODEL1
Dependent Variable: LPRICE2 Logarithm of Average Vintage Price Relative to 1961
Variable Definitions
Variable DF Label
INTERCEP 1 Intercept
WRAIN 1 Winter (Oct.-March) Rain ML
DEGREES 1 Average Temperature (Deg Cent.) April-Sept.
HRAIN 1 Harvest (August and Sept.) ML
TIME_SV 1 Time since Vintage (Years)
. Denotes missing observations
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 -12.145398 1.68808445 -7.195 0.0001
WRAIN 1 0.001167 0.00048203 2.421 0.0242
DEGREES 1 0.616397 0.09517460 6.476 0.0001
HRAIN 1 -0.003860 0.00080753 -4.781 0.0001
TIME_SV 1 0.023847 0.00716666 3.327 0.0031</pre>
<p>A suivre ... <a href="http://eric.cabrol.free.fr/dotclear/index.php/2014/09/11/1390-l-equation-du-vin-de-bordeaux-part-2" hreflang="fr">ici</a></p>
<p>(NB : certains élèves ont été plus sérieux que d'autres. <a href="http://www.templejc.edu/Dept/MathSciPE/Math/RSimpson/MiscMath/9MultipleRegression.aspx" hreflang="en">Ceux-là</a>, par exemple, ont la bonne équation)</p>La sélection "à lire ailleurs" de la semaineurn:md5:fa3cc0c86e7d26db74f88e7100c2e40a2012-12-07T23:25:00+00:002015-03-25T12:53:13+00:00Eric CabrolVracdata sciencefiabilitévéhicule autonome <p>Plein (trop) de choses sur la livraison du <a href="http://www.internetactu.net/2012/11/08/a-lire-ailleurs-du-26-octobre-au-8-novembre-2012/" hreflang="fr">8 novembre</a> (oui, on est le 7 décembre, et alors ?) d'Internet Actu. Ma sélection :</p>
<ul>
<li><a href="http://www.internetactu.net/2012/11/08/il-nous-faut-nous-preparer-a-la-route-sans-conducteur" hreflang="fr">Il nous faut nous préparer à la route sans conducteurs</a> (<em>sans doute inévitable à moyen terme, la première question étant "quand ?", la 2nde "quid de la responsabilité juridique en cas d'accident ?". Guillaud pointe <a href="http://innovationlawblog.org/2012/10/licensing-autonomous-cars/" hreflang="en">ce lien</a> en fin d'article</em>)</li>
<li><a href="http://www.wired.com/design/2012/10/ff-why-products-fail/all/" hreflang="en">Why Things Fail: From Tires to Helicopter Blades, Everything Breaks Eventually</a> (<em>plutôt pas mal du tout, pour un article de vulgarisation</em>)</li>
<li><a href="http://tomroud.cafe-sciences.org/2012/11/07/5-lecons-scientifiques-du-succes-de-nate-silver/" hreflang="fr">5 leçons scientifiques du succès de Nate Silver</a> (<em>chez Tom Roud, à propos du data miner qui avait prédit le résultat des élections US dans tous les états</em>)</li>
<li><a href="http://standblog.org/blog/post/2012/10/25/La-liberte-de-bidouiller-fonctionnalit%C3%A9-manquante-des-tablettes-et-smartphones" hreflang="fr">La liberté de bidouiller : fonctionnalité manquante des tablettes et smartphones</a> (<em>tiens, Nitot blogue encore ? ... et fait encore des rêves de geek ?</em>)</li>
<li><a href="http://www.technologyreview.com/view/429719/phone-call-data-reveals-how-pace-of-life-accelerates-in-cities/" hreflang="en"> Phone Call Data Reveals How Pace of Life Accelerates In Cities</a> (<em>classique ...</em>)</li>
<li><a href="http://www.ribbonfarm.com/2012/10/29/anthropology-of-mid-sized-startups/" hreflang="en">Anthropology of Mid-Sized Startups</a></li>
<li><a href="http://www.gizmodo.fr/2012/11/05/hummingbird-arduino-petits.html" hreflang="fr">Hummingbird, l’Arduino pour les petits</a> (<em>pourquoi pour les petits ? ça m'irait très bien, pour apprendre en même temps que la puce. Mais ça fait cher le kit</em>)</li>
</ul>
<p><br />
<br /></p>
<p>...et ce n'était pas sur Internet Actu mais (même si corrélation n'est pas causalité ... bla bla ...) le constat est intéressant, d'autant que le propos est un peu moins sarcastique que d'habitude :</p>
<ul>
<li><a href="http://h16free.com/2012/12/07/19101-rendements-boursiers-et-vieillissement-de-population" hreflang="fr">Rendements boursiers et vieillissement de population</a></li>
</ul>Que le meilleur gagneurn:md5:4b1fc152b9f437a68594343726ed52c42008-06-29T13:48:00+00:002015-12-13T15:00:21+00:00Eric CabrolIntellodata sciencesport <p>Dans le même genre que la deuxième partie de <a href="http://eric.cabrol.free.fr/dotclear/index.php/2008/04/02/660-le-dopage-dans-le-baseball-et-l-analyse-des-resultats-de-la-bundesliga" hreflang="fr">ceci</a>, le labo de Los Alamos se demande "<a href="http://arxiv.org/abs/physics/0612217" hreflang="en">comment choisir un champion</a>", ou plus conformément au contenu de l'article, quel est le nombre minimum de matchs qu'il faut jouer pour que la meilleure équipe soit titrée.<br />
Les auteurs montrent, en faisant l'hypothèse que l'équipe la plus forte gagne avec une probabilité donnée, que le nombre de matchs nécessaires est en N^3. Or un championnat classique avec matchs aller-retour ne conduit qu'à N^2 rencontres. <br />
Une solution plus efficace consiste à organiser des poules de qualification, puis à enchainer avec une formule type championnat entre les équipes sorties de poules. N^1.8 matchs suffisent alors à faire en sorte que le meilleur gagne.</p>