Logo stampa
 
 
 
Facebook.com twitter oknotizie FriendFeed
  Invia la notizia PDF dell'articolo

CAMPIONATI EUROPEI: IL VINCITORE È...

di Luciano Canova , Andrea De Capitani e Luca Parolin 07.06.2012

Dopo i buoni risultati ottenuti ai tempi del Mondiale, in vista degli Europei di calcio torniamo a proporvi le previsioni sulle squadre vincenti, basate su metodi statistici. Cambia la metodologia, stavolta ripresa da un modello originariamente utilizzato per il baseball. In generale, i pronostici dell'econometria sono in linea con quanto indicato da bookmaker ed esperti del settore. Ma la favorita Spagna dovrebbe essere eliminata in semifinale. Buone notizie, invece, per la nostra nazionale, che approderebbe alla finale, insieme alla Germania.

Tornano gli Europei e torna la fame di previsioni statistiche. Con un pizzico di orgoglio, possiamo ricordare che in occasione del Mondiale di calcio del 2010, partendo da una serie dati statistici elaborati con un modello econometrico, siamo riusciti a prevedere l’approdo in finale della Spagna e l’exploit dell’Olanda, seppure come outsider rispetto all’Inghilterra.
Ora, alla vigilia del calcio d’inizio del campionato europeo 2012 vogliamo riprovarci, utilizzando una nuova metodologia.

LA FORMULA DELLA PHYTAGOREAN EXPECTATION

I bookmaker sembrano sicuri di chi uscirà vincitore e quali squadre saranno costrette a giocare il semplice ruolo di comparse. La Spagna è data da tutti come favorita, seguita a ruota dalla Germania. Ma siamo sicuri che il risultato del torneo sia così scontato?
Questa volta, anche in onore del film di successo L’arte di vincere, uscito quest’anno nei cinema e con protagonista Brad Pitt nei panni del celebre manager di baseball Billy Beane, che ha portato gli oscuri Oakland Athletics alle finali di Major League servendosi proprio della statistica, abbiamo deciso di sostituire il modello econometrico con la formula della Pythagorean Expectation e di integrarla con un’analisi fattoriale per aiutarci a definire la probabilità di vittoria del prossimo europeo di tutte le nazionali che vi prenderanno parte. I risultati e le previsioni, come si vedrà, non sembrano essere poi così scontati.
La Phytagorean Expectation, per l’appunto, deve la sua fortuna soprattutto al baseball ed è una formula sviluppata da Bill James nel 1980, utilizzata per stimare statisticamente la probabilità di vittoria di una squadra di baseball in un campionato in base al numero di run segnate e subite durante la stagione oggetto di analisi. (1)
La formula di cui si è avvalso James è:

Probabilità di vittoria = (run segnate)2/[(run segnate)2+(run subite)2]

Ricerche successive hanno provato ad applicare la Phytagorean Expectation ad altri sport, dal football americano al basket, partendo dall’analisi delle statistiche relative alle mete e ai canestri segnati o subiti, ottenendo, a seconda dei casi, risultati più o meno soddisfacenti. (2)

VINCITORI E VINTI SECONDO IL MODELLO

Si è deciso quindi di utilizzare il modello nel mondo del calcio, consapevoli di alcuni caveat ben noti in letteratura. È stato sottolineato, ad esempio, come la formula della Phytagorean Expectation non si presti particolarmente a descrivere la prestazione di una squadra calcistica poiché non è contemplata l’eventualità di un pareggio, caso che, a differenza del baseball, si presenta con una certa frequenza in questo sport. (3)
Il problema viene in parte ovviato dalla nostra analisi perché il campionato europeo prevede la possibilità del pareggio solo nella prima fase. Nella seconda, invece, gli scontri sono a eliminazione diretta secondo un calendario tennistico.
Altro elemento che differenzia il lavoro dalla teoria elaborata da James è il voler cercare di utilizzare i dati storici non per valutare se la prestazione di una squadra sia stata o meno in linea con quanto affermato ex post dalla Phytagorean Expectation, ma per cercare di predire chi vincerà il prossimo campionato europeo nel 2012.
Partendo dai dati su tutte le partite ufficiali giocate dal 1990 al 2011, si è proceduto alla sostituzione dei run con il totale dei gol fatti e subiti per calcolare la percentuale di vittoria di ciascuna squadra, secondo la formula appena presentata.
Successivamente, il dato è stato incorporato all’interno di un’analisi fattoriale (tecnica della statistica multivariata) che comprendeva le seguenti variabili:

  • Phytagorean Expectation;
  • Numero di partite giocate;
  • Numero di competizioni internazionali a cui si è preso parte;
  • Numero di competizioni internazionali vinte;
  • Quote assegnate dai bookmaker. (4)

Questi dati multidimensionali sono stati aggregati permettendo la costruzione di un unico indicatore sintetico, riassuntivo della forza di ciascuna squadra.
I valori che emergono dall’analisi permettono di creare un ranking tra le squadre e di capire, tenendo conto della struttura dei gironi e dei possibili incroci, quale sarà la squadra vincente.
Il modello sembra dare risultati piuttosto in linea con le previsioni dei bookmaker e degli esperti del settore: in finale si scontrerebbero Italia e Germania. E sarebbe proprio quest’ultima ad aggiudicarsi il titolo. La favorita Spagna, invece, dovrebbe essere eliminata in semifinale.

 

Per assicurarci della robustezza del modello, lo abbiamo testato sul precedente campionato europeo svoltosi in Austria e Svizzera.
La procedura seguita è stata analoga. L’unica differenza sostanziale è la restrizione del campione di dati utilizzato: sono state prese in considerazione solo le partite ufficiali giocate dal 1990 al 2007 e i trofei internazionali vinti fino a quell’anno.
Nonostante i diversi incroci dovuti a una differente struttura dei tabelloni e della composizione dei gironi, il modello fornisce risultati simili a quelli previsti per il prossimo europeo: la finale è la stessa, tra Italia e Germania. Ma se quest’ultima è arrivata effettivamente in finale, l’Italia non ha superato nemmeno i quarti a causa della Spagna, che poi si è aggiudicata effettivamente il titolo. La nazionale della Penisola Iberica è stata invece sottovalutata dal modello che prevedeva una sua prematura uscita subito dopo la fase a gironi.
Forse la bellezza del balòn di breriana memoria sta, però, e per fortuna, nella fallibilità dei modelli statistici: nell’attesa di vedere quali saranno i verdetti del campionato europeo, noi intanto proponiamo la nostra analisi, certi di non sfigurare né di fronte al polpo Paul, né di fronte al maiale ucraino.


(1)
B. James,  “The Bill James Abstract”, autopubblicato, 1980. Le “run” sono i punti segnati correndo in base.
(2) Rispettivamente, A. Schatz, “Pythagoras on the Gridiron”, Football Outsiders, 2003; Daryl Morey, "Modified Pythagorean Theorem", STATS Basketball Scoreboard, 1993-94.
(3) Howard H. Hamilton, “An Extension of the Pythagorean Expectation for Association Football”, Journal of Quantitative Analysis in Sports, vol.7 n. 2, 2011.
(4) Sono state considerate le quote assegnate da Betclick.