Logo stampa
 
 
 
Facebook.com twitter oknotizie FriendFeed
  Invia la notizia PDF dell'articolo

UN MODELLO DA CAMPIONI DEL MONDO

di Luciano Canova e Andrea De Capitani 15.06.2010

Chi vince il Mondiale di calcio del 2010? È una domanda alla quale tutti vogliono dare una risposta.  Alcuni prospettano la vittoria dell’una o dell’altra squadra in base a coincidenze astrali degli anni di svolgimento della competizione; altri propongono studi particolari più o meno approfonditi su variabili di ogni genere. Noi partiamo da una serie di dati statistici e tentiamo di stimare, attraverso un modello econometrico e un’analisi fattoriale, la probabilità di vittoria delle diverse nazionali.

IL MODELLO ECONOMETRICO

Lo studio econometrico si avvale di un dataset che raccoglie numerose informazioni sulle nazionali di calcio che, almeno una volta nella loro storia, hanno vinto un Mondiale. Si tratta di Italia, Francia, Inghilterra, Germania, Brasile, Uruguay e Argentina.
Per ragioni di disponibilità di dati, lo studio prende in considerazione le edizioni dei Mondiali a partire dal 1950 e comprende 105 osservazioni. (1)
Tra le variabili esplicative utilizzate, per ciascuna nazionale in ciascuna delle edizioni cui hanno preso parte, ci sono:
-         differenza reti totale;
-         media punti a partita omogeneizzando i punteggi di tutte le edizioni come segue: vittoria 3 punti, pareggio 1 punto, sconfitta 0 punti e sconfitta ai rigori 1 punto;
-         numero di goal del capocannoniere della nazionale;
-         spettatori per partita, data dalla somma totale dei spettatori presenti alle partite di una nazionale diviso il numero di partite giocate dalla stessa;
-         ammonizioni ed espulsioni, valutandole, rispettivamente, con peso 0.5 e 1;
-         quotazioni dei bookmakers sulla possibilità di vittoria della squadra; (2)
-         età media dei convocati;
-         una variabile che mostra se la nazionale è arrivata tra le prime quattro;
-         numero medio di calciatori della nazionale militanti in campionati esteri rispetto al totale dei convocati;
-         numero di giocatori convocati militanti in squadre che, nell’anno del mondiale, hanno vinto la Coppa dei campioni o la Copa Libertadores;
-         una variabile indicante se la nazionale avesse ospitato il Mondiale in quell’edizione.

Vi sono inoltre delle variabili di controllo socio-demografiche riferite alla nazione nell’anno del mondiale:
-         il livello di reddito pro-capite;
-         il tasso di alfabetizzazione primario;
-         la densità della popolazione.

L’obiettivo è quello di individuare quali variabili esplicative hanno avuto il maggior impatto sulla probabilità di vittoria del Mondiale di una nazionale. Per ottenere questi risultati è stato realizzato un modello panel probit considerando come variabile dipendente la probabilità di vittoria del Mondiale e come variabili esplicative quelle precedentemente elencate. I risultati dell’analisi mostrano, con vari test di robustezza, che le variabili di maggiore e significativo impatto sulla probabilità di vittoria in un Mondiale sono i punti a partita (o, in sostituzione ad essa, la differenza reti, con la quale è molto correlata), la presenza di un goleador di razza in squadra e le previsioni dei principali bookmakers.
Si è osservato come, pur essendo ottime variabili di controllo, le esplicative riferite alle condizioni socio-demografiche non siano significative: il problema risiede, a nostro giudizio, nella differente dimensione economica rispetto alla variabile di interesse. I dati relativi alle squadre sono di carattere micro-economico, mentre il reddito pro-capite, il tasso di istruzione medio e la densità di popolazione fanno riferimento a un livello comunque aggregato.
Si può, andando avanti, evidenziare la presenza di correlazione positiva e significativa tra la variabile riferita all’organizzazione del mondiale con i punti a partita (o la differenza reti) e con la presenza di un goleador di razza. (3) Questo esito ci permette di identificare un effetto della variabile riferita all’organizzazione del Mondiale sui risultati dello stesso, anche se questa non influenza significativamente la probabilità di vittoria.
Una possibile estensione sarebbe quella di prendere in considerazione tutti i dati relativi alle nazionali di calcio che, almeno una volta nella loro storia, si sono classificate tra le prime quattro. In quel caso, oltre ad ampliare la dimensione del campione, sarebbe senz’altro possibile catturare l’effetto netto del paese organizzatore. (4)
Lo studio considera i pesi di ciascuna variabile significativa, ottenuti dai coefficienti del modello stimato, che arrivano dalla storia delle edizioni passate, come coefficienti da applicare ai dati relativi alle qualificazioni mondiali delle squadre presenti in Sudafrica. In particolare, per quanto riguarda il goleador, si è scelto di utilizzare la media-gol nel campionato nazionale giocato degli attaccanti convocati. L’applicazione di questo modello predittivo indica come le due nazionali più accreditate per la vittoria finale siano la Spagna e l’Inghilterra, segnalando come possibile outsider l’Olanda. Nel caso in cui si tenesse conto della classifica della Scarpa d’oro per il miglior goleador della nazionale, ovviamente questa variabile assumerebbe un’importanza maggiore in particolare per l’Argentina, la quale mostra un potenziale offensivo straordinario, che rischia però di essere compromesso con il controllo di altre variabili.

L'ANALISI FATTORIALE

La seconda tecnica utilizzata fa capo alla statistica multivariata. Attraverso un’analisi fattoriale, si procede all’aggregazione di dati multi-dimensionali per la costruzione di un indicatore sintetico. L’idea è che un insieme di variabili facenti riferimento alle performance calcistiche condividano un fattore latente, nel nostro caso la forza e le potenzialità di una squadra.
L’analisi fattoriale consente di calcolare i pesi di ciascuna delle variabili aggregate nel contribuire a tale fattore latente.
Le informazioni, in questo caso, sono quelle raccolte per le nazionali impegnate in Sudafrica nelle partite che hanno giocato durante le qualificazione al Mondiale 2010. (5)
Le variabili prese in considerazione sono:
-         differenza reti;
-         punti media a partita;
-         media goal degli attaccanti convocati nelle nazionali nei rispettivi campionati;
-         età media dei convocati;
-         ranking Fifa;
-         quotazioni dei bookmakers; (6)
-         difficoltà del percorso nel mondiale. (7)

In questo caso, l’indicatore che emerge dall’analisi è un numero a valori crescenti, dalla squadra meno forte a quella più forte. (8)
Il primo fattore latente contribuisce a spiegare lo 0.6696 della variabilità complessiva, che è un risultato molto soddisfacente. (9)
Nella tabella seguente sono riportate le variabili con i relativi pesi.

Tabella 1: Pesi risultanti dall’analisi fattoriale

VariabiliPeso
differenza reti0.84
punti a partita0.89
percorso al mondiale-0.88
bookies0.82
ranking Fifa-0.7
età media giocatori0.04
potenziale offensivo-0.15


Ciascun peso va interpretato come il contributo relativo della variabile alla forza di una squadra: tutti i valori sono ragionevoli. Stupisce il contributo negativo del potenziale offensivo. Una possibile spiegazione sta nel fatto che un attacco senza potenziali titolari, come quello dell’Argentina ad esempio, rende difficile costruire un 11 stabile.
Il basso valore, inoltre, contribuisce a spiegare il perché, nonostante la forza dei singoli giocatori, l’Argentina finisca con l’essere penalizzata in un giudizio di insieme.
La nostra predizione, in linea con il modello econometrico descritto, prevede una finale Spagna-Inghilterra (resa possibile, per altro, dalla struttura del tabellone), e una possibile sorpresa Olanda ai danni del Brasile, indicato da molti come la principale candidata alla vittoria finale. (10)
Concludiamo con le previsioni che probabilmente tutti aspettano con maggiore curiosità: nell’un caso e nell’altro i risultati offrono poche chance agli azzurri. La nazionale italiana ha sì una buona probabilità di passare il turno, ma con tutte le tecniche utilizzate non sembra avere molte opportunità di superare i quarti di finale.


(1) Il risultato delle 15 edizioni dei Mondiali dal 1950 al 2006 moltiplicato per le 7 nazionali.
(2) Non disponendo delle quotazioni storiche, per alcune edizioni, abbiamo fatto ricorso a un focus group interrogando alcuni giornalisti sportivi sulle loro probabilità.
(3) Spearman rank correlation.
(4) Anche perché si inserirebbero tra le osservazioni i casi di Cile, Svezia e Corea del Sud che, senz’altro, hanno avuto un vantaggio dall’ospitare la competizione.
(5) Per il Sudafrica, le partite della Confederations Cup.
(6) Quelle ufficiali per il 2010 dei principali bookmakers inglesi.
(7) Valutata ancora una volta grazie al parere di esperti giornalisti sportivi.
(8) Il numero è espresso in unità di standard deviation.
(9) Lo studio di Ubs, per esempio.
(10) Anche la distanza tra i valori del primo e del secondo autovalore è superiore all’unità, il che ci consente di utilizzare soltanto il primo fattore come componente per la costruzione del punteggio.