Da un lato, i test di intelligenza sono uno dei grandi successi della psicologia (Hunt, 2011). I punteggi dei test di intelligenza predicono molti fenomeni del mondo reale e hanno molti usi pratici ben validati (Gottfredson, 1997; Deary et al., 2010). I punteggi dei test di intelligenza sono anche correlati a parametri cerebrali strutturali e funzionali valutati con le neuroimmagini (Haier et al., 1988; Jung e Haier, 2007; Deary et al., 2010; Penke et al., 2012; Colom et al., 2013a) e ai geni (Posthuma et al., 2002; Hulshoff Pol et al., 2006; Chiang et al., 2009, 2012; Stein et al., 2012). D’altra parte, i punteggi dei test di intelligenza sono spesso fraintesi e possono essere usati in modo errato. Questo articolo si concentra su un equivoco di base che permea molti dei recenti rapporti sull’aumento dell’intelligenza dopo l’allenamento cognitivo a breve termine. Molti di questi rapporti sono stati pubblicati in riviste importanti e hanno ricevuto un’ampia attenzione pubblica (Jaeggi et al., 2008, 2011; Mackey et al., 2011).
L’equivoco di base è assumere che i punteggi dei test di intelligenza siano unità di misura come i pollici o i litri o i grammi. Non lo sono. Pollici, litri e grammi sono scale di rapporto dove zero significa zero e 100 unità sono due volte 50 unità. I punteggi dei test d’intelligenza stimano un costrutto utilizzando scale di intervallo e hanno significato solo rispetto ad altre persone della stessa età e sesso. Le persone con punteggi alti generalmente vanno meglio in una vasta gamma di test di abilità mentale, ma qualcuno con un punteggio di QI di 130 non è il 30% più intelligente di qualcuno con un punteggio di QI di 100. Un punteggio di 130 mette la persona nel 2% più alto della popolazione, mentre un punteggio di 100 è al 50° percentile. Un cambiamento da un punteggio di QI da 100 a 103 non è lo stesso di un cambiamento da 133 a 136. Questo rende impossibile una semplice interpretazione dei cambiamenti del punteggio del test d’intelligenza.
La maggior parte degli studi recenti che hanno sostenuto un aumento dell’intelligenza dopo un intervento di formazione cognitiva si basano sul confronto tra un punteggio del test d’intelligenza prima dell’intervento e un secondo punteggio dopo l’intervento. Se c’è un aumento medio del punteggio di cambiamento per il gruppo di formazione che è statisticamente significativo (usando un test t dipendente o un test statistico simile), questo viene trattato come prova che l’intelligenza è aumentata. Questo ragionamento è corretto se si misurano scale di rapporto come i pollici, i litri o i grammi prima e dopo l’intervento (assumendo strumenti adeguati e affidabili come i righelli per evitare conclusioni errate tipo Cold Fusion che apparentemente erano basate su misurazioni errate del calore); non è corretto per i punteggi dei test di intelligenza su scale di intervallo che stimano solo un ordine relativo piuttosto che misurare il costrutto di intelligenza. Anche se la stima ha un considerevole valore predittivo e si correla a misure cerebrali e genetiche, non è una misura nello stesso modo in cui misuriamo la distanza, il liquido o il peso, anche se i punteggi di cambiamento individuale sono usati in un disegno pre-post.
I punteggi del SAT, per esempio, sono altamente correlati ai punteggi dei test di intelligenza (Frey e Detterman, 2004). Immaginate che uno studente faccia il SATs quando è molto malato. I punteggi sono probabilmente una cattiva stima delle capacità dello studente. Se lo studente ripete il test qualche tempo dopo, quando sta bene, un aumento del punteggio significa che l’intelligenza dello studente è aumentata, o che il nuovo punteggio è ora solo una stima migliore? Lo stesso vale per i cambiamenti di punteggio in seguito ai corsi di preparazione al SAT. Molti college e università permettono ai candidati di presentare più punteggi SAT e il punteggio più alto ha tipicamente il peso maggiore; ci sono molte ragioni spurie per i punteggi bassi ma molte meno per i punteggi alti. Il cambiamento dei punteggi dal più basso al più alto ha poco o nessun peso. Al contrario, il cambiamento nel peso di una persona dopo qualche intervento non è ambiguo.
Negli studi sull’effetto dell’addestramento cognitivo sull’intelligenza, è anche importante capire che tutti i punteggi dei test di intelligenza includono una certa quantità di imprecisione o errore. Questo è chiamato errore standard di misurazione e può essere quantificato come una stima di un punteggio “vero” basato sui punteggi osservati. L’errore standard di misurazione dei pollici o dei litri è di solito pari a zero, supponendo di avere strumenti di misurazione standard perfettamente affidabili. I test di intelligenza mostrano generalmente un’alta affidabilità test-retest, ma hanno anche un errore standard, e l’errore standard è spesso più grande per i punteggi più alti che per quelli più bassi. Qualsiasi cambiamento nel punteggio del test di intelligenza dopo un intervento deve essere considerato rispetto all’errore standard del test. Gli studi che usano un singolo test per stimare l’intelligenza prima e dopo un intervento usano punteggi meno affidabili e più variabili (errori standard più grandi) rispetto agli studi che combinano i punteggi di una batteria di test.
I punteggi di cambiamento non sono mai facili da interpretare e richiedono metodi statistici sofisticati e disegni di ricerca con gruppi di controllo appropriati. Se si prova un intervento di formazione in individui che hanno tutti punteggi pre-intervento al di sotto della media della popolazione, per esempio, la ripetizione del test con o senza alcun intervento, può risultare in punteggi più alti a causa del fenomeno statistico della regressione alla media, o a causa della semplice pratica del test, specialmente se non vengono usate forme alternative equivalenti del test. I disegni quasi-sperimentali come il post-test solo con grandi campioni e assegnazione casuale non hanno tutte le stesse difficoltà di interpretazione dei disegni pre-post. Sono promettenti, ma la maggior parte dei revisori è più incline a valutare i cambiamenti pre-post. Le tecniche di variabile latente evitano anche molte delle difficoltà dei cambiamenti pre-post delle scale di intervallo e sono promettenti in grandi campioni (Ferrer e McArdle, 2010).
Quando si usano i punteggi di cambiamento, è importante identificare le differenze individuali anche all’interno di un gruppo dove il punteggio medio di cambiamento aumenta statisticamente dopo un intervento. Immaginate che un gruppo di 100 studenti riceva un training cognitivo e altri 100 ricevano un intervento di controllo. Il punteggio medio di cambiamento nel gruppo di formazione può mostrare statisticamente un aumento maggiore rispetto ai controlli. Quanti dei 100 individui che hanno ricevuto la formazione mostrano effettivamente un aumento? Differiscono in qualche modo dagli individui dello stesso gruppo che non mostrano un aumento? L’analisi degli item mostra se l’aumento dei punteggi è dovuto più agli item facili o a quelli difficili del test? Che dire di tutti gli individui nel gruppo di controllo che mostrano aumenti del punteggio di cambiamento così grandi come quelli mostrati nel gruppo di formazione? Se tutti i 200 partecipanti alla fine ricevono la stessa formazione, l’ordine degli individui basato sul punteggio post-formazione sarà diverso dall’ordine basato sui punteggi pre-formazione? Se no, che cosa è stato realizzato? La maggior parte degli studi non riporta tali analisi, anche se gli studi di formazione più recenti stanno affrontando le questioni della valutazione di misure multiple dell’intelligenza e delle differenze individuali (Colom et al., 2013b; Jaeggi et al., 2013). Burgaleta et al forniscono un buon esempio di mostrare i cambiamenti del QI soggetto per soggetto (Burgaleta et al., 2014).
Nonostante, il punto principale è che per fare l’argomento più convincente che l’intelligenza aumenta dopo un intervento, è necessaria una scala di rapporto di intelligenza. Non ne esiste ancora nessuna e un progresso significativo potrebbe richiedere un nuovo modo di definire l’intelligenza basato su variabili misurabili del cervello o dell’elaborazione delle informazioni. Per esempio, la densità della materia grigia e bianca in specifiche regioni cerebrali valutate tramite imaging ed espresse come profilo di punteggi standard basati su un gruppo normativo potrebbero sostituire i punteggi dei test di intelligenza (Haier, 2009). Il lavoro di Engle e colleghi suggerisce che la capacità della memoria di lavoro e la velocità percettiva sono modi possibili per valutare l’intelligenza fluida (Broadway e Engle, 2010; Redick et al., 2012) sulla base di un ampio corpo di ricerca che mostra che una maggiore velocità di elaborazione mentale e una maggiore capacità di memoria sono collegate a un’intelligenza più elevata.
Jensen ha scritto ampiamente su un’evoluzione dalla psicometria alla “cronometria” mentale – l’uso del tempo di risposta in millisecondi per misurare l’elaborazione delle informazioni in modo standard (Jensen, 2006). Egli ha sostenuto che il costrutto di intelligenza potrebbe essere sostituito a favore di misure su scala di rapporto della velocità di elaborazione delle informazioni valutate durante compiti cognitivi standardizzati come il paradigma di Hick. Tali misure, per esempio, aiuterebbero a far progredire la ricerca sulla neurofisiologia sottostante alla velocità mentale e potrebbero portare a una definizione più avanzata di intelligenza. Jensen conclude il suo libro sulla cronometria con questo appello all’azione: “… la cronometria fornisce alle scienze comportamentali e cerebrali una scala assoluta universale per ottenere misure altamente sensibili e frequentemente ripetibili delle prestazioni di un individuo in compiti cognitivi appositamente concepiti. Il suo tempo è arrivato. Mettiamoci al lavoro!” (p. 246).
Questa è una sfida formidabile e una priorità importante per i ricercatori dell’intelligenza. La collaborazione tra psicometristi e psicologi cognitivi sarà fondamentale. Ci sono ora un certo numero di studi che non riescono a replicare le affermazioni di aumento dell’intelligenza dopo l’allenamento della memoria a breve termine e varie ragioni sono proposte (Colom et al., 2013b; Harrison et al., 2013). Dato il nostro obiettivo ristretto qui, notiamo un fallimento di replicare anche valutato la capacità di memoria di lavoro e la velocità percettiva; non sono stati trovati effetti di trasferimento (Redick et al., 2013) e c’è motivo di suggerire che altri studi di trasferimento positivo possono essere errati (Tidwell et al., 2013). Per ora, i risultati dell’addestramento cognitivo sono più incoerenti che non, soprattutto per gli aumenti di intelligenza putativi. Ciononostante, è incoraggiante che i ricercatori cognitivi stiano lavorando su questi temi nonostante una pervasiva indifferenza o negatività verso la ricerca sull’intelligenza in Psicologia in generale e per molte agenzie di finanziamento.
In un contesto più ampio, l’intelligenza include più di una componente. Tuttavia, il costrutto di interesse viene solitamente definito con metodi psicometrici come un fattore generale comune a tutte le abilità mentali chiamato fattore g (Jensen, 1998). L’intelligenza fluida, l’obiettivo di diversi studi sull’addestramento cognitivo, è uno dei diversi fattori di intelligenza generale ed è altamente correlato a g. Il fattore g è stimato dai test di intelligenza, ma non è sinonimo di QI o di qualsiasi altro punteggio del test; alcuni test sono più carichi di g di altri. Come notato, un punteggio in un test d’intelligenza ha poco significato senza confrontarlo con i punteggi di altre persone. Questo è il motivo per cui tutti i test d’intelligenza richiedono gruppi normativi per il confronto e perché i gruppi normativi devono essere aggiornati periodicamente, come dimostrato dall’effetto Flynn di graduali aumenti generazionali nei punteggi dei test d’intelligenza; anche se se g mostra l’effetto Flynn è ancora incerto (te Nijenhuis e van der Flier, 2013). Le stime psicometriche di g e di altri fattori di intelligenza hanno generato forti risultati empirici sulla natura dell’intelligenza e sulle differenze individuali, per lo più basati su studi di correlazione. Queste valutazioni di intervallo, tuttavia, non sono sufficienti per portare la ricerca al passo successivo di interventi sperimentali per aumentare l’intelligenza.
Parlando di scienza, Carl Sagan ha osservato che affermazioni straordinarie richiedono prove straordinarie. Finora, non le abbiamo per le affermazioni sull’aumento dell’intelligenza dopo l’addestramento cognitivo o, per quella materia, qualsiasi altra manipolazione o trattamento, compresa l’educazione della prima infanzia. Piccoli cambiamenti statisticamente significativi nei punteggi dei test possono essere osservazioni importanti sull’attenzione o la memoria o qualche altra variabile cognitiva elementare o una specifica abilità mentale valutata con una scala di rapporti come i millisecondi, ma non sono una prova sufficiente che l’intelligenza generale sia cambiata. Come in tutte le branche della scienza, il progresso dipende da misurazioni sempre più sofisticate che portano a definizioni più precise – si pensi all’evoluzione della definizione di un “gene” o di un “atomo”. Anche con sofisticate tecniche di valutazione basate sugli intervalli (Ferrer e McArdle, 2010), fino a quando non avremo misure migliori, specialmente scale di rapporto, dobbiamo riconoscere il problema di base della misurazione ed esercitare un’abbondante moderazione quando riportiamo aumenti o diminuzioni di intelligenza presunta.
In futuro, ci potrebbero essere forti motivazioni empiriche per spendere grandi somme di denaro in training cognitivo o altri interventi volti a migliorare specifiche abilità mentali o risultati scolastici (oltre agli argomenti morali convincenti per farlo), ma aumentare l’intelligenza generale è piuttosto difficile da dimostrare con i test attuali. Aumentare l’intelligenza, tuttavia, è un obiettivo degno che potrebbe essere raggiunto da interventi basati sui sofisticati progressi delle neuroscienze nell’analisi del DNA, nella neuroimmagine, nella psicofarmacologia e persino nella stimolazione cerebrale diretta (Haier, 2009, 2013; Lozano e Lipsman, 2013; Santarnecchi et al., 2013; Legon et al., 2014). Lo sviluppo di una misurazione del rapporto di intelligenza altrettanto sofisticata deve andare di pari passo con lo sviluppo di interventi promettenti.