Enerzijds zijn intelligentietests een van de grote successen van de psychologie (Hunt, 2011). Intelligentietestscores voorspellen veel verschijnselen in de echte wereld en hebben veel goed gevalideerde praktische toepassingen (Gottfredson, 1997; Deary et al., 2010). Intelligentietestscores correleren ook met structurele en functionele hersenparameters beoordeeld met neuroimaging (Haier et al., 1988; Jung en Haier, 2007; Deary et al., 2010; Penke et al., 2012; Colom et al., 2013a) en met genen (Posthuma et al., 2002; Hulshoff Pol et al., 2006; Chiang et al., 2009, 2012; Stein et al., 2012). Anderzijds worden intelligentietestscores vaak verkeerd begrepen en kunnen ze verkeerd worden gebruikt. Dit artikel richt zich op een fundamenteel misverstand dat doorklinkt in veel van de recente rapporten over verhoogde intelligentie na kortdurende cognitieve training. Verschillende van deze rapporten zijn gepubliceerd in vooraanstaande tijdschriften en hebben brede publieke aandacht gekregen (Jaeggi et al., 2008, 2011; Mackey et al., 2011).
Het fundamentele misverstand is de veronderstelling dat intelligentietestscores meeteenheden zijn zoals inches of liters of grammen. Dat zijn ze niet. Inches, liters en grammen zijn verhoudingsschalen waarbij nul nul betekent en 100 eenheden twee keer 50 eenheden zijn. Intelligentietestscores schatten een constructie met behulp van intervalschalen en hebben alleen betekenis in verhouding tot andere mensen van dezelfde leeftijd en hetzelfde geslacht. Mensen met hoge scores doen het over het algemeen beter op een breed scala van mentale vaardigheidstests, maar iemand met een IQ-score van 130 is niet 30% slimmer dan iemand met een IQ-score van 100. Een score van 130 plaatst de persoon in de hoogste 2% van de bevolking, terwijl een score van 100 op het 50e percentiel ligt. Een verandering van een IQ-score van 100 naar 103 is niet hetzelfde als een verandering van 133 naar 136. Dit maakt een eenvoudige interpretatie van veranderingen in intelligentietestscores onmogelijk.
De meeste recente studies waarin een toename van de intelligentie na een cognitieve trainingsinterventie wordt beweerd, berusten op een vergelijking van een intelligentietestscore vóór de interventie met een tweede score na de interventie. Als er een gemiddelde toename is in de score voor de trainingsgroep die statistisch significant is (met behulp van een afhankelijke t-toets of een vergelijkbare statistische toets), wordt dit gezien als bewijs dat de intelligentie is toegenomen. Deze redenering is correct als men verhoudingsschalen zoals inches, liters of grammen meet voor en na een of andere interventie (uitgaande van geschikte en betrouwbare instrumenten zoals linialen om foutieve Cold Fusion-achtige conclusies te vermijden die blijkbaar gebaseerd waren op een foutieve warmtemeting); zij is niet correct voor intelligentietestscores op intervalschalen die alleen een relatieve rangorde schatten in plaats van het intelligentieconstruct te meten. Hoewel de schatting een aanzienlijke voorspellende waarde heeft en correleert met hersen- en genetische maten, is het geen meting op dezelfde manier als we afstand, vloeistof of gewicht meten, zelfs als individuele veranderingsscores worden gebruikt in een pre-post design.
SAT-scores, bijvoorbeeld, zijn sterk gecorreleerd met intelligentietestscores (Frey en Detterman, 2004). Stel je voor dat een student de SAT-test aflegt terwijl hij ernstig ziek is. De scores zijn waarschijnlijk een slechte schatting van de capaciteiten van de student. Als de student de test enige tijd later opnieuw aflegt wanneer hij beter is, betekent een hogere score dan dat de intelligentie van de student is toegenomen, of dat de nieuwe score nu gewoon een betere schatting is? Hetzelfde geldt voor veranderingen in de score na voorbereidende SAT-cursussen. Veel hogescholen en universiteiten staan kandidaten toe meerdere SAT-scores in te dienen en de hoogste score legt doorgaans het meeste gewicht in de schaal; er zijn veel oneigenlijke redenen voor lage scores maar veel minder voor hoge scores. Veranderingen in de scores van laag naar hoog leggen weinig of geen gewicht in de schaal. Daarentegen is de verandering in iemands gewicht na een of andere interventie ondubbelzinnig.
In studies over het effect van cognitieve training op intelligentie is het ook belangrijk te begrijpen dat alle scores van intelligentietests een zekere mate van onnauwkeurigheid of fout bevatten. Dit wordt de standaard meetfout genoemd en kan worden gekwantificeerd als een schatting van een “ware” score op basis van waargenomen scores. De standaardfout bij het meten van inches of liters is gewoonlijk nul, ervan uitgaande dat u perfect betrouwbare, standaardmeetapparatuur hebt. Intelligentietests hebben over het algemeen een hoge test-hertest betrouwbaarheid, maar ze hebben ook een standaardfout, en de standaardfout is vaak groter voor hogere scores dan voor lagere scores. Elke verandering in de score van een intelligentietest na een interventie moet worden bekeken in relatie tot de standaardfout van de test. Studies die één test gebruiken om de intelligentie voor en na een interventie te schatten, gebruiken minder betrouwbare en meer variabele scores (grotere standaardfouten) dan studies die scores van een batterij tests combineren.
Veranderingsscores zijn nooit gemakkelijk te interpreteren en vereisen verfijnde statistische methoden en onderzoeksontwerpen met geschikte controlegroepen. Als je bijvoorbeeld een trainingsinterventie uitprobeert bij individuen die vóór de interventie allemaal scores hebben die onder het gemiddelde van de populatie liggen, kan het opnieuw testen, met of zonder enige interventie, resulteren in hogere scores als gevolg van het statistische fenomeen regressie naar het gemiddelde, of als gevolg van eenvoudige testoefening, vooral als er geen equivalente alternatieve vormen van de test worden gebruikt. Quasi-experimentele ontwerpen zoals alleen post-test met grote steekproeven en willekeurige toewijzing hebben niet al dezelfde interpretatieproblemen als pre-post ontwerpen. Zij zijn veelbelovend, maar de meeste beoordelaars zijn meer geneigd om pre-post veranderingen te waarderen. Latente variabele technieken vermijden ook veel van de moeilijkheden van pre-post interval schaalveranderingen en ze zijn veelbelovend in grote steekproeven (Ferrer en McArdle, 2010).
Wanneer veranderingsscores worden gebruikt, is het belangrijk om individuele verschillen te identificeren, zelfs binnen een groep waar de gemiddelde veranderingsscore statistisch toeneemt na een interventie. Stel dat een groep van 100 studenten een cognitieve training krijgt en 100 anderen een controle-interventie. De gemiddelde veranderingsscore in de trainingsgroep kan statistisch een grotere toename laten zien dan bij de controlegroep. Hoeveel van de 100 personen die de training hebben gekregen, vertonen daadwerkelijk een toename? Verschillen zij op enigerlei wijze van de personen in dezelfde groep die geen toename laten zien? Blijkt uit de itemanalyse of de toename van de scores meer het gevolg is van makkelijke dan wel moeilijke testonderdelen? Hoe zit het met de individuen in de controlegroep die een even grote toename in veranderingsscores laten zien als de deelnemers in de trainingsgroep? Als alle 200 deelnemers uiteindelijk dezelfde training krijgen, zal de rangorde van individuen op basis van de score na de training dan anders zijn dan de rangorde op basis van de scores vóór de training? Zo niet, wat is er dan bereikt? De meeste studies rapporteren dergelijke analyses niet, hoewel nieuwere trainingsstudies aandacht besteden aan kwesties van multiple measure assessment van intelligentie en individuele verschillen (Colom et al., 2013b; Jaeggi et al., 2013). Burgaleta et al geven een goed voorbeeld van het aantonen van IQ veranderingen subject-by-subject (Burgaleta et al., 2014).
Niettemin, het belangrijkste punt is dat om het meest overtuigende argument te maken dat intelligentie toeneemt na een interventie, een ratio schaal van intelligentie nodig is. Die bestaat nog niet en voor zinvolle vooruitgang is wellicht een nieuwe manier nodig om intelligentie te definiëren op basis van meetbare hersen- of informatieverwerkingsvariabelen. Zo zou bijvoorbeeld de dichtheid van grijze en witte stof in specifieke hersengebieden die met beeldvorming worden beoordeeld en worden uitgedrukt als een profiel van standaardscores op basis van een normatieve groep, intelligentie testscores kunnen vervangen (Haier, 2009). Werk van Engle en collega’s suggereert dat werkgeheugencapaciteit en perceptuele snelheid mogelijke manieren zijn om fluïde intelligentie te beoordelen (Broadway en Engle, 2010; Redick et al., 2012) op basis van een grote hoeveelheid onderzoek dat aantoont dat een snellere mentale verwerkingssnelheid en een verhoogde geheugencapaciteit samenhangen met een hogere intelligentie.
Jensen heeft uitgebreid geschreven over een evolutie van psychometrie naar mentale “chronometrie”-het gebruik van responstijd in milliseconden om informatieverwerking op een standaardmanier te meten (Jensen, 2006). Hij betoogde dat het intelligentie-construct vervangen zou kunnen worden ten gunste van ratio-schaalmetingen van de snelheid van informatieverwerking beoordeeld tijdens gestandaardiseerde cognitieve taken zoals het Hick-paradigma. Dergelijke metingen zouden bijvoorbeeld het onderzoek naar de onderliggende neurofysiologie van mentale snelheid vooruit helpen en zouden kunnen leiden tot een meer geavanceerde definitie van intelligentie. Jensen besloot zijn boek over chronometrie met deze oproep tot actie: “Chronometrie biedt de gedrags- en hersenwetenschappen een universele absolute schaal voor het verkrijgen van zeer gevoelige en vaak herhaalbare metingen van de prestaties van een individu op speciaal ontworpen cognitieve taken. De tijd is gekomen. Laten we aan de slag gaan!” (p. 246).
Dit is een formidabele uitdaging en een belangrijke prioriteit voor intelligentie-onderzoekers. Samenwerking tussen psychometristen en cognitief psychologen zal van essentieel belang zijn. Er zijn nu een aantal studies die er niet in slagen de beweringen van verhoogde intelligentie na kortetermijngeheugentraining te repliceren en er worden verschillende redenen voorgesteld (Colom et al., 2013b; Harrison et al., 2013). Gezien onze beperkte focus hier, merken we op dat één mislukte replicatie ook werkgeheugencapaciteit en perceptuele snelheid beoordeelde; er werden geen transfereffecten gevonden (Redick et al., 2013) en er is reden om te suggereren dat andere positieve transfereffectstudies foutief kunnen zijn (Tidwell et al., 2013). Vooralsnog zijn de resultaten van cognitieve training meer inconsistent dan niet, vooral voor vermeende intelligentieverhogingen. Niettemin is het bemoedigend dat cognitieve onderzoekers aan deze kwesties werken, ondanks een alomtegenwoordige onverschilligheid of negativiteit voor intelligentieonderzoek in de psychologie in het algemeen en voor veel financieringsinstanties.
In de bredere context omvat intelligentie meer dan één component. Het construct van belang wordt echter gewoonlijk door psychometrische methoden gedefinieerd als een algemene factor die alle mentale vermogens gemeen hebben, de g-factor genaamd (Jensen, 1998). Fluïde intelligentie, de focus van verschillende cognitieve trainingsstudies, is een van de brede intelligentiefactoren en is sterk gecorreleerd met g. De g-factor wordt geschat door intelligentietests, maar is niet synoniem met IQ of een andere testscore; sommige tests zijn meer g-loaded dan andere. Zoals opgemerkt, heeft een score op een intelligentietest weinig betekenis zonder deze te vergelijken met de scores van andere mensen. Daarom hebben alle intelligentietests normatieve groepen nodig voor vergelijking en moeten normgroepen periodiek worden geactualiseerd, zoals blijkt uit het Flynn-effect van geleidelijke generatiestijgingen in intelligentietestscores; hoewel of g het Flynn-effect vertoont, is nog onbeslist (te Nijenhuis en van der Flier, 2013). Psychometrische schattingen van g en andere intelligentiefactoren hebben sterke empirische bevindingen opgeleverd over de aard van intelligentie en individuele verschillen, meestal gebaseerd op correlatiestudies. Deze intervalbeoordelingen zijn echter niet voldoende om het onderzoek naar de volgende stap te brengen, namelijk experimentele interventies om de intelligentie te verhogen.
Sprekend over wetenschap, merkte Carl Sagan op dat buitengewone beweringen buitengewoon bewijs vereisen. Tot nu toe hebben we dat niet voor beweringen over het verhogen van intelligentie na cognitieve training of, wat dat betreft, welke andere manipulatie of behandeling dan ook, met inbegrip van onderwijs voor jonge kinderen. Kleine statistisch significante veranderingen in testscores kunnen belangrijke observaties zijn over aandacht of geheugen of een andere elementaire cognitieve variabele of een specifiek mentaal vermogen dat wordt beoordeeld met een verhoudingsschaal zoals milliseconden, maar zij zijn geen afdoende bewijs dat de algemene intelligentie is veranderd. Zoals in alle takken van wetenschap is vooruitgang afhankelijk van steeds verfijndere metingen die preciezere definities opleveren – denk aan de evolutie van de definitie van een “gen” of een “atoom”. Zelfs met verfijnde interval-gebaseerde beoordelingstechnieken (Ferrer en McArdle, 2010) moeten we, totdat we betere metingen hebben, vooral ratio-schalen, het fundamentele meetprobleem erkennen en overvloedige terughoudendheid betrachten bij het rapporteren van vermeende intelligentietoenames of -afnames.
In de toekomst kunnen er sterke empirische rationaliteiten zijn voor het uitgeven van grote sommen geld aan cognitieve training of andere interventies gericht op het verbeteren van specifieke mentale vaardigheden of schoolprestaties (naast de dwingende morele argumenten om dat te doen), maar het verhogen van de algemene intelligentie is vrij moeilijk aan te tonen met de huidige tests. Het verhogen van intelligentie is echter een waardig doel dat zou kunnen worden bereikt door interventies op basis van geavanceerde neurowetenschappelijke vooruitgang in DNA-analyse, neuroimaging, psychofarmacologie, en zelfs directe hersenstimulatie (Haier, 2009, 2013; Lozano en Lipsman, 2013; Santarnecchi et al., 2013; Legon et al., 2014). Het ontwikkelen van even verfijnde ratio meting van intelligentie moet hand in hand gaan met het ontwikkelen van veelbelovende interventies.