På den ene side er intelligenstest en af psykologiens store succeser (Hunt, 2011). Resultater fra intelligenstests forudsiger mange fænomener i den virkelige verden og har mange velvaliderede praktiske anvendelser (Gottfredson, 1997; Deary et al., 2010). Resultater fra intelligenstests korrelerer også med strukturelle og funktionelle hjerneparametre, der vurderes med neuroimaging (Haier et al., 1988; Jung og Haier, 2007; Deary et al., 2010; Penke et al., 2012; Colom et al., 2013a) og med gener (Posthuma et al., 2002; Hulshoff Pol et al., 2006; Chiang et al., 2009, 2012; Stein et al., 2012). På den anden side bliver intelligensprøveresultater ofte misforstået og kan blive misbrugt. Denne artikel fokuserer på en grundlæggende misforståelse, der gennemsyrer mange af de seneste rapporter om øget intelligens efter kortvarig kognitiv træning. Flere af disse rapporter er blevet offentliggjort i prominente tidsskrifter og har fået stor offentlig opmærksomhed (Jaeggi et al., 2008, 2011; Mackey et al., 2011).
Den grundlæggende misforståelse er, at man antager, at intelligenstestresultater er måleenheder som tommer eller liter eller gram. Det er de ikke. Tommer, liter og gram er forholdsskalaer, hvor nul betyder nul, og 100 enheder er to gange 50 enheder. Resultater fra intelligenstests vurderer en konstruktion ved hjælp af intervalskalaer og har kun betydning i forhold til andre personer af samme alder og køn. Personer med høje resultater klarer sig generelt bedre i en lang række test af mentale evner, men en person med en IQ-score på 130 er ikke 30 % klogere end en person med en IQ-score på 100. En score på 130 placerer personen blandt de højeste 2 % af befolkningen, mens en score på 100 ligger på 50. percentil. En ændring fra en IQ-score fra 100 til 103 er ikke det samme som en ændring fra 133 til 136. Dette gør en simpel fortolkning af ændringer i intelligenstestscoren umulig.
De fleste nyere undersøgelser, der har hævdet stigninger i intelligens efter en kognitiv træningsintervention, er baseret på en sammenligning af en intelligenstestscore før interventionen med en anden score efter interventionen. Hvis der er en gennemsnitlig ændringsscoreforøgelse for træningsgruppen, som er statistisk signifikant (ved hjælp af en afhængig t-test eller en lignende statistisk test), behandles dette som bevis for, at intelligensen er steget. Dette ræsonnement er korrekt, hvis man måler forholdsskalaer som tommer, liter eller gram før og efter en intervention (under forudsætning af passende og pålidelige instrumenter som linealer for at undgå fejlagtige Cold Fusion-lignende konklusioner, der tilsyneladende var baseret på fejlagtig varmemåling); det er ikke korrekt for intelligenstestresultater på intervalskalaer, der kun estimerer en relativ rangorden snarere end måler intelligenskonstruktet. Selv om estimatet har en betydelig prædiktiv værdi og korrelerer med hjerne- og genetiske målinger, er det ikke en måling på samme måde, som vi måler afstand, væske eller vægt, selv om individuelle ændringsscorer anvendes i et pre-post design.
SAT-scorer er f.eks. stærkt korreleret med intelligensprøveresultater (Frey og Detterman, 2004). Forestil dig, at en studerende tager SAT-testene, når han er ret syg. Scorerne er sandsynligvis et dårligt skøn over elevens evner. Hvis eleven tager testen igen en gang senere, når han er rask, betyder en stigning i scoren så, at elevens intelligens er steget, eller at den nyere score nu bare er et bedre skøn? Det samme gælder for ændringer i scoren efter SAT-forberedelseskurser. Mange gymnasier og universiteter tillader ansøgere at indsende flere SAT-scoringer, og den højeste score har typisk størst vægt; der er mange falske grunde til lave scoringer, men langt færre til høje scoringer. Ændring af score fra den laveste til den højeste har kun lidt eller ingen vægt. Derimod er ændring i en persons vægt efter en eller anden intervention entydig.
I undersøgelser af effekten af kognitiv træning på intelligens er det også vigtigt at forstå, at alle intelligensprøveresultater indeholder en vis grad af upræcision eller fejl. Dette kaldes standardfejl ved måling og kan kvantificeres som et estimat af en “sand” score baseret på observerede scores. Standardfejlen ved måling af tommer eller liter er normalt nul, hvis man antager, at man har fuldstændig pålidelige, standardiserede måleinstrumenter. Intelligensprøver har generelt en høj test-retest-pålidelighed, men de har også en standardfejl, og standardfejlen er ofte større for højere scorer end for lavere scorer. Enhver ændring i intelligensprøveresultaterne efter en intervention skal tages i betragtning i forhold til testens standardfejl. Undersøgelser, der anvender en enkelt test til at estimere intelligens før og efter en intervention, anvender mindre pålidelige og mere variable resultater (større standardfejl) end undersøgelser, der kombinerer resultater fra et batteri af test.
Forandringsscorer er aldrig lette at fortolke og kræver sofistikerede statistiske metoder og forskningsdesigns med passende kontrolgrupper. Hvis man f.eks. afprøver en træningsintervention på personer, som alle har en score før interventionen, der ligger under befolkningsgennemsnittet, kan en ny test med eller uden intervention resultere i højere scorer på grund af det statistiske fænomen regression til gennemsnittet eller på grund af simpel testpraksis, især hvis der ikke anvendes tilsvarende alternative former af testen. Kvasieksperimentelle design som f.eks. post-test med store stikprøver og tilfældig tildeling har ikke alle de samme fortolkningsvanskeligheder som præ-post-designs. De er lovende, men de fleste bedømmere er mere tilbøjelige til at værdsætte præ-post-ændringer. Latente variabelteknikker undgår også mange af vanskelighederne ved præ-post-intervalskalaændringer, og de er lovende i store stikprøver (Ferrer og McArdle, 2010).
Når der anvendes ændringsscore, er det vigtigt at identificere individuelle forskelle, selv inden for en gruppe, hvor den gennemsnitlige ændringsscore statistisk set stiger efter en intervention. Forestil dig, at en gruppe på 100 elever modtog kognitiv træning, og 100 andre modtog en eller anden kontrolintervention. Den gennemsnitlige ændringsscore i træningsgruppen kan statistisk set vise en større stigning end kontrolgrupperne. Hvor mange af de 100 personer, der modtog træningen, viser faktisk en stigning? Adskiller de sig på nogen måde fra de personer i samme gruppe, som ikke viser en stigning? Viser en emneanalyse, om de øgede resultater i højere grad skyldes lette eller svære testopgaver? Hvad med de personer i kontrolgruppen, der viser lige så store stigninger i ændringsscoren som dem, der er vist i træningsgruppen? Hvis alle 200 deltagere i sidste ende får den samme uddannelse, vil rangordenen af personer baseret på scoren efter uddannelsen så være anderledes end rangordenen baseret på scoren før uddannelsen? Hvis ikke, hvad er der så blevet opnået? De fleste undersøgelser rapporterer ikke sådanne analyser, selv om nyere træningsundersøgelser behandler spørgsmål om vurdering af intelligens med flere målinger og individuelle forskelle (Colom et al., 2013b; Jaeggi et al., 2013). Burgaleta et al. giver et godt eksempel på at vise IQ-ændringer emne for emne (Burgaleta et al., 2014).
Det vigtigste punkt er ikke desto mindre, at for at fremføre det mest overbevisende argument for, at intelligensen stiger efter en intervention, er der behov for en forholdsskala for intelligens. Der findes endnu ingen, og meningsfulde fremskridt kan kræve en ny måde at definere intelligens på, som er baseret på målbare hjerne- eller informationsbehandlingsvariabler. F.eks. kan tætheden af grå og hvidt stof i specifikke hjerneområder, der vurderes ved billeddannelse og udtrykkes som en profil af standardresultater baseret på en normativ gruppe, erstatte resultaterne af intelligenstest (Haier, 2009). Arbejde af Engle og kolleger foreslår, at arbejdshukommelseskapacitet og perceptuel hastighed er mulige måder at vurdere flydende intelligens på (Broadway og Engle, 2010; Redick et al., 2012) baseret på en stor mængde forskning, der viser, at hurtigere mental forarbejdningshastighed og øget hukommelseskapacitet er relateret til højere intelligens.
Jensen har skrevet udførligt om en udvikling fra psykometri til mental “kronometri” – brugen af responstid i millisekunder til at måle informationsbehandling på en standardiseret måde (Jensen, 2006). Han argumenterede for, at intelligenskonstruktionen kunne erstattes til fordel for forholdsskala målinger af hastigheden af informationsbehandling vurderet under standardiserede kognitive opgaver som Hick-paradigmet. Sådanne målinger ville f.eks. bidrage til at fremme forskningen om den underliggende neurofysiologi for mental hastighed og kunne føre til en mere avanceret definition af intelligens. Jensen afsluttede sin bog om kronometri med denne opfordring til handling: “Kronometri giver adfærds- og hjernevidenskaberne en universel absolut skala til at opnå meget følsomme og ofte gentagelige målinger af et individs præstation på specielt udformede kognitive opgaver. Dens tid er kommet. Lad os komme i gang!” (s. 246).
Det er en formidabel udfordring og en vigtig prioritet for intelligensforskere. Samarbejde mellem psykometriker og kognitive psykologer vil være nøglen. Der er nu en række undersøgelser, der ikke formår at gentage påstandene om øget intelligens efter træning af korttidshukommelse, og der foreslås forskellige årsager (Colom et al., 2013b; Harrison et al., 2013). I betragtning af vores snævre fokus her bemærker vi, at en af de manglende replikeringer også vurderede arbejdshukommelseskapacitet og perceptuel hastighed; der blev ikke fundet nogen overførselseffekter (Redick et al., 2013), og der er grund til at antyde, at andre positive overførselsundersøgelser kan være fejlagtige (Tidwell et al., 2013). Indtil videre er resultaterne af kognitiv træning mere inkonsekvente end ikke-konsekvente, især for formodede intelligensforøgelser. Ikke desto mindre er det opmuntrende, at kognitive forskere arbejder med disse spørgsmål på trods af en gennemgående ligegyldighed eller negativitet over for intelligensforskning i psykologien generelt og for mange finansieringsorganer.
I en bredere sammenhæng omfatter intelligens mere end én komponent. Den konstrukt, der er af interesse, defineres dog normalt ved psykometriske metoder som en generel faktor, der er fælles for alle mentale evner, kaldet g-faktor (Jensen, 1998). Flydende intelligens, som er i fokus i flere kognitive træningsundersøgelser, er en af flere brede intelligensfaktorer, og den er stærkt korreleret med g. G-faktoren estimeres ved intelligensprøver, men den er ikke synonym med IQ eller andre testresultater; nogle prøver er mere g-belastede end andre. Som nævnt har en score på en intelligenstest kun ringe betydning, hvis man ikke sammenligner den med andre menneskers score. Det er derfor, at alle intelligenstests kræver normative grupper til sammenligning, og at normgrupper skal opdateres med jævne mellemrum, som det fremgår af Flynn-effekten med gradvise generationsstigninger i intelligensprøveresultater; selv om det stadig ikke er afklaret, om g viser Flynn-effekten (te Nijenhuis og van der Flier, 2013). Psykometriske vurderinger af g og andre intelligensfaktorer har genereret stærke empiriske resultater om intelligensens karakter og individuelle forskelle, som for det meste er baseret på korrelationsundersøgelser. Disse intervalvurderinger er imidlertid ikke tilstrækkelige til at føre forskningen videre til det næste skridt med eksperimentelle interventioner for at øge intelligensen.
I forbindelse med videnskab bemærkede Carl Sagan, at ekstraordinære påstande kræver ekstraordinære beviser. Indtil videre har vi det ikke for påstande om øget intelligens efter kognitiv træning eller, for den sags skyld, nogen anden manipulation eller behandling, herunder tidlig børneopdragelse. Små statistisk signifikante ændringer i testresultater kan være vigtige observationer om opmærksomhed eller hukommelse eller en anden elementær kognitiv variabel eller en specifik mental evne, der vurderes med en forholdsskala som f.eks. millisekunder, men de er ikke tilstrækkeligt bevis for, at den generelle intelligens har ændret sig. Som inden for alle grene af videnskaben afhænger fremskridt af stadig mere sofistikerede målinger, der fører til mere præcise definitioner – tænk på udviklingen af definitionen af et “gen” eller et “atom”. Selv med sofistikerede intervalbaserede vurderingsteknikker (Ferrer og McArdle, 2010) må vi, indtil vi har bedre målinger, især forholdsskalaer, erkende det grundlæggende måleproblem og udøve rigelig tilbageholdenhed, når vi rapporterer om formodede intelligensstigninger eller -fald.
I fremtiden kan der være stærke empiriske begrundelser for at bruge store summer på kognitiv træning eller andre interventioner, der har til formål at forbedre specifikke mentale evner eller skolepræstationer (ud over de overbevisende moralske argumenter for at gøre det), men det er ret vanskeligt at påvise en forøgelse af den generelle intelligens med de nuværende test. Øget intelligens er imidlertid et værdigt mål, som kan opnås ved hjælp af interventioner baseret på sofistikerede neurovidenskabelige fremskridt inden for DNA-analyse, neuroimaging, psykofarmakologi og endog direkte hjernestimulering (Haier, 2009, 2013; Lozano og Lipsman, 2013; Santarnecchi et al., 2013; Legon et al., 2014). Udvikling af lige så sofistikerede forholdsmålinger af intelligens skal gå hånd i hånd med udvikling af lovende interventioner.