Å ena sidan är intelligenstest en av psykologins stora framgångar (Hunt, 2011). Intelligenstestresultat förutspår många fenomen i den verkliga världen och har många väl validerade praktiska användningsområden (Gottfredson, 1997; Deary et al., 2010). Intelligenstestresultat korrelerar också med strukturella och funktionella hjärnparametrar som bedöms med neuroimaging (Haier et al., 1988; Jung och Haier, 2007; Deary et al., 2010; Penke et al., 2012; Colom et al., 2013a) och med gener (Posthuma et al., 2002; Hulshoff Pol et al., 2006; Chiang et al., 2009, 2012; Stein et al., 2012). Å andra sidan missförstås ofta resultat från intelligenstest och kan missbrukas. Denna artikel fokuserar på ett grundläggande missförstånd som genomsyrar många av de senaste rapporterna om ökad intelligens efter kortvarig kognitiv träning. Flera av dessa rapporter har publicerats i framstående tidskrifter och fått stor allmän uppmärksamhet (Jaeggi et al., 2008, 2011; Mackey et al., 2011).
Det grundläggande missförståndet är att man utgår från att intelligenstestresultat är måttenheter som tum, liter eller gram. Det är de inte. Tum, liter och gram är kvotskalor där noll betyder noll och 100 enheter är två gånger 50 enheter. Intelligenstestresultat uppskattar en konstruktion med hjälp av intervallskalor och har endast betydelse i förhållande till andra personer av samma ålder och kön. Personer med höga poäng klarar sig i allmänhet bättre på ett brett spektrum av tester av mentala förmågor, men en person med en IQ-poäng på 130 är inte 30 % smartare än en person med en IQ-poäng på 100. Ett resultat på 130 placerar personen bland de högsta 2 % av befolkningen, medan ett resultat på 100 ligger på den 50:e percentilen. En förändring av en IQ-poäng från 100 till 103 är inte samma sak som en förändring från 133 till 136. Detta gör en enkel tolkning av förändringar i intelligenstestresultat omöjlig.
De flesta nyare studier som har hävdat ökningar av intelligensen efter en kognitiv träningsintervention bygger på en jämförelse mellan ett intelligenstestresultat före interventionen och ett andra resultat efter interventionen. Om det finns en genomsnittlig ökning av förändringspoängen för träningsgruppen som är statistiskt signifikant (med hjälp av ett beroende t-test eller ett liknande statistiskt test), behandlas detta som ett bevis för att intelligensen har ökat. Detta resonemang är korrekt om man mäter kvotskalor som tum, liter eller gram före och efter en åtgärd (om man antar lämpliga och tillförlitliga instrument som linjaler för att undvika felaktiga kallfusionsliknande slutsatser som uppenbarligen baserades på felaktiga värmemätningar). Även om uppskattningen har ett betydande prediktivt värde och korrelerar med hjärn- och genetiska mått är det inte en mätning på samma sätt som vi mäter avstånd, vätska eller vikt, även om individuella förändringsresultat används i en pre-post-design.
SAT-poäng är till exempel starkt korrelerade med resultat från intelligenstester (Frey och Detterman, 2004). Föreställ dig att en elev tar SAT-testet när han eller hon är ganska sjuk. Poängen är sannolikt en dålig uppskattning av elevens förmåga. Om eleven gör om testet någon gång senare när han eller hon är frisk, betyder en ökning av poängen att elevens intelligens har ökat, eller att den nyare poängen nu bara är en bättre uppskattning? Samma sak gäller för resultatförändringar efter förberedelsekurser för SAT. Många högskolor och universitet tillåter sökande att lämna in flera SAT-poäng och den högsta poängen väger vanligen tyngst; det finns många falska skäl för låga poäng men betydligt färre för höga poäng. Ändring av poäng från lägsta till högsta poäng har liten, om ens någon, vikt. Däremot är förändring av en persons vikt efter någon intervention otvetydig.
I studier av effekten av kognitiv träning på intelligens är det också viktigt att förstå att alla resultat från intelligenstest innehåller ett visst mått av oprecision eller fel. Detta kallas standardfel vid mätning och kan kvantifieras som en uppskattning av ett ”sant” resultat baserat på observerade resultat. Standardfelet vid mätning av tum eller liter är vanligtvis noll om man antar att man har helt tillförlitliga, standardiserade mätinstrument. Intelligenstest uppvisar i allmänhet en hög test-retest-tillförlitlighet, men de har också ett standardfel, och standardfelet är ofta större för högre poäng än för lägre poäng. Varje förändring i resultatet av ett intelligenstest efter ett ingripande måste beaktas i förhållande till testets standardfel. Studier som använder ett enda test för att uppskatta intelligens före och efter en intervention använder mindre tillförlitliga och mer varierande resultat (större standardfel) än studier som kombinerar resultat från ett batteri av test.
Förändringspoäng är aldrig lätta att tolka och kräver sofistikerade statistiska metoder och forskningsdesigns med lämpliga kontrollgrupper. Om du till exempel prövar en utbildningsinsats på individer som alla har resultat före insatsen som ligger under befolkningsgenomsnittet, kan ett nytt test med eller utan någon insats resultera i högre resultat på grund av det statistiska fenomenet regression till medelvärdet eller på grund av enkel testpraxis, särskilt om likvärdiga alternativa former av testet inte används. Kvasiexperimentella konstruktioner som posttest med stora urval och slumpmässig tilldelning har inte samma tolkningssvårigheter som pre-postkonstruktioner. De är lovande, men de flesta granskare är mer benägna att värdera förändringar före och efter. Tekniker med latenta variabler undviker också många av svårigheterna med ändringar av intervallskalor före och efter och de är lovande i stora urval (Ferrer och McArdle, 2010).
När förändringsresultat används är det viktigt att identifiera individuella skillnader även inom en grupp där det genomsnittliga förändringsresultatet statistiskt sett ökar efter en intervention. Föreställ dig att en grupp på 100 elever fick kognitiv träning och 100 andra fick någon kontrollintervention. Den genomsnittliga förändringspoängen i träningsgruppen kan statistiskt sett visa en större ökning än kontrollgrupperna. Hur många av de 100 personer som fick utbildning visar faktiskt en ökning? Skiljer de sig på något sätt från de individer i samma grupp som inte uppvisar någon ökning? Visar analysen av uppgifterna om de ökade resultaten beror mer på enkla eller svåra provuppgifter? Hur är det med de individer i kontrollgruppen som uppvisar lika stora ökningar av förändringspoängen som de som uppvisades i utbildningsgruppen? Om alla 200 deltagare i slutändan får samma utbildning, kommer rangordningen av individer baserat på poängen efter utbildningen att skilja sig från rangordningen baserat på poängen före utbildningen? Om inte, vad har då uppnåtts? De flesta studier rapporterar inte sådana analyser, även om nyare utbildningsstudier tar upp frågor om bedömning av intelligens med flera mått och individuella skillnader (Colom et al., 2013b; Jaeggi et al., 2013). Burgaleta et al. ger ett bra exempel på att visa IQ-förändringar ämne för ämne (Burgaleta et al., 2014).
Huvudpoängen är ändå att för att få fram det mest övertygande argumentet om att intelligensen ökar efter en intervention krävs en kvotskala för intelligens. Någon sådan finns ännu inte och meningsfulla framsteg kan kräva ett nytt sätt att definiera intelligens baserat på mätbara variabler för hjärnan eller informationsbearbetning. Till exempel kan täthet av grå och vit substans i specifika hjärnregioner som bedöms genom avbildning och uttrycks som en profil av standardpoäng baserade på en normativ grupp ersätta poäng från intelligenstest (Haier, 2009). Engle och kollegors arbete tyder på att arbetsminneskapacitet och perceptuell snabbhet är möjliga sätt att bedöma flytande intelligens (Broadway och Engle, 2010; Redick et al., 2012) baserat på en stor mängd forskning som visar att snabbare mental bearbetningshastighet och ökad minneskapacitet är relaterade till högre intelligens.
Jensen har skrivit utförligt om en utveckling från psykometri till mental ”kronometri” – användningen av svarstid i millisekunder för att mäta informationsbearbetning på ett standardiserat sätt (Jensen, 2006). Han hävdade att intelligenskonstruktionen kan ersättas till förmån för kvotskalamått på hastigheten i informationsbearbetningen som bedöms under standardiserade kognitiva uppgifter som Hick-paradigmet. Sådana mått skulle till exempel bidra till att främja forskningen om den underliggande neurofysiologin för mental hastighet och skulle kunna leda till en mer avancerad definition av intelligens. Jensen avslutade sin bok om kronometri med denna uppmaning till handling: ”Kronometri förser beteende- och hjärnvetenskaperna med en universell absolut skala för att erhålla mycket känsliga och ofta upprepningsbara mätningar av en individs prestationer vid särskilt utformade kognitiva uppgifter. Dess tid har kommit. Låt oss sätta igång!” (s. 246).
Detta är en formidabel utmaning och en viktig prioritering för intelligensforskare. Samarbete mellan psykometriker och kognitiva psykologer kommer att vara avgörande. Det finns nu ett antal studier som inte lyckas replikera påståendena om ökad intelligens efter träning av korttidsminnet och olika orsaker föreslås (Colom et al., 2013b; Harrison et al., 2013). Med tanke på vårt snäva fokus här noterar vi att ett misslyckande att replikera även bedömde arbetsminneskapacitet och perceptuell snabbhet; inga överföringseffekter hittades (Redick et al., 2013) och det finns anledning att anta att andra positiva överföringsstudier kan vara felaktiga (Tidwell et al., 2013). För närvarande är resultaten av kognitiv träning mer inkonsekventa än okonsekventa, särskilt när det gäller förmodade intelligensökningar. Icke desto mindre är det uppmuntrande att kognitiva forskare arbetar med dessa frågor trots en utbredd likgiltighet eller negativitet mot intelligensforskning inom psykologin i allmänhet och för många finansieringsorgan.
I ett bredare sammanhang omfattar intelligens mer än en komponent. Den konstrukt som är av intresse definieras dock vanligtvis med psykometriska metoder som en allmän faktor som är gemensam för alla mentala förmågor och som kallas g-faktorn (Jensen, 1998). Flytande intelligens, som står i fokus för flera studier av kognitiv träning, är en av flera breda intelligensfaktorer och den är starkt korrelerad med g. G-faktorn uppskattas av intelligenstester men är inte synonymt med IQ eller någon annan testpoäng; vissa tester är mer g-belastade än andra. Som nämnts har ett resultat på ett intelligenstest liten betydelse om det inte jämförs med andra personers resultat. Det är därför som alla intelligenstest kräver normativa grupper för jämförelse och varför normgrupper måste uppdateras med jämna mellanrum, vilket visas av Flynn-effekten av gradvisa generationsökningar i resultat på intelligenstest; även om huruvida g visar på Flynn-effekten är fortfarande oklart (te Nijenhuis och van der Flier, 2013). Psykometriska uppskattningar av g och andra intelligensfaktorer har genererat starka empiriska resultat om intelligensens natur och individuella skillnader, mestadels baserade på korrelationsstudier. Dessa intervallbedömningar är dock inte tillräckliga för att föra forskningen vidare till nästa steg med experimentella interventioner för att öka intelligensen.
Apropå vetenskap observerade Carl Sagan att extraordinära påståenden kräver extraordinära bevis. Hittills har vi inga sådana för påståenden om ökad intelligens efter kognitiv träning eller, för den delen, någon annan manipulation eller behandling, inklusive utbildning i tidig barndom. Små statistiskt signifikanta förändringar i testresultat kan vara viktiga observationer om uppmärksamhet eller minne eller någon annan elementär kognitiv variabel eller en specifik mental förmåga som bedöms med en kvotskala som millisekunder, men de är inte tillräckliga bevis för att den allmänna intelligensen har förändrats. Som inom alla vetenskapsgrenar är framstegen beroende av allt mer sofistikerade mätningar som leder till mer exakta definitioner – tänk på utvecklingen av definitionen av en ”gen” eller en ”atom”. Även med sofistikerade intervallbaserade bedömningsmetoder (Ferrer och McArdle, 2010) måste vi, tills vi har bättre mått, särskilt kvotskalor, erkänna det grundläggande mätproblemet och utöva riklig återhållsamhet när vi rapporterar om förmodade ökningar eller minskningar av intelligens.
I framtiden kan det finnas starka empiriska skäl för att spendera stora summor pengar på kognitiv träning eller andra interventioner som syftar till att förbättra specifika mentala förmågor eller skolprestationer (förutom de övertygande moraliska argumenten för att göra det), men att öka den generella intelligensen är ganska svårt att påvisa med nuvarande tester. Att öka intelligensen är dock ett värdigt mål som skulle kunna uppnås genom interventioner baserade på sofistikerade neurovetenskapliga framsteg inom DNA-analys, neuroimaging, psykofarmakologi och till och med direkt hjärnstimulering (Haier, 2009, 2013; Lozano och Lipsman, 2013; Santarnecchi et al., 2013; Legon et al., 2014). Utveckling av lika sofistikerade kvotmätningar av intelligens måste gå hand i hand med utveckling av lovande interventioner.