Einerseits sind Intelligenztests einer der großen Erfolge der Psychologie (Hunt, 2011). Intelligenztestergebnisse sagen viele Phänomene der realen Welt voraus und haben viele gut validierte praktische Anwendungen (Gottfredson, 1997; Deary et al., 2010). Intelligenztestergebnisse korrelieren auch mit strukturellen und funktionellen Gehirnparametern, die mit Hilfe von Neuroimaging untersucht wurden (Haier et al., 1988; Jung und Haier, 2007; Deary et al., 2010; Penke et al., 2012; Colom et al., 2013a) und mit Genen (Posthuma et al., 2002; Hulshoff Pol et al., 2006; Chiang et al., 2009, 2012; Stein et al., 2012). Andererseits werden Intelligenztestergebnisse oft missverstanden und können missbraucht werden. Der vorliegende Beitrag befasst sich mit einem grundlegenden Missverständnis, das sich durch viele der jüngsten Berichte über eine gesteigerte Intelligenz nach kurzfristigem kognitivem Training zieht. Mehrere dieser Berichte wurden in renommierten Fachzeitschriften veröffentlicht und fanden in der Öffentlichkeit große Beachtung (Jaeggi et al., 2008, 2011; Mackey et al., 2011).
Das grundlegende Missverständnis besteht in der Annahme, dass Intelligenztestergebnisse Maßeinheiten wie Zoll oder Liter oder Gramm sind. Das sind sie nicht. Zentimeter, Liter und Gramm sind Verhältnisskalen, bei denen Null gleich Null ist und 100 Einheiten zweimal 50 Einheiten sind. Intelligenztestergebnisse schätzen ein Konstrukt mit Hilfe von Intervallskalen und haben nur eine Bedeutung im Vergleich zu anderen Menschen desselben Alters und Geschlechts. Menschen mit hohen Werten schneiden im Allgemeinen bei einer Vielzahl von Intelligenztests besser ab, aber jemand mit einem IQ-Wert von 130 ist nicht 30 % klüger als jemand mit einem IQ-Wert von 100. Mit einem IQ-Wert von 130 gehört die Person zu den höchsten 2 % der Bevölkerung, während ein IQ-Wert von 100 dem 50sten Perzentil entspricht. Eine Veränderung eines IQ-Wertes von 100 auf 103 ist nicht dasselbe wie eine Veränderung von 133 auf 136. Dies macht eine einfache Interpretation der Veränderungen bei Intelligenztests unmöglich.
Die meisten neueren Studien, die einen Anstieg der Intelligenz nach einer kognitiven Trainingsmaßnahme festgestellt haben, stützen sich auf den Vergleich eines Intelligenztests vor der Maßnahme mit einem zweiten Test nach der Maßnahme. Wenn die durchschnittliche Veränderung der Punktzahl in der Trainingsgruppe statistisch signifikant ist (unter Verwendung eines abhängigen t-Tests oder eines ähnlichen statistischen Tests), wird dies als Beweis dafür angesehen, dass die Intelligenz gestiegen ist. Diese Argumentation ist korrekt, wenn man vor und nach einer Intervention Verhältnismaße wie Zoll, Liter oder Gramm misst (unter der Voraussetzung geeigneter und zuverlässiger Instrumente wie Lineale, um falsche Schlussfolgerungen im Sinne der Kalten Fusion zu vermeiden, die offensichtlich auf einer fehlerhaften Wärmemessung beruhten); sie ist nicht korrekt für Intelligenztestergebnisse auf Intervallskalen, die nur eine relative Rangordnung schätzen und nicht das Konstrukt der Intelligenz messen. Auch wenn die Schätzung einen beträchtlichen Vorhersagewert hat und mit Gehirn- und genetischen Messwerten korreliert, handelt es sich nicht um eine Messung in der gleichen Art und Weise, wie wir Entfernungen, Flüssigkeit oder Gewicht messen, selbst wenn individuelle Veränderungswerte in einem Prä-Post-Design verwendet werden.
SAT-Ergebnisse zum Beispiel sind hoch mit Intelligenztestergebnissen korreliert (Frey und Detterman, 2004). Stellen Sie sich vor, ein Schüler nimmt an den SATs teil, obwohl er sehr krank ist. Die Ergebnisse sind wahrscheinlich eine schlechte Einschätzung der Fähigkeiten des Schülers. Wenn der Schüler den Test zu einem späteren Zeitpunkt wiederholt, wenn es ihm gut geht, bedeutet dann eine höhere Punktzahl, dass die Intelligenz des Schülers zugenommen hat, oder dass die neue Punktzahl jetzt einfach eine bessere Schätzung ist? Das Gleiche gilt für Veränderungen der Punktzahl nach SAT-Vorbereitungskursen. Viele Colleges und Universitäten erlauben es den Bewerbern, mehrere SAT-Ergebnisse einzureichen, und das höchste Ergebnis hat in der Regel das meiste Gewicht; es gibt viele fadenscheinige Gründe für niedrige Ergebnisse, aber weit weniger für hohe Ergebnisse. Eine Veränderung der Punktzahl von der niedrigsten zur höchsten Punktzahl hat wenig bis gar kein Gewicht. Im Gegensatz dazu ist die Veränderung des Gewichts einer Person nach einer Intervention eindeutig.
Bei Studien über die Auswirkung von kognitivem Training auf die Intelligenz ist es auch wichtig zu verstehen, dass alle Intelligenztestergebnisse einen gewissen Grad an Ungenauigkeit oder Fehler enthalten. Dieser wird als Standardmessfehler bezeichnet und kann als Schätzung eines „wahren“ Ergebnisses auf der Grundlage der beobachteten Ergebnisse quantifiziert werden. Der Standardfehler beim Messen von Zentimetern oder Litern ist in der Regel gleich Null, wenn man davon ausgeht, dass man über absolut zuverlässige, standardisierte Messgeräte verfügt. Intelligenztests weisen in der Regel eine hohe Test-Retest-Zuverlässigkeit auf, aber auch sie haben einen Standardfehler, der bei höheren Werten oft größer ist als bei niedrigeren. Jede Veränderung des Intelligenztestergebnisses nach einer Intervention muss im Verhältnis zum Standardfehler des Tests betrachtet werden. Studien, die einen einzigen Test verwenden, um die Intelligenz vor und nach einer Intervention zu schätzen, verwenden weniger zuverlässige und variablere Ergebnisse (größere Standardfehler) als Studien, die Ergebnisse aus einer Reihe von Tests kombinieren.
Veränderungsergebnisse sind nie einfach zu interpretieren und erfordern ausgefeilte statistische Methoden und Forschungsdesigns mit geeigneten Kontrollgruppen. Wenn Sie beispielsweise eine Trainingsmaßnahme an Personen ausprobieren, deren Ergebnisse vor der Maßnahme unter dem Bevölkerungsdurchschnitt liegen, kann ein erneuter Test mit oder ohne Maßnahme aufgrund des statistischen Phänomens der Regression zum Mittelwert oder aufgrund einfacher Testpraxis zu höheren Ergebnissen führen, insbesondere wenn keine gleichwertigen alternativen Formen des Tests verwendet werden. Quasi-experimentelle Designs wie Post-Tests mit großen Stichproben und zufälliger Zuweisung haben nicht dieselben Interpretationsprobleme wie Prä-Post-Designs. Sie sind vielversprechend, aber die meisten Gutachter neigen eher dazu, Veränderungen vor und nach dem Test zu bewerten. Techniken mit latenten Variablen vermeiden ebenfalls viele der Schwierigkeiten von Prä-Post-Änderungen auf Intervallskalen und sind bei großen Stichproben vielversprechend (Ferrer und McArdle, 2010).
Wenn Veränderungswerte verwendet werden, ist es wichtig, individuelle Unterschiede zu identifizieren, selbst innerhalb einer Gruppe, in der sich der durchschnittliche Veränderungswert nach einer Intervention statistisch erhöht. Stellen Sie sich vor, eine Gruppe von 100 Schülern erhält ein kognitives Training und 100 andere erhalten eine Kontrollintervention. Der mittlere Veränderungswert in der Trainingsgruppe könnte statistisch gesehen einen größeren Anstieg aufweisen als der der Kontrollgruppe. Wie viele der 100 Personen, die das Training erhalten haben, weisen tatsächlich eine Verbesserung auf? Unterscheiden sie sich in irgendeiner Weise von den Personen in derselben Gruppe, die keine Verbesserung aufweisen? Zeigt die Item-Analyse, ob die höheren Punktzahlen eher auf leichte oder auf schwere Testaufgaben zurückzuführen sind? Was ist mit den Personen in der Kontrollgruppe, die einen ebenso großen Anstieg der Veränderungswerte aufweisen wie die Teilnehmer der Trainingsgruppe? Wenn alle 200 Teilnehmer letztendlich das gleiche Training erhalten, wird sich die Rangfolge der Personen auf der Grundlage der Ergebnisse nach dem Training von der Rangfolge auf der Grundlage der Ergebnisse vor dem Training unterscheiden? Wenn nicht, was wurde dann erreicht? Die meisten Studien berichten nicht über solche Analysen, obwohl neuere Trainingsstudien sich mit Fragen der Mehrfachmessung von Intelligenz und individuellen Unterschieden befassen (Colom et al., 2013b; Jaeggi et al., 2013). Burgaleta et al. liefern ein gutes Beispiel für den Nachweis von IQ-Änderungen bei einzelnen Probanden (Burgaleta et al., 2014).
Der wichtigste Punkt ist jedoch, dass für ein überzeugendes Argument, dass die Intelligenz nach einer Intervention zunimmt, eine Quotienten-Skala der Intelligenz erforderlich ist. Bisher gibt es keine, und ein sinnvoller Fortschritt könnte eine neue Art der Definition von Intelligenz erfordern, die auf messbaren Variablen des Gehirns oder der Informationsverarbeitung beruht. So könnte beispielsweise die Dichte der grauen und weißen Substanz in bestimmten Hirnregionen, die mit bildgebenden Verfahren gemessen und als Profil von Standardwerten auf der Grundlage einer normativen Gruppe ausgedrückt wird, die Ergebnisse von Intelligenztests ersetzen (Haier, 2009). Die Arbeit von Engle und Kollegen legt nahe, dass die Kapazität des Arbeitsgedächtnisses und die Wahrnehmungsgeschwindigkeit mögliche Wege sind, um die fluide Intelligenz zu bewerten (Broadway und Engle, 2010; Redick et al., 2012), basierend auf einer Vielzahl von Forschungsergebnissen, die zeigen, dass eine schnellere mentale Verarbeitungsgeschwindigkeit und eine höhere Gedächtniskapazität mit höherer Intelligenz zusammenhängen.
Jensen hat ausführlich über eine Entwicklung von der Psychometrie zur mentalen „Chronometrie“ geschrieben – die Verwendung der Reaktionszeit in Millisekunden, um die Informationsverarbeitung auf eine standardisierte Weise zu messen (Jensen, 2006). Er argumentiert, dass das Konstrukt der Intelligenz zugunsten von Ratio-Skalen zur Messung der Geschwindigkeit der Informationsverarbeitung ersetzt werden könnte, die bei standardisierten kognitiven Aufgaben wie dem Hick-Paradigma gemessen werden. Solche Messungen würden beispielsweise dazu beitragen, die Forschung über die zugrunde liegende Neurophysiologie der geistigen Geschwindigkeit voranzutreiben, und könnten zu einer fortschrittlicheren Definition von Intelligenz führen. Jensen schließt sein Buch über Chronometrie mit diesem Aufruf zum Handeln: „… die Chronometrie stellt den Verhaltens- und Gehirnwissenschaften eine universelle absolute Skala zur Verfügung, um hochempfindliche und häufig wiederholbare Messungen der Leistung einer Person bei speziell entwickelten kognitiven Aufgaben zu erhalten. Ihre Zeit ist gekommen. Let’s get to work!“ (S. 246).
Dies ist eine gewaltige Herausforderung und eine wichtige Priorität für Intelligenzforscher. Die Zusammenarbeit zwischen Psychometrikern und kognitiven Psychologen wird entscheidend sein. Es gibt inzwischen eine Reihe von Studien, die die Behauptungen über eine gesteigerte Intelligenz nach einem Kurzzeitgedächtnistraining nicht widerlegen können, und es werden verschiedene Gründe dafür vorgeschlagen (Colom et al., 2013b; Harrison et al., 2013). In Anbetracht unseres engen Fokus hier stellen wir fest, dass in einer Studie, in der die Ergebnisse nicht repliziert werden konnten, auch die Kapazität des Arbeitsgedächtnisses und die Wahrnehmungsgeschwindigkeit untersucht wurden; es wurden keine Transfereffekte gefunden (Redick et al., 2013), und es gibt Grund zu der Annahme, dass andere positive Transferstudien fehlerhaft sein könnten (Tidwell et al., 2013). Bislang sind die Ergebnisse des kognitiven Trainings eher widersprüchlich, insbesondere was die vermeintliche Steigerung der Intelligenz betrifft. Nichtsdestotrotz ist es ermutigend, dass Kognitionsforscher an diesen Themen arbeiten, obwohl die Intelligenzforschung in der Psychologie im Allgemeinen und bei vielen Geldgebern auf Gleichgültigkeit oder Ablehnung stößt.
In einem breiteren Kontext umfasst Intelligenz mehr als eine Komponente. Das interessierende Konstrukt wird jedoch in der Regel durch psychometrische Methoden als ein allgemeiner Faktor definiert, der allen geistigen Fähigkeiten gemeinsam ist und als g-Faktor bezeichnet wird (Jensen, 1998). Die fluide Intelligenz, die im Mittelpunkt mehrerer Studien zum kognitiven Training steht, ist einer von mehreren allgemeinen Intelligenzfaktoren, der in hohem Maße mit g korreliert. Der g-Faktor wird durch Intelligenztests geschätzt, ist jedoch nicht gleichbedeutend mit dem IQ oder einem anderen Testergebnis; einige Tests sind stärker g-lastig als andere. Wie bereits erwähnt, ist das Ergebnis eines Intelligenztests wenig aussagekräftig, wenn es nicht mit den Ergebnissen anderer Personen verglichen wird. Aus diesem Grund werden für alle Intelligenztests normative Vergleichsgruppen benötigt, die in regelmäßigen Abständen aktualisiert werden müssen, wie der Flynn-Effekt zeigt, bei dem die Ergebnisse von Intelligenztests von Generation zu Generation ansteigen; ob g den Flynn-Effekt zeigt, ist jedoch noch nicht geklärt (te Nijenhuis und van der Flier, 2013). Psychometrische Schätzungen von g und anderen Intelligenzfaktoren haben zu aussagekräftigen empirischen Erkenntnissen über die Art der Intelligenz und individuelle Unterschiede geführt, die meist auf Korrelationsstudien beruhen. Diese Intervallbewertungen reichen jedoch nicht aus, um die Forschung zum nächsten Schritt zu führen, nämlich zu experimentellen Interventionen zur Steigerung der Intelligenz.
Als Carl Sagan über die Wissenschaft sprach, bemerkte er, dass außergewöhnliche Behauptungen außergewöhnliche Beweise erfordern. Bisher haben wir keine Beweise für Behauptungen über die Steigerung der Intelligenz nach kognitivem Training oder anderen Manipulationen oder Behandlungen, einschließlich frühkindlicher Erziehung. Kleine statistisch signifikante Veränderungen in den Testergebnissen können wichtige Beobachtungen über Aufmerksamkeit oder Gedächtnis oder eine andere elementare kognitive Variable oder eine spezifische geistige Fähigkeit sein, die mit einer Verhältnisskala wie Millisekunden bewertet wird, aber sie sind kein ausreichender Beweis dafür, dass sich die allgemeine Intelligenz verändert hat. Wie in allen Bereichen der Wissenschaft hängt der Fortschritt von immer ausgefeilteren Messungen ab, die zu immer präziseren Definitionen führen – man denke nur an die Entwicklung der Definitionen für ein „Gen“ oder ein „Atom“. Selbst mit ausgefeilten intervallbasierten Bewertungsmethoden (Ferrer und McArdle, 2010) müssen wir, solange wir nicht über bessere Messverfahren, insbesondere Ratio-Skalen, verfügen, das grundsätzliche Messproblem anerkennen und große Zurückhaltung üben, wenn wir über vermeintliche Intelligenzsteigerungen oder -minderungen berichten.
In der Zukunft mag es starke empirische Gründe dafür geben, große Geldsummen für kognitives Training oder andere Interventionen auszugeben, die auf die Verbesserung spezifischer geistiger Fähigkeiten oder schulischer Leistungen abzielen (zusätzlich zu den zwingenden moralischen Argumenten dafür), aber eine Steigerung der allgemeinen Intelligenz lässt sich mit den derzeitigen Tests nur schwer nachweisen. Die Steigerung der Intelligenz ist jedoch ein erstrebenswertes Ziel, das durch Interventionen erreicht werden könnte, die auf hochentwickelten neurowissenschaftlichen Fortschritten in den Bereichen DNA-Analyse, Neuroimaging, Psychopharmakologie und sogar direkter Hirnstimulation basieren (Haier, 2009, 2013; Lozano und Lipsman, 2013; Santarnecchi et al., 2013; Legon et al., 2014). Die Entwicklung einer ebenso ausgefeilten Verhältnismessung der Intelligenz muss Hand in Hand mit der Entwicklung vielversprechender Interventionen gehen.