D’un côté, les tests d’intelligence sont l’une des grandes réussites de la psychologie (Hunt, 2011). Les scores des tests d’intelligence prédisent de nombreux phénomènes du monde réel et ont de nombreuses utilisations pratiques bien validées (Gottfredson, 1997 ; Deary et al., 2010). Les résultats des tests d’intelligence sont également corrélés à des paramètres cérébraux structurels et fonctionnels évalués par neuroimagerie (Haier et al., 1988 ; Jung et Haier, 2007 ; Deary et al., 2010 ; Penke et al., 2012 ; Colom et al., 2013a) et à des gènes (Posthuma et al., 2002 ; Hulshoff Pol et al., 2006 ; Chiang et al., 2009, 2012 ; Stein et al., 2012). D’autre part, les résultats des tests d’intelligence sont souvent mal compris et peuvent être mal utilisés. Cet article se concentre sur un malentendu de base qui imprègne de nombreux rapports récents sur l’augmentation de l’intelligence après un entraînement cognitif à court terme. Plusieurs de ces rapports ont été publiés dans des revues de premier plan et ont reçu une large attention du public (Jaeggi et al., 2008, 2011 ; Mackey et al., 2011).
Le malentendu de base consiste à supposer que les scores des tests d’intelligence sont des unités de mesure comme les pouces, les litres ou les grammes. Ce n’est pas le cas. Les pouces, les litres et les grammes sont des échelles de rapport où zéro signifie zéro et 100 unités sont deux fois 50 unités. Les résultats des tests d’intelligence évaluent une construction en utilisant des échelles d’intervalle et n’ont de sens que par rapport à d’autres personnes du même âge et du même sexe. Les personnes ayant des scores élevés obtiennent généralement de meilleurs résultats dans un large éventail de tests d’aptitude mentale, mais une personne ayant un QI de 130 n’est pas 30 % plus intelligente qu’une personne ayant un QI de 100. Un score de 130 place la personne dans les 2 % les plus élevés de la population, alors qu’un score de 100 se situe au 50e percentile. Un changement d’un score de QI de 100 à 103 n’est pas le même qu’un changement de 133 à 136. Cela rend impossible une interprétation simple des changements de score aux tests d’intelligence.
La plupart des études récentes qui ont affirmé une augmentation de l’intelligence après une intervention d’entraînement cognitif s’appuient sur la comparaison d’un score au test d’intelligence avant l’intervention à un second score après l’intervention. S’il y a une augmentation moyenne du score de changement pour le groupe d’entraînement qui est statistiquement significative (en utilisant un test t dépendant ou un test statistique similaire), cela est traité comme une preuve que l’intelligence a augmenté. Ce raisonnement est correct si l’on mesure des échelles de rapport comme les pouces, les litres ou les grammes avant et après une intervention (en supposant l’utilisation d’instruments appropriés et fiables comme des règles pour éviter les conclusions erronées du type Fusion Froide qui étaient apparemment basées sur une mesure défectueuse de la chaleur) ; il n’est pas correct pour les résultats des tests d’intelligence sur des échelles d’intervalle qui ne font qu’estimer un ordre de classement relatif plutôt que de mesurer le concept d’intelligence. Même si l’estimation a une valeur prédictive considérable et est corrélée à des mesures cérébrales et génétiques, il ne s’agit pas d’une mesure de la même manière que nous mesurons la distance, le liquide ou le poids, même si les scores de changement individuels sont utilisés dans un design pré-post.
Les scores SAT, par exemple, sont fortement corrélés aux scores des tests d’intelligence (Frey et Detterman, 2004). Imaginez qu’un étudiant passe les SATs alors qu’il est très malade. Les résultats sont probablement une mauvaise estimation des capacités de l’élève. Si l’élève repasse le test un peu plus tard, alors qu’il est en bonne santé, l’augmentation de son score signifie-t-elle que son intelligence a augmenté ou que le nouveau score est simplement une meilleure estimation ? Il en va de même pour les changements de score à la suite de cours de préparation au SAT. De nombreux établissements d’enseignement supérieur et universités autorisent les candidats à soumettre plusieurs scores au SAT et le score le plus élevé a généralement le plus de poids ; il existe de nombreuses raisons fallacieuses pour les scores faibles, mais beaucoup moins pour les scores élevés. Les changements de notes, de la plus basse à la plus haute, ont peu de poids, voire aucun. En revanche, le changement de poids d’une personne après une intervention est sans ambiguïté.
Dans les études sur l’effet de l’entraînement cognitif sur l’intelligence, il est également important de comprendre que tous les scores des tests d’intelligence comprennent une certaine quantité d’imprécision ou d’erreur. C’est ce qu’on appelle l’erreur standard de mesure et elle peut être quantifiée comme une estimation d’un score « vrai » basée sur les scores observés. L’erreur standard de mesure des pouces ou des litres est généralement nulle, en supposant que vous disposez d’appareils de mesure standard parfaitement fiables. Les tests d’intelligence présentent généralement une fiabilité test-retest élevée, mais ils comportent également une erreur standard, et celle-ci est souvent plus importante pour les scores élevés que pour les scores faibles. Tout changement de score à un test d’intelligence après une intervention doit être considéré par rapport à l’erreur standard du test. Les études qui utilisent un seul test pour estimer l’intelligence avant et après une intervention utilisent des scores moins fiables et plus variables (erreurs standard plus grandes) que les études qui combinent les scores d’une batterie de tests.
Les scores de changement ne sont jamais faciles à interpréter et nécessitent des méthodes statistiques sophistiquées et des conceptions de recherche avec des groupes de contrôle appropriés. Si vous essayez une intervention de formation chez des individus qui ont tous, avant l’intervention, des scores inférieurs à la moyenne de la population, par exemple, un nouveau test, avec ou sans intervention, peut entraîner des scores plus élevés en raison du phénomène statistique de régression à la moyenne, ou en raison de la simple pratique du test, en particulier si des formes alternatives équivalentes du test ne sont pas utilisées. Les plans quasi-expérimentaux, comme le post-test uniquement, avec de grands échantillons et une affectation aléatoire, ne présentent pas les mêmes difficultés d’interprétation que les plans pré-post. Ils sont prometteurs mais la plupart des évaluateurs sont plus enclins à valoriser les changements pré-post. Les techniques de variables latentes évitent également bon nombre des difficultés des changements d’échelle d’intervalle pré-post et elles sont prometteuses dans les grands échantillons (Ferrer et McArdle, 2010).
Lorsque les scores de changement sont utilisés, il est important d’identifier les différences individuelles même au sein d’un groupe où le score de changement moyen augmente statistiquement après une intervention. Imaginez qu’un groupe de 100 étudiants reçoive une formation cognitive et que 100 autres reçoivent une intervention de contrôle. Le score de changement moyen dans le groupe de formation peut statistiquement montrer une plus grande augmentation que les contrôles. Sur les 100 personnes qui ont reçu la formation, combien affichent réellement une augmentation ? Sont-ils différents des individus du même groupe qui n’ont pas connu d’augmentation ? L’analyse des items montre-t-elle si l’augmentation des scores est due davantage aux items faciles ou difficiles du test ? Qu’en est-il des individus du groupe de contrôle qui présentent des augmentations de score aussi importantes que celles observées dans le groupe de formation ? Si les 200 participants reçoivent tous la même formation, l’ordre de classement des individus en fonction du score post-formation sera-t-il différent de l’ordre de classement en fonction du score pré-formation ? Si ce n’est pas le cas, qu’est-ce qui a été accompli ? La plupart des études ne rapportent pas de telles analyses, bien que des études plus récentes sur la formation abordent les questions de l’évaluation de l’intelligence par des mesures multiples et des différences individuelles (Colom et al., 2013b ; Jaeggi et al., 2013). Burgaleta et al fournissent un bon exemple pour montrer les changements de QI sujet par sujet (Burgaleta et al., 2014).
Néanmoins, le point principal est que pour faire l’argument le plus convaincant que l’intelligence augmente après une intervention, une échelle de rapport de l’intelligence est nécessaire. Aucune n’existe encore et des progrès significatifs pourraient nécessiter une nouvelle façon de définir l’intelligence basée sur des variables mesurables du cerveau ou du traitement de l’information. Par exemple, la densité de la matière grise et de la matière blanche dans des régions spécifiques du cerveau, évaluée par imagerie et exprimée sous la forme d’un profil de scores standard basés sur un groupe normatif, pourrait remplacer les scores des tests d’intelligence (Haier, 2009). Les travaux d’Engle et de ses collègues suggèrent que la capacité de la mémoire de travail et la vitesse de perception sont des moyens possibles d’évaluer l’intelligence fluide (Broadway et Engle, 2010 ; Redick et al., 2012) en se basant sur un grand nombre de recherches qui montrent qu’une vitesse de traitement mental plus rapide et une capacité de mémoire accrue sont liées à une intelligence plus élevée.
Jensen a beaucoup écrit sur une évolution de la psychométrie vers la » chronométrie » mentale – l’utilisation du temps de réponse en millisecondes pour mesurer le traitement de l’information de manière standard (Jensen, 2006). Il a fait valoir que le concept d’intelligence pourrait être remplacé par des mesures de la vitesse de traitement de l’information sur une échelle de rapport, évaluées au cours de tâches cognitives normalisées comme le paradigme de Hick. De telles mesures permettraient, par exemple, de faire avancer la recherche sur la neurophysiologie sous-jacente de la vitesse mentale et pourraient conduire à une définition plus avancée de l’intelligence. Jensen a conclu son livre sur la chronométrie par cet appel à l’action : « … la chronométrie fournit aux sciences du comportement et du cerveau une échelle absolue universelle permettant d’obtenir des mesures très sensibles et fréquemment répétables des performances d’un individu dans des tâches cognitives spécialement conçues. Son heure est venue. Mettons-nous au travail ! » (p. 246).
C’est un formidable défi et une priorité majeure pour les chercheurs en intelligence. La collaboration entre les psychométriciens et les psychologues cognitifs sera essentielle. Il y a maintenant un certain nombre d’études qui ne parviennent pas à reproduire les affirmations d’une intelligence accrue après l’entraînement de la mémoire à court terme et diverses raisons sont proposées (Colom et al., 2013b ; Harrison et al., 2013). Étant donné l’étroitesse de notre propos ici, nous notons qu’un échec de réplication a également évalué la capacité de la mémoire de travail et la vitesse de perception ; aucun effet de transfert n’a été trouvé (Redick et al., 2013) et il y a des raisons de suggérer que d’autres études de transfert positif pourraient être erronées (Tidwell et al., 2013). Pour l’instant, les résultats de l’entraînement cognitif sont plus incohérents que non, en particulier pour les augmentations putatives de l’intelligence. Néanmoins, il est encourageant que les chercheurs cognitifs travaillent sur ces questions malgré une indifférence ou une négativité omniprésente à l’égard de la recherche sur l’intelligence en psychologie en général et pour de nombreux organismes de financement.
Dans un contexte plus large, l’intelligence comprend plus d’une composante. Cependant, le construit d’intérêt est généralement défini par des méthodes psychométriques comme un facteur général commun à toutes les capacités mentales appelé le facteur g (Jensen, 1998). L’intelligence fluide, qui fait l’objet de plusieurs études sur l’entraînement cognitif, est l’un des facteurs généraux de l’intelligence et elle est fortement corrélée au facteur g. Le facteur g est estimé par les tests d’intelligence mais il n’est pas synonyme de QI ou de tout autre résultat de test ; certains tests sont plus chargés en g que d’autres. Comme nous l’avons indiqué, un score obtenu à un test d’intelligence n’a guère de sens s’il n’est pas comparé aux scores d’autres personnes. C’est la raison pour laquelle tous les tests d’intelligence nécessitent des groupes normatifs à des fins de comparaison et que les groupes normatifs doivent être mis à jour périodiquement, comme le démontre l’effet Flynn d’augmentation progressive des scores des tests d’intelligence d’une génération à l’autre ; bien que la question de savoir si g présente l’effet Flynn ne soit toujours pas résolue (te Nijenhuis et van der Flier, 2013). Les estimations psychométriques de g et d’autres facteurs d’intelligence ont généré de solides conclusions empiriques sur la nature de l’intelligence et des différences individuelles, principalement basées sur des études de corrélation. Ces évaluations d’intervalle ne sont toutefois pas suffisantes pour faire passer la recherche à l’étape suivante des interventions expérimentales visant à augmenter l’intelligence.
Parlant de la science, Carl Sagan a observé que les revendications extraordinaires nécessitent des preuves extraordinaires. Jusqu’à présent, nous ne les avons pas pour les affirmations concernant l’augmentation de l’intelligence après un entraînement cognitif ou, d’ailleurs, toute autre manipulation ou traitement, y compris l’éducation de la petite enfance. De petits changements statistiquement significatifs dans les résultats des tests peuvent être des observations importantes sur l’attention ou la mémoire ou une autre variable cognitive élémentaire ou une capacité mentale spécifique évaluée avec une échelle de rapport comme les millisecondes, mais ils ne sont pas une preuve suffisante que l’intelligence générale a changé. Comme dans toutes les branches de la science, les progrès dépendent de mesures toujours plus sophistiquées qui permettent d’obtenir des définitions plus précises – pensez à l’évolution de la définition d’un « gène » ou d’un « atome ». Même avec des techniques d’évaluation sophistiquées basées sur des intervalles (Ferrer et McArdle, 2010), tant que nous n’aurons pas de meilleures mesures, en particulier des échelles de rapport, nous devons reconnaître le problème de mesure de base et faire preuve d’une grande retenue lorsque nous faisons état d’augmentations ou de diminutions putatives de l’intelligence.
À l’avenir, il pourrait y avoir de solides justifications empiriques pour dépenser de grandes sommes d’argent dans la formation cognitive ou d’autres interventions visant à améliorer des capacités mentales spécifiques ou la réussite scolaire (en plus des arguments moraux convaincants pour le faire), mais l’augmentation de l’intelligence générale est assez difficile à démontrer avec les tests actuels. L’augmentation de l’intelligence est cependant un objectif louable qui pourrait être atteint par des interventions basées sur les progrès sophistiqués des neurosciences en matière d’analyse de l’ADN, de neuro-imagerie, de psychopharmacologie et même de stimulation cérébrale directe (Haier, 2009, 2013 ; Lozano et Lipsman, 2013 ; Santarnecchi et al., 2013 ; Legon et al., 2014). La mise au point d’une mesure du rapport de l’intelligence tout aussi sophistiquée doit aller de pair avec le développement d’interventions prometteuses.