Por un lado, las pruebas de inteligencia son uno de los grandes éxitos de la psicología (Hunt, 2011). Las puntuaciones de los test de inteligencia predicen muchos fenómenos del mundo real y tienen muchos usos prácticos bien validados (Gottfredson, 1997; Deary et al., 2010). Las puntuaciones de los test de inteligencia también se correlacionan con parámetros estructurales y funcionales del cerebro evaluados con neuroimagen (Haier et al., 1988; Jung y Haier, 2007; Deary et al., 2010; Penke et al., 2012; Colom et al., 2013a) y con los genes (Posthuma et al., 2002; Hulshoff Pol et al., 2006; Chiang et al., 2009, 2012; Stein et al., 2012). Por otra parte, las puntuaciones de los test de inteligencia suelen ser malinterpretadas y pueden ser utilizadas de forma incorrecta. Este artículo se centra en un malentendido básico que impregna muchos de los informes recientes sobre el aumento de la inteligencia tras el entrenamiento cognitivo a corto plazo. Varios de estos informes se han publicado en revistas destacadas y han recibido una amplia atención pública (Jaeggi et al., 2008, 2011; Mackey et al., 2011).
El malentendido básico es asumir que las puntuaciones de los test de inteligencia son unidades de medida como las pulgadas o los litros o los gramos. No lo son. Las pulgadas, los litros y los gramos son escalas de proporción en las que cero significa cero y 100 unidades son el doble de 50 unidades. Las puntuaciones de los tests de inteligencia estiman un constructo utilizando escalas de intervalo y sólo tienen significado en relación con otras personas de la misma edad y sexo. Las personas con puntuaciones altas suelen obtener mejores resultados en una amplia gama de pruebas de capacidad mental, pero alguien con una puntuación de CI de 130 no es un 30% más inteligente que alguien con una puntuación de CI de 100. Una puntuación de 130 sitúa a la persona en el 2% más alto de la población, mientras que una puntuación de 100 está en el percentil 50. No es lo mismo un cambio de una puntuación de CI de 100 a 103 que un cambio de 133 a 136. Esto hace imposible la interpretación simple de los cambios en la puntuación de las pruebas de inteligencia.
La mayoría de los estudios recientes que han afirmado aumentos en la inteligencia después de una intervención de entrenamiento cognitivo se basan en la comparación de una puntuación de la prueba de inteligencia antes de la intervención con una segunda puntuación después de la intervención. Si hay un aumento de la puntuación de cambio promedio para el grupo de entrenamiento que es estadísticamente significativo (utilizando una prueba t dependiente o una prueba estadística similar), esto se trata como evidencia de que la inteligencia ha aumentado. Este razonamiento es correcto si se miden escalas de proporción como pulgadas, litros o gramos antes y después de una intervención (asumiendo instrumentos adecuados y fiables como reglas para evitar conclusiones erróneas tipo Cold Fusion que aparentemente se basaban en mediciones de calor defectuosas); no es correcto para las puntuaciones de pruebas de inteligencia en escalas de intervalo que sólo estiman un orden de rango relativo en lugar de medir el constructo de inteligencia. Aunque la estimación tiene un valor predictivo considerable y se correlaciona con medidas cerebrales y genéticas, no es una medida de la misma manera que medimos la distancia, el líquido o el peso, incluso si se utilizan las puntuaciones de cambio individuales en un diseño pre-post.
Las puntuaciones del SAT, por ejemplo, están altamente correlacionadas con las puntuaciones de las pruebas de inteligencia (Frey y Detterman, 2004). Imagínese que un estudiante realiza el SAT cuando está bastante enfermo. Las puntuaciones probablemente sean una mala estimación de la capacidad del estudiante. Si el alumno vuelve a hacer el examen algún tiempo después, cuando está bien, ¿significa un aumento de la puntuación que la inteligencia del alumno ha aumentado o que la nueva puntuación es ahora sólo una mejor estimación? Lo mismo ocurre con los cambios de puntuación tras los cursos de preparación para el SAT. Muchas universidades permiten a los solicitantes presentar varias puntuaciones del SAT y la puntuación más alta suele tener más peso; hay muchas razones espurias para las puntuaciones bajas, pero muchas menos para las altas. Los cambios en las puntuaciones de la más baja a la más alta tienen poco o ningún peso. Por el contrario, el cambio en el peso de una persona después de alguna intervención es inequívoco.
En los estudios sobre el efecto del entrenamiento cognitivo en la inteligencia, también es importante entender que todas las puntuaciones de las pruebas de inteligencia incluyen una cierta cantidad de imprecisión o error. Esto se denomina error estándar de medición y puede cuantificarse como una estimación de una puntuación «verdadera» basada en las puntuaciones observadas. El error estándar de medición de pulgadas o litros suele ser cero, suponiendo que se dispone de dispositivos de medición estándar perfectamente fiables. Los tests de inteligencia suelen mostrar una alta fiabilidad test-retest, pero también tienen un error estándar, y éste suele ser mayor para las puntuaciones más altas que para las más bajas. Cualquier cambio en la puntuación del test de inteligencia después de una intervención debe considerarse en relación con el error estándar del test. Los estudios que utilizan una sola prueba para estimar la inteligencia antes y después de una intervención están utilizando puntuaciones menos fiables y más variables (errores estándar más grandes) que los estudios que combinan las puntuaciones de una batería de pruebas.
Las puntuaciones de cambio nunca son fáciles de interpretar y requieren métodos estadísticos sofisticados y diseños de investigación con grupos de control adecuados. Si se prueba una intervención de formación en individuos que tienen todas las puntuaciones anteriores a la intervención por debajo de la media de la población, por ejemplo, la repetición de la prueba con o sin ninguna intervención, puede dar lugar a puntuaciones más altas debido al fenómeno estadístico de la regresión a la media, o debido a la simple práctica de la prueba, especialmente si no se utilizan formas alternativas equivalentes de la prueba. Los diseños cuasi-experimentales como el post-test sólo con muestras grandes y asignación aleatoria no tienen las mismas dificultades de interpretación que los diseños pre-post. Son prometedores, pero la mayoría de los revisores se inclinan más por valorar los cambios pre-post. Las técnicas de variables latentes también evitan muchas de las dificultades de los cambios de escala de intervalo pre-post y son prometedoras en muestras grandes (Ferrer y McArdle, 2010).
Cuando se utilizan las puntuaciones de cambio, es importante identificar las diferencias individuales incluso dentro de un grupo en el que la puntuación de cambio media aumenta estadísticamente después de una intervención. Imaginemos que un grupo de 100 estudiantes recibe entrenamiento cognitivo y otros 100 reciben alguna intervención de control. La puntuación media de cambio en el grupo de entrenamiento puede mostrar estadísticamente un aumento mayor que los controles. ¿Cuántos de los 100 individuos que recibieron el entrenamiento muestran realmente un aumento? ¿Difieren en algo de los individuos del mismo grupo que no muestran un aumento? ¿Muestra el análisis de los ítems si el aumento de las puntuaciones se debe más a los ítems fáciles del examen o a los difíciles? ¿Qué pasa con los individuos del grupo de control que muestran aumentos de puntuación de cambio tan grandes como los mostrados en el grupo de entrenamiento? Si los 200 participantes reciben finalmente la misma formación, ¿será el orden de clasificación de los individuos basado en la puntuación posterior a la formación diferente del orden de clasificación basado en las puntuaciones previas a la formación? Si no es así, ¿qué se ha conseguido? La mayoría de los estudios no informan de este tipo de análisis, aunque los estudios de formación más recientes están abordando las cuestiones de la evaluación de múltiples medidas de inteligencia y las diferencias individuales (Colom et al., 2013b; Jaeggi et al., 2013). Burgaleta et al proporcionan un buen ejemplo de mostrar los cambios en el CI sujeto por sujeto (Burgaleta et al., 2014).
Sin embargo, el punto principal es que para hacer el argumento más convincente de que la inteligencia aumenta después de una intervención, se requiere una escala de relación de la inteligencia. Todavía no existe ninguna y un progreso significativo puede requerir una nueva forma de definir la inteligencia basada en variables medibles del cerebro o del procesamiento de la información. Por ejemplo, la densidad de materia gris y blanca en regiones cerebrales específicas evaluadas por imágenes y expresadas como un perfil de puntuaciones estándar basado en un grupo normativo podría sustituir a las puntuaciones de las pruebas de inteligencia (Haier, 2009). Los trabajos de Engle y sus colegas sugieren que la capacidad de la memoria de trabajo y la velocidad perceptiva son posibles formas de evaluar la inteligencia fluida (Broadway y Engle, 2010; Redick et al., 2012), basándose en un amplio conjunto de investigaciones que muestran que una mayor velocidad de procesamiento mental y una mayor capacidad de memoria están relacionadas con una mayor inteligencia.
Jensen ha escrito ampliamente sobre una evolución de la psicometría a la «cronometría» mental, es decir, el uso del tiempo de respuesta en milisegundos para medir el procesamiento de la información de forma estándar (Jensen, 2006). Sostuvo que el constructo de inteligencia podría ser reemplazado en favor de medidas de escala de relación de la velocidad de procesamiento de la información evaluada durante tareas cognitivas estandarizadas como el paradigma de Hick. Tales medidas, por ejemplo, ayudarían a avanzar en la investigación sobre la neurofisiología subyacente de la velocidad mental y podrían conducir a una definición más avanzada de la inteligencia. Jensen concluyó su libro sobre cronometría con esta llamada a la acción: «… la cronometría proporciona a las ciencias del comportamiento y del cerebro una escala absoluta universal para obtener mediciones altamente sensibles y frecuentemente repetibles del rendimiento de un individuo en tareas cognitivas especialmente concebidas. Ha llegado su momento. Manos a la obra». (p. 246).
Este es un reto formidable y una prioridad importante para los investigadores de la inteligencia. La colaboración entre psicometristas y psicólogos cognitivos será clave. En la actualidad hay una serie de estudios que no logran replicar las afirmaciones sobre el aumento de la inteligencia tras el entrenamiento de la memoria a corto plazo y se proponen diversas razones (Colom et al., 2013b; Harrison et al., 2013). Dado nuestro estrecho enfoque aquí, observamos que uno de los fallos de replicación también evaluó la capacidad de la memoria de trabajo y la velocidad perceptiva; no se encontraron efectos de transferencia (Redick et al., 2013) y hay razones para sugerir que otros estudios de transferencia positiva pueden ser erróneos (Tidwell et al., 2013). Por ahora, los resultados del entrenamiento cognitivo son más inconsistentes que no, especialmente en lo que respecta a los supuestos aumentos de la inteligencia. No obstante, es alentador que los investigadores cognitivos estén trabajando en estas cuestiones a pesar de una indiferencia o negatividad generalizada hacia la investigación de la inteligencia en la Psicología en general y para muchas agencias de financiación.
En el contexto más amplio, la inteligencia incluye más de un componente. Sin embargo, el constructo de interés suele definirse mediante métodos psicométricos como un factor general común a todas las capacidades mentales denominado factor g (Jensen, 1998). La inteligencia fluida, en la que se centran varios estudios sobre el entrenamiento cognitivo, es uno de los diversos factores generales de la inteligencia y está altamente correlacionado con g. El factor g se estima mediante pruebas de inteligencia, pero no es sinónimo de coeficiente intelectual ni de la puntuación de ninguna otra prueba; algunas pruebas están más cargadas de g que otras. Como se ha señalado, una puntuación en un test de inteligencia tiene poco significado si no se compara con las puntuaciones de otras personas. Por eso, todos los tests de inteligencia requieren grupos normativos para su comparación y por eso los grupos normativos deben actualizarse periódicamente, como demuestra el efecto Flynn de aumentos generacionales graduales en las puntuaciones de los tests de inteligencia; aunque todavía no se ha determinado si g muestra el efecto Flynn (te Nijenhuis y van der Flier, 2013). Las estimaciones psicométricas de g y otros factores de la inteligencia han generado fuertes hallazgos empíricos sobre la naturaleza de la inteligencia y las diferencias individuales, en su mayoría basados en estudios de correlación. Sin embargo, estas evaluaciones de intervalo no son suficientes para llevar la investigación al siguiente paso de intervenciones experimentales para aumentar la inteligencia.
Hablando de ciencia, Carl Sagan observó que las afirmaciones extraordinarias requieren pruebas extraordinarias. Hasta ahora, no las tenemos para las afirmaciones sobre el aumento de la inteligencia tras el entrenamiento cognitivo o, para el caso, cualquier otra manipulación o tratamiento, incluida la educación infantil. Los pequeños cambios estadísticamente significativos en las puntuaciones de las pruebas pueden ser observaciones importantes sobre la atención o la memoria o alguna otra variable cognitiva elemental o una capacidad mental específica evaluada con una escala de proporción como los milisegundos, pero no son prueba suficiente de que la inteligencia general haya cambiado. Como en todas las ramas de la ciencia, el progreso depende de mediciones cada vez más sofisticadas que impulsan definiciones más precisas; pensemos en la evolución de la definición de un «gen» o un «átomo». Incluso con sofisticadas técnicas de evaluación basadas en intervalos (Ferrer y McArdle, 2010), hasta que dispongamos de mejores medidas, especialmente escalas de proporción, debemos reconocer el problema básico de la medición y ejercer abundante moderación cuando informemos de supuestos aumentos o disminuciones de la inteligencia.
En el futuro, puede haber fuertes razones empíricas para gastar grandes sumas de dinero en entrenamiento cognitivo u otras intervenciones dirigidas a mejorar capacidades mentales específicas o el rendimiento escolar (además de los convincentes argumentos morales para hacerlo), pero aumentar la inteligencia general es bastante difícil de demostrar con las pruebas actuales. Aumentar la inteligencia, sin embargo, es un objetivo digno que podría lograrse mediante intervenciones basadas en sofisticados avances de la neurociencia en el análisis del ADN, la neuroimagen, la psicofarmacología e incluso la estimulación cerebral directa (Haier, 2009, 2013; Lozano y Lipsman, 2013; Santarnecchi et al., 2013; Legon et al., 2014). El desarrollo de una medición de la inteligencia igualmente sofisticada debe ir de la mano del desarrollo de intervenciones prometedoras.