Por um lado, os testes de inteligência são um dos grandes sucessos da psicologia (Hunt, 2011). Os resultados dos testes de inteligência prevêem muitos fenômenos do mundo real e têm muitos usos práticos bem validados (Gottfredson, 1997; Deary et al., 2010). Os escores dos testes de inteligência também estão correlacionados a parâmetros estruturais e funcionais do cérebro avaliados com neuroimagens (Haier et al., 1988; Jung e Haier, 2007; Deary et al., 2010; Penke et al., 2012; Colom et al., 2013a) e a genes (Posthuma et al., 2002; Hulshoff Pol et al., 2006; Chiang et al., 2009, 2012; Stein et al., 2012). Por outro lado, os resultados dos testes de inteligência são muitas vezes mal compreendidos e podem ser mal utilizados. Este artigo centra-se num mal-entendido básico que permeia muitos dos relatórios recentes de aumento da inteligência após um treino cognitivo de curto prazo. Vários destes relatórios foram publicados em revistas proeminentes e receberam ampla atenção do público (Jaeggi et al., 2008, 2011; Mackey et al., 2011).
O mal-entendido básico é assumir que os resultados dos testes de inteligência são unidades de medida como polegadas ou litros ou gramas. Eles não são. Polegadas, litros e gramas são escalas de razão onde zero significa zero e 100 unidades são duas vezes 50 unidades. Os resultados dos testes de inteligência estimam uma construção usando escalas de intervalo e só têm significado em relação a outras pessoas da mesma idade e sexo. As pessoas com pontuações altas geralmente saem-se melhor numa vasta gama de testes de capacidade mental, mas alguém com uma pontuação de QI de 130 não é 30% mais inteligente do que alguém com uma pontuação de QI de 100. Uma pontuação de 130 coloca a pessoa nos 2% mais altos da população, enquanto uma pontuação de 100 está no percentil 50. Uma alteração de uma pontuação de QI de 100 para 103 não é o mesmo que uma alteração de 133 para 136. Isto torna impossível uma interpretação simples das alterações da pontuação no teste de inteligência.
Os estudos mais recentes que reivindicam aumentos na inteligência após uma intervenção de treinamento cognitivo dependem da comparação de uma pontuação no teste de inteligência antes da intervenção com uma segunda pontuação após a intervenção. Se há um aumento médio no escore de mudança para o grupo de treinamento que é estatisticamente significativo (usando um teste t dependente ou teste estatístico similar), isto é tratado como evidência de que a inteligência tem aumentado. Este raciocínio é correto se se está medindo escalas de razão como polegadas, litros ou gramas antes e depois de alguma intervenção (assumindo instrumentos adequados e confiáveis como réguas para evitar conclusões errôneas do tipo Fusão Fria que aparentemente foram baseadas em medições errôneas de calor); não é correto para escores de teste de inteligência em escalas de intervalo que apenas estimam uma ordem de classificação relativa ao invés de medir a construção da inteligência. Mesmo que a estimativa tenha um valor preditivo considerável e esteja correlacionada a medidas cerebrais e genéticas, não é uma medida da mesma forma que medimos distância, líquido ou peso mesmo que os escores de mudança individual sejam usados em um desenho pré-post.
SAT escores, por exemplo, estão altamente correlacionados a escores de testes de inteligência (Frey e Detterman, 2004). Imagine que um aluno faz o SAT quando está bastante doente. As notas provavelmente são uma má estimativa da capacidade do aluno. Se o aluno voltar a fazer o teste algum tempo depois quando estiver bem, será que um aumento na pontuação significa que a inteligência do aluno aumentou, ou que a nova pontuação é agora apenas uma estimativa melhor? O mesmo é verdade para as mudanças de pontuação após os cursos preparatórios para o SAT. Muitas faculdades e universidades permitem que os candidatos apresentem múltiplas pontuações no SAT e a pontuação mais alta geralmente tem o maior peso; há muitas razões espúrias para pontuações baixas, mas muito menos para pontuações altas. Mudar as notas do mais baixo para o mais alto tem pouco ou nenhum peso. Em contraste, a mudança no peso de uma pessoa após alguma intervenção é inequívoca.
Em estudos sobre o efeito do treinamento cognitivo na inteligência, também é importante entender que todos os resultados de testes de inteligência incluem uma certa quantidade de imprecisão ou erro. Isto é chamado de erro padrão de medida e pode ser quantificado como uma estimativa de uma pontuação “verdadeira” com base nas pontuações observadas. O erro padrão de medição em polegadas ou litros é normalmente zero, assumindo que você tenha dispositivos de medição perfeitamente confiáveis e padrão. Os testes de inteligência geralmente mostram alta confiabilidade nos testes, mas eles também têm um erro padrão, e o erro padrão é freqüentemente maior para notas mais altas do que para notas mais baixas. Qualquer alteração na pontuação do teste de inteligência após uma intervenção precisa ser considerada em relação ao erro padrão do teste. Estudos que usam um único teste para estimar a inteligência antes e depois de uma intervenção estão usando pontuações menos confiáveis e mais variáveis (erros padrão maiores) do que estudos que combinam pontuações de uma bateria de testes.
Alterar pontuações nunca é fácil de interpretar e requer métodos estatísticos sofisticados e projetos de pesquisa com grupos de controle apropriados. Se você tentar uma intervenção de treinamento em indivíduos, todos com escores pré-intervenção abaixo da média da população, por exemplo, o re-teste com ou sem qualquer intervenção, pode resultar em escores mais altos devido ao fenômeno estatístico de regressão à média, ou devido à prática de testes simples, especialmente se não forem utilizadas formas alternativas equivalentes do teste. Desenhos quase-experimentais como o pós-teste apenas com amostras grandes e atribuição aleatória não têm todas as mesmas dificuldades de interpretação que os desenhos pré-post. Eles têm promessa, mas a maioria dos revisores está mais inclinada a valorizar as mudanças pré-pós. As técnicas de variáveis latentes também evitam muitas das dificuldades das mudanças de escala de intervalos pré-pós e têm promessa em amostras grandes (Ferrer e McArdle, 2010).
Quando são usadas pontuações de mudança, é importante identificar diferenças individuais mesmo dentro de um grupo onde a pontuação média de mudança aumenta estatisticamente após uma intervenção. Imagine um grupo de 100 alunos que receberam treinamento cognitivo e outros 100 que receberam alguma intervenção de controle. A pontuação média da mudança no grupo de treinamento pode mostrar estatisticamente um aumento maior do que os controles. Quantos dos 100 indivíduos que receberam o treinamento de fato mostram um aumento? Eles diferem de alguma forma dos indivíduos do mesmo grupo que não mostram um aumento? A análise dos itens mostra se o aumento de pontuação se deve mais a itens fáceis de testar ou a itens difíceis? E quanto aos indivíduos do grupo de controle que mostram um aumento de pontuação de mudança tão grande quanto o mostrado no grupo de treinamento? Se todos os 200 participantes receberem o mesmo treinamento, a ordem de classificação dos indivíduos com base na pontuação pós-treinamento será diferente da ordem de classificação baseada na pontuação pré-treinamento? Se não, o que foi alcançado? A maioria dos estudos não relata tais análises, embora os estudos de formação mais recentes abordem questões de avaliação de medidas múltiplas de inteligência e diferenças individuais (Colom et al., 2013b; Jaeggi et al., 2013). Burgaleta et al. fornecem um bom exemplo de mostrar mudanças de QI assunto a assunto (Burgaleta et al., 2014).
Nonetheless, o ponto principal é que para fazer o argumento mais convincente de que a inteligência aumenta após uma intervenção, é necessária uma escala de razão de inteligência. Nenhuma ainda existe e um progresso significativo pode requerer uma nova forma de definir a inteligência baseada em variáveis mensuráveis do cérebro ou do processamento da informação. Por exemplo, a densidade de matéria cinzenta e branca em regiões específicas do cérebro avaliadas por imagens e expressas como um perfil de pontuação padrão baseado em um grupo normativo pode substituir a pontuação do teste de inteligência (Haier, 2009). O trabalho de Engle e colegas sugere que a capacidade de memória de trabalho e velocidade perceptiva são possíveis formas de avaliar a inteligência fluida (Broadway e Engle, 2010; Redick et al., 2012) com base em um grande corpo de pesquisa que mostra uma velocidade de processamento mental mais rápida e uma maior capacidade de memória estão relacionadas a uma inteligência maior.
Jensen escreveu extensivamente sobre uma evolução da psicometria para a “cronometria” mental – o uso do tempo de resposta em milissegundos para medir o processamento de informação de uma forma padrão (Jensen, 2006). Ele argumentou que a construção da inteligência poderia ser substituída em favor de medidas de escala de proporção da velocidade de processamento da informação avaliada durante tarefas cognitivas padronizadas como o paradigma Hick. Tais medidas, por exemplo, ajudariam a avançar a pesquisa sobre a neurofisiologia subjacente da velocidade mental e poderiam levar a uma definição mais avançada de inteligência. Jensen concluiu o seu livro sobre cronometria com esta chamada à acção: “… a cronometria fornece às ciências comportamentais e cerebrais uma escala absoluta universal para obter medições altamente sensíveis e frequentemente repetitivas do desempenho de um indivíduo em tarefas cognitivas especialmente concebidas. Chegou o momento de agir. Vamos ao trabalho!” (p. 246).
Este é um desafio formidável e uma grande prioridade para os pesquisadores de inteligência. A colaboração entre psicometristas e psicólogos cognitivos será fundamental. Há agora uma série de estudos que não conseguem replicar as alegações de aumento da inteligência após o treinamento de memória de curto prazo e várias razões são propostas (Colom et al., 2013b; Harrison et al., 2013). Dado o nosso foco estreito aqui, notamos uma falha na replicação também avaliou a capacidade de memória de trabalho e velocidade perceptual; não foram encontrados efeitos de transferência (Redick et al., 2013) e há razões para sugerir que outros estudos positivos de transferência podem estar errados (Tidwell et al., 2013). Por enquanto, os resultados do treinamento cognitivo são mais inconsistentes do que não, especialmente no que diz respeito a supostos aumentos de inteligência. No entanto, é encorajador que pesquisadores cognitivos estejam trabalhando nestas questões apesar de uma indiferença ou negatividade generalizada à pesquisa em Psicologia em geral e para muitas agências financiadoras.
No contexto mais amplo, a inteligência inclui mais de um componente. Entretanto, a construção do interesse geralmente é definida por métodos psicométricos como um fator geral comum a todas as habilidades mentais chamado fator g (Jensen, 1998). A inteligência fluida, foco de vários estudos de treinamento cognitivo, é um dos vários fatores de inteligência ampla e está altamente correlacionada ao fator g. O fator g é estimado por testes de inteligência, mas não é sinônimo de QI ou qualquer outro resultado de teste; alguns testes estão mais carregados de g do que outros. Como foi observado, um resultado num teste de inteligência tem pouco significado sem compará-lo com os resultados de outras pessoas. É por isso que todos os testes de inteligência requerem grupos normativos para comparação e porque os grupos normativos precisam ser atualizados periodicamente, como demonstrado pelo Efeito Flynn do aumento gradual das gerações nos resultados dos testes de inteligência; embora se g mostra que o efeito de Flynn ainda está inseguro (te Nijenhuis e van der Flier, 2013). As estimativas psicométricas de g e outros fatores de inteligência têm gerado fortes achados empíricos sobre a natureza da inteligência e diferenças individuais, a maioria baseada em estudos de correlação. Estas avaliações de intervalo, entretanto, não são suficientes para levar a pesquisa ao próximo passo das intervenções experimentais para aumentar a inteligência.
Falando sobre ciência, Carl Sagan observou que afirmações extraordinárias requerem evidências extraordinárias. Até agora, não o temos para alegações sobre o aumento da inteligência após o treinamento cognitivo ou, aliás, qualquer outra manipulação ou tratamento, incluindo a educação infantil. Pequenas mudanças estatisticamente significativas nos resultados dos testes podem ser observações importantes sobre atenção ou memória ou alguma outra variável cognitiva elementar ou uma habilidade mental específica avaliada com uma escala de proporção como milissegundos, mas não são prova suficiente de que a inteligência geral tenha mudado. Como em todos os ramos da ciência, o progresso depende de medições cada vez mais sofisticadas que impulsionam definições mais precisas – pense na evolução da definição de um “gene” ou de um “átomo”. Mesmo com técnicas sofisticadas de avaliação por intervalos (Ferrer e McArdle, 2010), até que tenhamos melhores medidas, especialmente escalas de razão, precisamos reconhecer o problema da medição básica e exercer abundante restrição ao relatar aumentos ou diminuições de inteligência putativa.
No futuro, pode haver fortes razões empíricas para gastar grandes somas de dinheiro em treinamento cognitivo ou outras intervenções destinadas a melhorar as habilidades mentais específicas ou o desempenho escolar (além dos argumentos morais convincentes para fazê-lo), mas o aumento da inteligência geral é bastante difícil de demonstrar com os testes atuais. Aumentar a inteligência, entretanto, é um objetivo digno que pode ser alcançado por intervenções baseadas em sofisticados avanços neurocientíficos na análise de DNA, neuroimagem, psicofarmacologia e até mesmo estimulação cerebral direta (Haier, 2009, 2013; Lozano e Lipsman, 2013; Santarnecchi et al., 2013; Legon et al., 2014). O desenvolvimento de uma medição igualmente sofisticada da razão inteligência deve ir de mãos dadas com o desenvolvimento de intervenções promissoras.