一方では、知能検査は心理学の大きな成功の一つである(Hunt, 2011)。 知能テストの得点は多くの現実世界の現象を予測し、多くの十分に検証された実用的な用途を持っている(Gottfredson, 1997; Deary et al., 2010)。 また、知能検査得点は、神経画像で評価される脳の構造的・機能的パラメータ(Haierら, 1988; Jung and Haier, 2007; Dearyら, 2010; Penkeら, 2012; Colomら, 2013a)、遺伝子(Posthumaら, 2002; Hulshoff Polら, 2006; Chiangら, 2009, 2012; Steinら, 2012)と相関がある。 一方で、知能テストのスコアは誤解されることが多く、誤用されることもある。 本稿では、短期間の認知トレーニングによって知能が向上したという最近の報告の多くに浸透している、基本的な誤解に焦点を当てる。 これらの報告のいくつかは、著名な雑誌に掲載され、広く世間の注目を集めている(Jaeggi et al., 2008, 2011; Mackey et al., 2011)。

基本的な誤解は、知能テストの得点がインチやリットル、グラムなどの測定単位だと思い込んでいることである。 彼らはそうではない。 インチ、リットル、グラムは、ゼロはゼロを意味し、100単位は50単位の2倍である比率尺度である。 知能テストの得点は、区間尺度を用いて構成要素を推定し、同じ年齢と性別の他の人たちとの相対的な意味しか持ちません。 しかし、IQ130の人がIQ100の人よりも30%賢いということはありません。 130点では人口の上位2%に入るのに対し、100点では50%である。 IQ100点から103点への変化と、133点から136点への変化は同じではありません。 このため、知能検査スコアの変化を単純に解釈することはできない。

認知トレーニングの介入後に知能が向上したとする最近の研究のほとんどは、介入前の知能検査スコアと介入後の2番目のスコアとの比較に頼っている。 訓練群の平均変化点上昇が統計的に有意であれば(従属t検定や同様の統計検定を用いて)、これは知能が上昇した証拠として扱われる。 この推論は、介入の前後でインチ、リットル、グラムなどの比率尺度を測定する場合には正しいのですが(明らかに誤った熱測定に基づいたコールドフュージョン的な誤った結論を避けるため、定規などの適切で信頼できる器具を想定)、知能という構成要素を測定するというより相対的な順位を推定するだけの間隔尺度で知能検査のスコアを測定する場合には正しくないのです。 推定値にはかなりの予測価値があり、脳や遺伝子の測定値と相関があるとしても、個人の変化スコアを事前-事後設計で使用したとしても、距離、液体、体重を測定するのと同じように測定値ではありません。

SAT スコアは、たとえば知能テストのスコアと高い相関があります (Frey and Detterman, 2004)。 たとえば、SATの得点は、知能テストの得点と高い相関があります (Frey and Detterman, 2004)。 その点数は、おそらくその生徒の能力の悪い推定値です。 しばらくして、その生徒が元気なときにテストを受け直した場合、スコアが上がったことは、その生徒の知能が上がったことを意味するのでしょうか、それとも、新しいスコアの方がより良い推定値になっただけなのでしょうか。 SATの準備コースを受講した後のスコアの変化についても同じことが言えます。 多くの大学では、志願者は複数のSATスコアを提出することができ、一般的に最も高いスコアが最も重要視されます。 低い点数には多くの偽りの理由があるが、高い点数にはほとんど理由がない。 対照的に、何らかの介入を行った後の体重の変化は明確である。

認知トレーニングの知能への効果に関する研究では、すべての知能テストのスコアにある程度の不正確さや誤差が含まれていることを理解することも重要である。 これは測定の標準誤差と呼ばれ、観察された得点に基づく「真の」得点の推定値として定量化することができる。 インチやリットルを測るときの標準誤差は、完全に信頼できる標準的な測定器があれば、通常ゼロになります。 知能検査は一般に高いテストリテスト信頼性を示すが、標準誤差もあり、標準誤差はしばしば高得点の方が低得点より大きくなる。 介入後の知能テストの得点変化は、テストの標準誤差と比較して検討する必要がある。 介入前後の知能を推定するために単一のテストを使用する研究は、一連のテストのスコアを組み合わせる研究よりも信頼性が低く、より変動しやすいスコア(より大きな標準誤差)を使用していることになる。 例えば、介入前のスコアが母集団の平均を下回っている人たち全員にトレーニング介入を試みた場合、介入の有無にかかわらず再試験を行うと、統計的な平均への回帰現象により、あるいは単純なテスト練習により、特に同等の代替形式のテストが使用されていない場合は、より高いスコアになることがあります。 大規模なサンプルと無作為割付によるポストテストのみのような準実験デザインは、プレポストデザインのような解釈の難しさはありません。 これらは有望ですが、ほとんどの査読者は、事前-事後の変化をより評価する傾向があります。 潜在変数法もまた、事前-事後間の尺度変化の困難さの多くを回避し、大規模サンプルにおいて有望である(Ferrer and McArdle, 2010)。

変化スコアを用いる場合、介入後に平均変化スコアが統計的に増加するグループ内においても個人差を特定することが重要である。 100人の生徒が認知トレーニングを受け,他の100人が何らかの対照的な介入を受けたとします。 トレーニング群の平均変化スコアは、統計的にコントロール群より大きな増加を示すかもしれません。 トレーニングを受けた100人のうち何人が実際に増加を示したのでしょうか? その人たちは、同じグループの中で上昇を示さなかった人たちと何か違いがあるのでしょうか? 項目分析によって、得点の増加が簡単なテスト項目によるものなのか、難しいテスト項目によるものなのかがわかりますか? 対照群でもトレーニング群と同じように変化点の上昇が見られる人はいるのでしょうか? 最終的に200人全員が同じトレーニングを受けた場合、トレーニング後の得点に基づく個人の順位は、トレーニング前の得点に基づく順位と変わらないのでしょうか? そうでない場合、何が達成されたのでしょうか? 最近のトレーニング研究では、知能の複数尺度評価や個人差の問題に取り組んでいますが、ほとんどの研究では、このような分析は報告されていません(Colom et al.) Burgaletaらは、被験者ごとのIQの変化を示す良い例を提供している(Burgaleta et al.,2014)。

にもかかわらず、要点は、介入後に知能が増加するという最も説得力のある議論を行うには、知能の比率尺度が必要であるということである。 まだ何も存在せず、意味のある進歩には、測定可能な脳または情報処理変数に基づいて知能を定義する新しい方法が必要かもしれません。 例えば、画像診断で評価した脳の特定部位の灰白質密度や白質密度を、標準的なグループに基づく標準スコアのプロファイルとして表現すれば、知能テストのスコアの代わりになるかもしれない(Haier、2009年)。 Engleらの研究は、精神的な処理速度の速さと記憶能力の増大が高い知能と関連していることを示す多くの研究に基づいて、ワーキングメモリ容量と知覚速度が流動的知能を評価する方法の可能性を示唆している (Broadway and Engle, 2010; Redick et al., 2012)

Jensenは、心理測定法からメンタル「クロノメトリクス」、つまり標準的な方法で情報処理の測定を行うためにミリ秒単位の応答時間を使うことへの進化について幅広く書いている (Jensen, 2006)。 彼は、知能という概念は、ヒックパラダイムなどの標準化された認知タスクで評価される情報処理速度の比率尺度によって代替されうると主張した。 このような測定は、例えば、精神的な速度の根底にある神経生理学に関する研究の進展に役立ち、知能のより高度な定義につながるかもしれない。 ジェンセンはクロノメトリーに関する著書の最後に、このように行動を呼びかけている。 「クロノメトリーは、行動科学と脳科学に、特別に考案された認知課題に対する個人のパフォーマンスを高感度で頻繁に再現可能な測定値を得るための普遍的な絶対尺度を提供するものである。 その時が来たのです。 さあ、仕事を始めよう!」。 (p.246)。

これは手ごわい挑戦であり、知能研究者の大きな優先事項である。 心理測定学者と認知心理学者の協力が鍵になるだろう。 現在、短期記憶訓練後に知能が向上するという主張を再現できない研究が多数あり、様々な理由が提唱されています(Colom et al.) ここで焦点を絞ると、再現に失敗した研究ではワーキングメモリ容量と知覚速度も評価されており、伝達効果は認められなかった(Redickら、2013)、他の肯定的な伝達研究は誤りである可能性を示唆する理由がある(Tidwellら、2013)。 今のところ、認知トレーニングの結果は、特に推定される知能の向上については、そうでない場合よりも一貫性がありません。 それでも、心理学全般や多くの資金提供機関において知能研究に対する無関心や否定的な意見が蔓延しているにもかかわらず、認知研究者がこれらの問題に取り組んでいることは心強いことである。 しかし、興味のある構成要素は通常、g因子と呼ばれるすべての精神的能力に共通する一般的な因子として、心理測定法によって定義される(Jensen, 1998)。 g-factorは知能検査によって推定されるが、IQやその他の検査スコアと同義ではなく、検査によってはg-factorの負荷が高いものもある。 前述のように、知能テストのスコアは、他の人のスコアと比較しなければほとんど意味を持ちません。 だからこそ、すべての知能テストは比較のための規範群を必要とし、規範群は定期的に更新される必要がある。これは、知能テストのスコアが世代を超えて徐々に上昇するフリン効果によって実証されている。 gや他の知能因子の心理測定による推定は、知能や個人差の性質について、主に相関研究に基づく強力な経験的知見を生み出してきた。 しかし、これらの間隔評価は、知能を高めるための実験的介入という次のステップに研究を進めるには十分ではありません。

科学について話すと、カール・セーガンは、並外れた主張には並外れた証拠が必要であると述べています。 これまでのところ、認知トレーニングや、それどころか幼児教育を含むその他の操作や治療によって知能が向上するという主張には、そのような証拠がありません。 テストスコアの統計的に有意なわずかな変化は、注意や記憶、その他の要素的な認知変数、あるいはミリ秒のような比率尺度で評価される特定の精神能力に関する重要な観察かもしれません。 科学のあらゆる分野と同様、進歩は、より正確な定義を推進する、より洗練された測定に依存しています-「遺伝子」や「原子」の定義の進化について考えてみてください。 洗練された間隔ベースの評価技術(Ferrer and McArdle, 2010)をもってしても、より優れた測定方法、特に比率尺度ができるまでは、基本的な測定問題を認識し、推定される知能の増減を報告する際には十分な自制が必要である。 しかし、知能の向上は、DNA解析、神経画像、精神薬理学、さらには脳への直接刺激における高度な神経科学の進歩に基づく介入によって達成できるかもしれない価値ある目標である(Haier, 2009, 2013; Lozano and Lipsman, 2013; Santarnecchi et al.) 同様に洗練された知能の比率測定を開発することは、有望な介入策を開発することと手を携えて行わなければなりません

admin

コメントを残す

メールアドレスが公開されることはありません。

lg