不利な観測結果の破棄編集
中立的な(役に立たない)製品を宣伝するために企業がしなければならないことは、例えば信頼度95%で40件の研究を見つけるか実施することです。 その製品が本当に役に立たないものであれば、平均して、その製品が有益であることを示す研究が1件、有害であることを示す研究が1件、結論の出ない研究が38件(38件は40件の95%)生み出されることになるのです。 この戦術は、利用可能な研究が多ければ多いほど効果的になります。 7561>
Ronald Fisherは、有名な女性のお茶の試飲の例の実験(1935年の著書『The Design of Experiments』より)でこの問題を考えました。 7561>
この概念に関連するもう一つの用語はチェリーピッキングである。 これらの特徴のうち少なすぎるものが分析のために選択された場合(たとえば、1つの特徴のみが選択され、重回帰の代わりに単回帰が実行された場合)、結果は誤解を招く可能性があります。
Loaded questions編集
アンケート調査の回答は、回答者の特定の回答への偏向を誘導するような質問文によって操作されることがよくあります。 たとえば、戦争への支持を調査する場合、
- あなたは、世界の他の場所に自由と民主主義をもたらす米国の試みを支持しますか
- あなたは、米国によるいわれのない軍事行動を支持しますか
という質問は、どちらも戦争への支持について調査しているものの、異なる方向に偏ったデータになる可能性が高いのです。 より良い表現としては、”あなたは現在のアメリカの海外での軍事行動を支持しますか?”という質問もあります。 さらにもっと中立に近い言い方をすれば、”What is your view about the current US military action abroad? “となる。
これを行うもう一つの方法は、「望ましい」答えをサポートする情報を質問に先行させることです。 たとえば、「中流家庭の税負担が増加していることを考えると、所得税の減税を支持しますか」という質問に対して、「連邦財政赤字の増大とさらなる歳入の切実な必要性を考えると、所得税の減税を支持しますか」という質問よりも「はい」と答える人が多いだろう
質問の適切な定式化は、非常に微妙なものであることがある。 2つの質問に対する回答は、質問の順番によって大きく変わることがある。 「
OvergeneralizationEdit
Overgeneralization is a fallacy occurring when a statistic about a particular population is asserted to members of a group which the original population is not a representative sample.
For example, 100%のりんごが夏に赤くなることが観察されたとする。
例えば、リンゴの100%が夏に赤いことが観察されたとする。「すべてのリンゴは赤い」という主張は、元の統計がリンゴの特定のサブセット(夏のもの)のみに当てはまり、リンゴの集団全体を代表しているとは考えられないため、過度の一般化の一例となる。 若者は他の人口統計グループよりも従来の「固定電話」を持っていない可能性が高いため、固定電話に電話をかけた回答者のみを対象とする電話世論調査は、このサンプリングの偏りを考慮する他の手段がない場合、若者の意見を十分に反映しない結果を引き起こす可能性があります。 このため、この手法で若者の投票傾向を調査した世論調査は、過度の一般化なしに、若者の真の投票傾向を全体として完全に表すことはできないかもしれない。
過度の一般化は、情報が非技術的な情報源、特にマスメディアを通じて伝えられるときにしばしば起こる。 偏ったサンプル
科学者は、統計解析のために良い実験データを集めることは難しいということを、大きな犠牲を払って学んできました。 例 プラシーボ効果(mind over body)は非常に強力である。 ツタウルシと偽って不活性な物質に触れると100%の被験者がかぶれるが、本当にツタウルシである「無害な」物体にかぶれる人はほとんどいない。 研究者は二重盲検ランダム化比較実験によってこの効果に対抗している。 統計学者は通常、分析よりもデータの妥当性を心配する。 これは実験計画法として知られる統計学の研究分野に反映されています。
世論調査員は、統計解析のために良い調査データを集めることが難しいことを大きな犠牲を払って学びました。 携帯電話の選択的効果(「過度の一般化」のセクションで説明)は、潜在的な例のひとつです。 サンプル調査には多くの落とし穴があり、実施には細心の注意が必要である。 ある調査では、1000人の回答を得るために3000回近く電話をかけなければなりませんでした。 母集団の単純な無作為標本は「単純ではなく、無作為とは限らない」
推定誤差の誤報または誤解 編集
研究チームがある話題について3億人がどう感じているかを知りたい場合、全員に尋ねるのは非現実的である。 7561>
この信頼度は、中心極限定理やその他の数学的結果によって実際に数値化することができます。 信頼度は、真の結果(大きい方のグループ)が推定値(小さい方のグループの数値)のある範囲内にある確率として表されます。 統計調査でよく引き合いに出される「プラスマイナス」の数字です。 信頼度の確率の部分は、通常、言及されません。言及される場合は、95%などの標準的な数値とされます。
この2つの数値は関連しています。 ある調査が信頼度95%で±5%の推定誤差を持つ場合、それは信頼度99%で±6.6%の推定誤差も持つことになる。 ± x {displaystyle x}
% at 95% confidence is always ± 1.32 x {displaystyle 1.32x}.
正規分布の母集団の場合、信頼度99%で %。
±1% では 10,000 人、
±2% では 2,500 人、
±3% では 1,111 人、
±4% では 625 人、
±5% では 400 人、
±10% では 100 人が必要である。
±20% では25人。
±25% では16人。
±50% では4人必要です。
信頼度の数字が省略されているので、真の結果が推定誤差内にあることは100%確実だと思われるかもしれません。 これは数学的に正しくない。
多くの人は、サンプルのランダム性が非常に重要であることを認識していないかもしれない。 実際には、多くの世論調査は電話で行われており、電話を持っていない人を除外する、複数の電話を持っている人を優先的に含める、電話調査に参加する意思がある人を拒否する人よりも優先的に含めるなど、いくつかの方法でサンプルを歪めているのである。 一方、全員が電話をかけられるわけではない、あるいは自分自身が世論調査を受けることがないため、統計は本質的に信頼できないと考える人もいるかもしれません。 数千人の世論調査だけで、数千万人の意見をデータ化することは不可能だと考える人もいるかもしれません。 これも不正確である。 完璧な偏りのないサンプリングと真実の回答による世論調査には、数学的に決められた誤差があり、それは調査対象者の人数に依存するだけです
しかし、しばしば1つの調査の誤差が報告されるだけです。 母集団のサブグループについて結果が報告された場合、より大きな誤差が適用されますが、これは明確にされていない場合があります。 例えば、1000人を対象にした調査で、ある民族や経済グループの人が100人含まれている場合があります。 そのグループに焦点を当てた結果は、全人口に対する結果よりもはるかに信頼性が低くなります。 例えば全サンプルの誤差が4%だとすると、そのようなサブグループの誤差は約13%になる可能性があります。
人口調査には他にも多くの測定上の問題があります。
上記の問題は人口調査だけではなく、すべての統計実験に当てはまります。さらに詳しい情報。 世論調査、統計調査
False causality編集
- A causes B.
- B causes A.
- A and B both partially cause each other.
- A and B is both caused by a third factor, C.
- B is caused by C which is correlated to A.
- A とBはどちらも第三要因によって引き起こされている。
- 観察された相関は純粋に偶然によるものである。
6番目の可能性は、実際に変数間に関係がない場合に、観察された相関が偶然だけでこれほど大きくなる確率を計算できる統計テストによって定量化することが可能である。 しかし、その可能性が小さいとしても、他の5つの可能性があります。
もし、ビーチでアイスクリームを買う人の数が、ビーチで溺れる人の数と統計的に関係があるなら、そうでないことは明らかなので、アイスクリームが溺れる原因だとは誰も主張しないでしょう。 (この場合、溺死とアイスクリーム購入の両方は、ビーチにいる人の数という第三の要因によって明らかに関連しています)
この誤りは、たとえば、化学物質への曝露が癌を引き起こすことを証明するために使用することができます。 アイスクリームを買う人の数」を「化学物質 X にさらされた人の数」に、「溺れる人の数」を「がんになる人の数」に置き換えれば、多くの人があなたを信じるでしょう。 このような場合、実際には影響がなくても、統計的に相関がある場合があります。 例えば、ある化学工場が「危険」であると認識されれば(実際はそうでなくても)、その地域の資産価値は下がり、低所得者層の移住を誘引することになります。 低所得者層が高所得者層よりもがんになりやすいとすれば(例えば食生活が貧しいとか、医療を受けられないとか)、化学物質そのものは危険でなくても、がんの発生率は上昇することになる。 よく設計された研究では、ある人々を「治療群」に、ある人々を「対照群」に無作為に割り当て、治療群には治療を与え、対照群には与えないことで、誤った因果関係の影響を排除することができるのです。 上記の例で言えば、ある研究者があるグループを化学物質Xに暴露し、別のグループは暴露しないままにしておくとします。 もし、最初のグループの方が癌の発生率が高かった場合、研究者は、誰が暴露されたか否かをコントロールし、人々を暴露群と非暴露群にランダムに割り当てたので、人々が暴露されたかどうかに影響する第3の要因は存在しないことを知っているのです。 しかし、多くの場合、この方法で実際に実験を行うことは、法外な費用がかかるか、実行不可能か、非倫理的か、違法か、あるいは全く不可能であるかのいずれかである。 例えば、危険な物質の毒性を調べるために、意図的に人々を危険にさらすような実験を、IRBが受け入れる可能性は極めて低い。 このような種類の実験の明らかな倫理的影響は、因果関係を経験的に検証する研究者の能力を制限します。
帰無仮説の証明Edit
統計的検定では、十分なデータで間違っていると証明されるまで、帰無仮説(H 0 {displaystyle H_{0}}
)は有効と見なされる。 すると、H 0 {}displaystyle H_{0}} は
は棄却され、対立仮説(H A {displaystyle H_{A}}
)が正しいことが証明されたとみなされます。 偶然にも、このようなことが起こり得ますが、H 0 { {displaystyle H_{0}} 。
は真であり、その確率はα {displaystyle \alpha } で表される。
(有意水準)である。 これは裁判に例えると、有罪(H A {displaystyle H_{A}}
)と証明されるまでは無罪(H 0 {displaystyle H_{0}}
)とされ、妥当な疑い(α {displaystyle \alpha }
)を超えてはならない、ということであろう。
しかし、もしデータがH 0 {displaystyle H_{0}} を否定するのに十分な証拠を与えないのであれば。
, これは自動的にH 0 {displaystyle H_{0}}が証明されるわけではありません。
は正しい。 例えば、タバコの製造会社が、自社の製品が安全であることを証明したい場合、少数の喫煙者サンプルと少数の非喫煙者サンプルで簡単にテストを行うことができます。 その中で肺癌になる人はまずいない(仮になったとしても、H 0 {displaystyle H_{0}}を否定するためには、群間の差が非常に大きくなければならない)。
). したがって、喫煙が危険な場合でも、我々の検定ではH 0 {displaystyle H_{0}} を棄却できない可能性が高いのです。
. もし、H 0 {}
H_{0}} の場合。
が受け入れられたとしても、喫煙が無害であることが自動的に証明されるわけではありません。 この検定では、H 0 {displaystyle H_{0}}を棄却するのに十分な検出力がない。
, したがって、検定は無駄であり、H 0 {displaystyle H_{0}}の「証明」の値も無駄である。
もnullとなる。
これは、上記の司法のアナロジーを使って、本当に有罪の被告人が、証拠が有罪判決に十分でないという理由だけで釈放されることと比較することができます。 7561>
「…帰無仮説は決して証明されたり確立されたりしないが、実験の過程で反証される可能性はある」。 すべての実験は、事実に帰無仮説を反証する機会を与えるためにのみ存在すると言えるかもしれない。” (Fisher in The Design of Experiments) 二重否定論理の使用や、Fisherの「有意性検定」(帰無仮説が決して認められない)と「仮説検定」(ある仮説が常に認められる)の合併による用語の使用など、混乱の原因は多く存在する。
統計的有意性と実用的有意性の混同 編集
統計的有意性は確率の尺度、実用的有意性は効果の尺度である。 ハゲの治療は、以前は裸だった頭皮をまばらな桃色の毛が普通に覆っていれば、統計的に有意である。 寒い季節に帽子が不要になり、床屋でてっぺんをどれだけ取るか聞かれたら、治療は実際上有意である。 ハゲは、統計的にも実用的にも意義のある治療法を求めているのである。 科学的発表は、しばしば統計的有意性だけを要求する。 このため、統計的有意差検定は統計学の誤用であるという苦情が(この50年間)寄せられている。
Data dredgingEdit
データドレッジングはデータマイニングの悪用である。 データ浚渫では、検証すべき仮説の事前定義なしに、相関を見つけるために大規模なデータのコンパイルが調査されます。 2つのパラメータ間の関係を確立するために必要な信頼区間は通常95%(観察された関係が偶然によるものではない確率が95%であることを意味する)に選ばれるので、完全にランダムな変数の任意の2つのセットの間に相関が見つかる確率は5%である。 データ浚渫は通常、多くの変数を持つ大規模なデータセットを調査し、それゆえ変数のペアの数も多いことを考えると、偽りの、しかし一見統計的に有意な結果は、そのような研究によってほぼ確実に発見されることになります。 その仮説がさらに検証されることなく事実として述べられたときに誤用が生じます。
「最初にその仮説を示唆したのと同じデータで正当に仮説を検証することはできない。 救済策は明確です。 仮説が決まったら、今あると思われる効果を具体的に探索する研究をデザインするのです。 このテストの結果が統計的に有意であれば、ついに本当の証拠を手に入れたことになる」
Data manipulationEdit
非公式には「fudging the data」と呼ばれ、この行為には選択的報告(出版バイアスも参照)や、単に偽のデータをでっち上げることも含まれます。 最も簡単で一般的な例は、仮説に矛盾する他の結果や「データ・ラン」を無視する一方で、好ましい仮説と一致するパターンの結果群を選択することです。 批評家は、ESPの支持者が肯定的な結果を持つ実験だけを発表し、否定的な結果を示すものを棚上げしていると非難している。
科学者は一般的に、他の研究者によって再現できない研究結果の妥当性を疑問視しています。 しかし、中には自分のデータや方法を公表することを拒む科学者もいる。
データ操作は、最も誠実な統計分析において深刻な問題/検討事項である。 外れ値、欠損データ、非正規性はすべて統計解析の妥当性に悪影響を及ぼす可能性がある。 分析を始める前にデータを調査し、実際の問題を修復することが適切である。 「どんな散布図でも、雲の主要部分から多かれ少なかれ離れている点があるだろう:これらの点は原因によってのみ拒否されるべきである。 複雑なのは、統計解析が単一標本(N=1)で試みられていることを隠していることです。 この縮退したケースでは、分散は計算できません(ゼロによる除算)。 7561>
ギャンブラーの誤謬は、将来の可能性を測定することができるイベントは、それがすでに発生した後、同じ可能性を持っていたと仮定しています。 したがって、誰かがすでに9枚のコインを投げて、それぞれが表だった場合、10枚目のコインが表である可能性は1023分の1(最初のコインが投げられる前はそうだった)であると仮定する傾向があるが、実際には10枚目が表である可能性は(コインが偏っていないと仮定して)50%である。
英国では、検察官の誤謬によりサリークラークは彼女の2人の息子を殺害したと誤って有罪にされている。 法廷では、ロイ・メドウ教授が示した、女性の2人の子供が乳幼児突然死症候群で死亡する統計的可能性が低い(7300万分の1)ことが、彼女の無罪の可能性が低いことを示唆していると誤解されたのです。 仮に、王立統計協会が発表した二重SIDSの可能性が正しいとしても、二人の子供の原因不明の死は、すべての可能な説明を照らし合わせて、どれが最も可能性が高いか、結論を出さなければならない。 その結果、SIDSが2人いる方が、殺人が2人いる場合よりも9倍も確率が高いことがわかったのです」。 サリー・クラークの有罪判決は結局覆された
Ludic fallacy. 確率は単純なモデルに基づいており、現実の(遠隔であっても)可能性を無視している。 ポーカーのプレイヤーは、相手がカードではなく銃を引くかもしれないことを考慮しない。
その他の誤用編集
その他の誤用には、リンゴとオレンジの比較、誤った平均値の使用、平均への回帰、ガベージイン、ガベージアウトという言葉がある。 7561>
Anscombe’s quartet は、単純な記述統計の欠点(および数値解析の前にデータをプロットすることの価値)を例証する、でっち上げられたデータセットです。