- Descartar observações desfavoráveisEditar
- Ignorando características importantesEditar
- Perguntas carregadasEditar
- Sobre-generalizaçãoEditar
- Amostras tendenciosasEditar
- Interpretação incorrecta ou mal entendida do erro estimadoEditar
- Falsa causalidadeEditar
- Prova da hipótese nulaEditar
- Confundir significância estatística com significância práticaEditar
- Dragagem de dadosEditar
- Manipulação de dadosEditar
- Outras faláciasEditar
- Outros tipos de uso indevidoEditar
Descartar observações desfavoráveisEditar
Tudo o que uma empresa tem que fazer para promover um produto neutro (inútil) é encontrar ou conduzir, por exemplo, 40 estudos com um nível de confiança de 95%. Se o produto é realmente inútil, isso produziria em média um estudo mostrando que o produto era benéfico, um estudo mostrando que era prejudicial e trinta e oito estudos inconclusivos (38 é 95% de 40). Esta táctica torna-se mais eficaz quanto mais estudos estiverem disponíveis. Organizações que não publicam todos os estudos que realizam, como empresas de tabaco negando a ligação entre fumar e câncer, grupos de defesa antitabagismo e veículos de mídia tentando provar a ligação entre fumar e várias doenças, ou vendedores de pílulas milagrosas, provavelmente usam essa tática.
Ronald Fisher considerou essa questão em sua famosa experiência de exemplo de chá de degustação de senhora (de seu livro de 1935, The Design of Experiments). Em relação aos experimentos repetidos ele disse: “Seria claramente ilegítimo, e roubaria nosso cálculo de sua base, se os resultados mal sucedidos não fossem todos trazidos à conta”.
Outro termo relacionado a este conceito é “cereja picking”.
Ignorando características importantesEditar
Os conjuntos de dados multivariados têm duas ou mais características/dimensões. Se muito poucas destas características forem escolhidas para análise (por exemplo, se apenas uma característica for escolhida e uma regressão linear simples for executada em vez de regressão linear múltipla), os resultados podem ser enganosos. Isto deixa o analista vulnerável a qualquer um dos vários paradoxos estatísticos, ou em alguns (não todos) casos de falsa causalidade como abaixo.
Perguntas carregadasEditar
As respostas às pesquisas podem muitas vezes ser manipuladas através da formulação da pergunta de forma a induzir uma prevalência para uma determinada resposta do respondente. Por exemplo, nas sondagens de apoio a uma guerra, as perguntas:
- Apoia a tentativa dos EUA de trazer liberdade e democracia a outros lugares do mundo?
- Apoia a acção militar não provocada pelos EUA?
irá provavelmente resultar em dados enviesados em direcções diferentes, embora ambos estejam a sondar sobre o apoio à guerra. Uma forma melhor de formular a pergunta poderia ser “Você apóia a atual ação militar dos EUA no exterior? Uma forma ainda mais neutra de colocar essa pergunta é “Qual é a sua opinião sobre a actual acção militar dos EUA no estrangeiro”? A questão deve ser que a pessoa que está sendo perguntada não tem como adivinhar a partir do texto o que o questionador pode querer ouvir.
Outra maneira de fazer isso é preceder a pergunta por informações que apóiem a resposta “desejada”. Por exemplo, mais pessoas provavelmente responderão “sim” à pergunta “Dada a crescente carga tributária das famílias de classe média, você apóia cortes no imposto de renda?” do que à pergunta “Considerando o crescente déficit orçamentário federal e a necessidade desesperada de mais renda, você apóia cortes no imposto de renda?”
A formulação adequada das perguntas pode ser muito sutil. As respostas a duas perguntas podem variar drasticamente, dependendo da ordem em que são feitas. “Uma pesquisa que perguntou sobre ‘posse de ações’ descobriu que a maioria dos fazendeiros do Texas possuía ações, embora provavelmente não do tipo negociado na Bolsa de Valores de Nova York”
Sobre-generalizaçãoEditar
A sobre-generalização é uma falácia que ocorre quando uma estatística sobre uma determinada população é afirmada entre os membros de um grupo para o qual a população original não é uma amostra representativa.
Por exemplo, suponha que 100% das maçãs são observadas como vermelhas no verão. A afirmação “Todas as maçãs são vermelhas” seria uma instância de super-generalização porque a estatística original era verdadeira apenas para um subconjunto específico de maçãs (as do verão), que não é esperado que seja representativo da população de maçãs como um todo.
Um exemplo real da falácia da super-generalização pode ser observado como um artefato das modernas técnicas de votação, que proíbem a chamada de telefones celulares para pesquisas políticas por telefone. Como os jovens são mais propensos do que outros grupos demográficos a não terem um telefone convencional “fixo”, uma sondagem telefônica que pesquisa exclusivamente os respondentes de chamadas de telefones fixos, pode fazer com que os resultados da sondagem subestimem a opinião dos jovens, se não forem tomadas outras medidas para levar em conta essa distorção da amostragem. Assim, uma pesquisa que examine as preferências de voto dos jovens usando essa técnica pode não ser uma representação perfeitamente precisa das verdadeiras preferências de voto dos jovens como um todo, sem exagerar a generalização, pois a amostra utilizada exclui os jovens que carregam apenas telefones celulares, que podem ou não ter preferências de voto diferentes do resto da população.
Avergeneralização geralmente ocorre quando a informação é passada através de fontes não-técnicas, em particular meios de comunicação de massa.
Amostras tendenciosasEditar
Os cientistas aprenderam a um grande custo que é difícil reunir bons dados experimentais para análise estatística. Exemplo: O efeito placebo (mente sobre corpo) é muito poderoso. 100% dos sujeitos desenvolveram uma erupção cutânea quando expostos a uma substância inerte que foi falsamente chamada de hera venenosa, enquanto poucos desenvolveram uma erupção cutânea para um objeto “inofensivo” que realmente era hera venenosa. Os investigadores combatem este efeito através de experiências comparativas aleatórias duplamente cegas. Os estatísticos normalmente se preocupam mais com a validade dos dados do que com a análise. Isto se reflete em um campo de estudo dentro da estatística conhecido como o desenho de experimentos.
Pollsters aprenderam a grande custo que é difícil reunir bons dados de pesquisa para análise estatística. O efeito seletivo dos telefones celulares na coleta de dados (discutido na seção Sobre-generalização) é um exemplo potencial; se os jovens com telefones tradicionais não são representativos, a amostra pode ser tendenciosa. As pesquisas por amostragem têm muitas armadilhas e requerem grande cuidado na execução. Um esforço exigiu quase 3000 chamadas telefônicas para obter 1000 respostas. A amostra aleatória simples da população “não é simples e pode não ser aleatória”
Interpretação incorrecta ou mal entendida do erro estimadoEditar
Se uma equipa de pesquisa quiser saber o que 300 milhões de pessoas sentem sobre um determinado tópico, seria impraticável perguntar a todas elas. Entretanto, se a equipe escolher uma amostra aleatória de cerca de 1000 pessoas, elas podem ter certeza de que os resultados dados por este grupo são representativos do que o grupo maior teria dito se todos tivessem sido perguntados.
Esta confiança pode ser quantificada pelo teorema do limite central e outros resultados matemáticos. A confiança é expressa como uma probabilidade do resultado verdadeiro (para o grupo maior) estar dentro de um certo intervalo da estimativa (o valor para o grupo menor). Este é o valor “mais ou menos” frequentemente citado para os inquéritos estatísticos. A parte de probabilidade do nível de confiança geralmente não é mencionada; se assim for, assume-se que é um número padrão como 95%.
Os dois números estão relacionados. Se um inquérito tem um erro estimado de ±5% a 95% de confiança, também tem um erro estimado de ±6,6% a 99% de confiança. ± x {\displaystyle x}
% com 95% de confiança é sempre ± 1,32 x {\displaystyle 1,32x}
% a 99% de confiança para uma população normalmente distribuída.
Quanto menor o erro estimado, maior a amostra necessária, a um determinado nível de confiança.
a 95,4% de confiança:
±1% exigiria 10.000 pessoas.
±2% exigiria 2.500 pessoas.
±3% exigiria 1.111 pessoas.
±4% exigiria 625 pessoas.
±5% exigiria 400 pessoas.
±10% exigiria 100 pessoas.
±20% exigiria 25 pessoas.
±25% precisaria de 16 pessoas.
±50% precisaria de 4 pessoas.
Pessoas podem assumir, porque o número de confiança é omitido, que há 100% de certeza de que o resultado verdadeiro está dentro do erro estimado. Isto não é matematicamente correto.
Muitas pessoas podem não perceber que a aleatoriedade da amostra é muito importante. Na prática, muitas pesquisas de opinião são realizadas por telefone, o que distorce a amostra de diversas formas, incluindo a exclusão de pessoas que não têm telefone, favorecendo a inclusão de pessoas que têm mais de um telefone, favorecendo a inclusão de pessoas que estão dispostas a participar de uma pesquisa telefônica em detrimento daquelas que se recusam, etc. A amostragem não aleatória torna o erro estimado não confiável.
Por outro lado, as pessoas podem considerar que as estatísticas são inerentemente não confiáveis porque nem todos são chamados, ou porque eles próprios nunca são pesquisados. As pessoas podem pensar que é impossível obter dados sobre a opinião de dezenas de milhões de pessoas apenas sondando alguns milhares. Isto também é impreciso. Uma sondagem com uma amostragem imparcial e respostas verdadeiras tem uma margem de erro matematicamente determinada, que depende apenas do número de pessoas inquiridas.
No entanto, muitas vezes apenas uma margem de erro é relatada para uma sondagem. Quando os resultados são relatados para subgrupos populacionais, uma margem de erro maior será aplicada, mas isto pode não ficar claro. Por exemplo, um inquérito de 1000 pessoas pode conter 100 pessoas de um determinado grupo étnico ou económico. Os resultados focalizados nesse grupo serão muito menos confiáveis do que os resultados para toda a população. Se a margem de erro para a amostra completa fosse de 4%, digamos, então a margem de erro para tal subgrupo poderia ser de cerca de 13%.
Há também muitos outros problemas de medição nos inquéritos à população.
Os problemas mencionados acima aplicam-se a todos os experimentos estatísticos, não apenas aos inquéritos à população.
Falsa causalidadeEditar
Quando um teste estatístico mostra uma correlação entre A e B, geralmente há seis possibilidades:
- A causa B.
- B causa A.
- A e B ambos causam parcialmente um ao outro.
- A e B são ambos causados por um terceiro fator, C.
- B é causado por C que está correlacionado com A.
- A correlação observada foi devida puramente ao acaso.
A sexta possibilidade pode ser quantificada por testes estatísticos que podem calcular a probabilidade de que a correlação observada seria tão grande quanto por acaso se, de fato, não houver relação entre as variáveis. Entretanto, mesmo que essa possibilidade tenha uma probabilidade pequena, ainda existem as outras cinco.
Se o número de pessoas comprando sorvete na praia estiver estatisticamente relacionado ao número de pessoas que se afogam na praia, então ninguém iria alegar que o sorvete causa afogamento porque é óbvio que não é assim. (Neste caso, tanto o afogamento como a compra de gelados estão claramente relacionados por um terceiro factor: o número de pessoas na praia).
Esta falácia pode ser usada, por exemplo, para provar que a exposição a um produto químico causa cancro. Substitua “número de pessoas que compram gelados” por “número de pessoas expostas ao químico X”, e “número de pessoas que se afogam” por “número de pessoas que têm cancro”, e muitas pessoas vão acreditar em si. Em tal situação, pode haver uma correlação estatística, mesmo que não haja um efeito real. Por exemplo, se houver uma percepção de que um local químico é “perigoso” (mesmo que realmente não seja) os valores de propriedade na área irão diminuir, o que irá atrair mais famílias de baixa renda a se mudarem para essa área. Se as famílias de baixa renda têm mais probabilidade de contrair câncer do que as de alta renda (devido a uma dieta mais pobre, por exemplo, ou menos acesso a cuidados médicos), as taxas de câncer subirão, mesmo que o produto químico em si não seja perigoso. Acredita-se que foi exatamente isso que aconteceu com alguns dos primeiros estudos que mostraram uma ligação entre os campos eletromagnéticos das linhas de energia e o câncer.
Em estudos bem desenhados, o efeito da falsa causalidade pode ser eliminado atribuindo algumas pessoas a um “grupo de tratamento” e algumas pessoas a um “grupo de controle” ao acaso, e dando ao grupo de tratamento o tratamento e não dando ao grupo de controle o tratamento. No exemplo acima, um pesquisador pode expor um grupo de pessoas ao químico X e deixar um segundo grupo não exposto. Se o primeiro grupo tinha taxas de câncer mais altas, o pesquisador sabe que não há um terceiro fator que afetasse se uma pessoa foi exposta porque ele controlava quem foi exposto ou não, e ele atribuiu pessoas aos grupos expostos e não-expostos aleatoriamente. No entanto, em muitas aplicações, fazer um experimento desta maneira é proibitivamente caro, inviável, antiético, ilegal, ou totalmente impossível. Por exemplo, é altamente improvável que um CRI aceite um experimento que envolva a exposição intencional de pessoas a uma substância perigosa a fim de testar sua toxicidade. As implicações éticas óbvias de tais tipos de experimentos limitam a capacidade dos pesquisadores de testar empiricamente a causalidade.
Prova da hipótese nulaEditar
Num teste estatístico, a hipótese nula ( H 0 {\displaystyle H_{0}}
) é considerada válida até que dados suficientes provem que está errada. Então H 0 {\displaystyle H_{0}}}
é rejeitada e a hipótese alternativa ( H A {\a}}
) é considerada como correta. Por acaso isto pode acontecer, apesar de H 0 {\displaystyle H_{0}}}
é verdade, com uma probabilidade denotada α {\i1}displaystyle {\i1}alpha
(o nível de significância). Isto pode ser comparado ao processo judicial, onde o acusado é considerado inocente ( H 0 {\i1}
) até prova em contrário ( H A {\i}
) para além de qualquer dúvida razoável ( α {\i} {\i1}
).
Mas se os dados não nos derem provas suficientes para rejeitarmos esse H 0 {\i1}displaystyle H_{\i}}
, isto não prova automaticamente que o H 0 {\i1}displaystyle H_{0}}
está correcto. Se, por exemplo, um produtor de tabaco deseja demonstrar que seus produtos são seguros, pode facilmente realizar um teste com uma pequena amostra de fumantes versus uma pequena amostra de não-fumantes. É improvável que algum deles desenvolva câncer de pulmão (e mesmo que o façam, a diferença entre os grupos tem que ser muito grande para rejeitar o H 0 {\\i1}{\i1}displaystyle H_{\i}}
). Portanto, é como se – mesmo quando fumar é perigoso – o nosso teste não rejeitasse o H 0 {\i1}displaystyle H_{0}}.
. Se H 0 {\\i1}displaystyle H_{0}}
é aceite, não se segue automaticamente que fumar é comprovadamente inofensivo. O teste não tem potência suficiente para rejeitar o H 0 {\i1}{\i1}
, então o teste é inútil e o valor da “prova” de H 0 {\\i1}displaystyle H_{\i}}
também é nulo.
Este pode – usando o análogo judicial acima – ser comparado com o acusado verdadeiramente culpado que é libertado apenas porque a prova não é suficiente para um veredicto de culpa. Isto não prova a inocência do réu, mas apenas que não há provas suficientes para um veredicto de culpa.
“…a hipótese nula nunca é provada ou estabelecida, mas é possivelmente refutada, no curso da experimentação. Todo experimento pode ser dito que existe apenas para dar aos fatos uma chance de refutar a hipótese nula”. (Fisher em O Desenho de Experimentos) Existem muitas razões para confusão, incluindo o uso de dupla lógica negativa e terminologia resultante da fusão do “teste de significância” de Fisher (onde a hipótese nula nunca é aceita) com o “teste de hipóteses” (onde algumas hipóteses são sempre aceitas).
Confundir significância estatística com significância práticaEditar
A significância estatística é uma medida de probabilidade; significância prática é uma medida de efeito. A cura da calvície é estatisticamente significativa se uma cefaléia esparsa cobre geralmente o couro cabeludo previamente nu. A cura é praticamente significativa quando um chapéu não é mais necessário em tempo frio e o barbeiro pergunta quanto para tirar a parte superior. O careca quer uma cura que seja estatisticamente e praticamente significativa; provavelmente funcionará e se funcionar, terá um grande efeito cabeludo. A publicação científica muitas vezes requer apenas significância estatística. Isso tem levado a reclamações (nos últimos 50 anos) de que o teste de significância estatística é um mau uso de estatísticas.
Dragagem de dadosEditar
A dragagem de dados é um abuso da mineração de dados. Na dragagem de dados, grandes compilações de dados são examinadas a fim de encontrar uma correlação, sem qualquer escolha pré-definida de uma hipótese a ser testada. Como o intervalo de confiança necessário para estabelecer uma relação entre dois parâmetros é geralmente escolhido para ser 95% (o que significa que há uma chance de 95% de que a relação observada não seja devida à chance aleatória), há assim uma chance de 5% de encontrar uma correlação entre quaisquer dois conjuntos de variáveis completamente aleatórias. Dado que os esforços de dragagem de dados normalmente examinam grandes conjuntos de dados com muitas variáveis e, portanto, números ainda maiores de pares de variáveis, resultados espúrios, mas aparentemente estatisticamente significativos, são quase certos de serem encontrados por qualquer estudo desse tipo.
Note que a dragagem de dados é uma forma válida de encontrar uma hipótese possível, mas essa hipótese deve então ser testada com dados não utilizados na dragagem original. O mau uso vem quando essa hipótese é declarada como fato sem validação posterior.
“Você não pode legitimamente testar uma hipótese sobre os mesmos dados que sugeriram inicialmente essa hipótese. O remédio é claro. Uma vez que você tenha uma hipótese, projete um estudo para buscar especificamente o efeito que você pensa que existe. Se o resultado desse teste for estatisticamente significativo, você tem finalmente evidências reais”
Manipulação de dadosEditar
Informalmente chamado “fudging the data,” esta prática inclui relatórios seletivos (ver também viés de publicação) e até mesmo simplesmente inventando dados falsos.
Exemplos de relatórios seletivos abundam. Os exemplos mais fáceis e mais comuns envolvem a escolha de um grupo de resultados que seguem um padrão consistente com a hipótese preferida enquanto ignoram outros resultados ou “corridas de dados” que contradizem a hipótese.
Procursores psíquicos têm estudos há muito disputados mostrando pessoas com habilidade em ESP. Os críticos acusam os proponentes do ESP de apenas publicar experiências com resultados positivos e arquivar aquelas que mostram resultados negativos. Um “resultado positivo” é uma série de testes (ou de dados) em que o sujeito adivinha um cartão escondido, etc., com uma frequência muito maior do que o acaso.
Os cientistas, em geral, questionam a validade dos resultados dos estudos que não podem ser reproduzidos por outros investigadores. Entretanto, alguns cientistas se recusam a publicar seus dados e métodos.
A manipulação de dados é uma questão/consideração séria na mais honesta das análises estatísticas. Outliers, dados em falta e não-normalidade podem afetar negativamente a validade da análise estatística. É apropriado estudar os dados e reparar problemas reais antes de começar a análise. “n qualquer diagrama de dispersão haverá alguns pontos mais ou menos destacados da parte principal da nuvem: esses pontos devem ser rejeitados apenas por causa”
Outras faláciasEditar
Pseudoreplicação é um erro técnico associado à análise de variância. A complexidade esconde o fato de que a análise estatística está sendo tentada em uma única amostra (N=1). Para este caso degenerado, a variância não pode ser calculada (divisão por zero). Um (N=1) sempre dará ao pesquisador a maior correlação estatística entre o viés de intenção e os resultados reais.
A falácia do jogador assume que um evento para o qual uma probabilidade futura pode ser medida teve a mesma probabilidade de acontecer uma vez que já tenha ocorrido. Assim, se alguém já tivesse atirado 9 moedas e cada uma delas tivesse subido de cabeça, as pessoas tendem a assumir que a probabilidade de um décimo atiramento também ser cabeça é de 1023 para 1 contra (o que era antes da primeira moeda ter sido atirada) quando de fato a chance da décima cabeça é de 50% (assumindo que a moeda seja imparcial).
A falácia da promotora levou, no Reino Unido, a Sally Clark a ser erroneamente condenada por matar seus dois filhos. Em tribunal, a baixa probabilidade estatística (1 em 73 milhões) dos dois filhos de uma mulher morrerem de Síndrome de Morte Súbita Infantil dada pelo Professor Sir Roy Meadow foi mal interpretada, sugerindo uma baixa probabilidade da sua inocência. Mesmo que a probabilidade de dupla SIDS, que mais tarde foi questionada pela Royal Statistical Society, estivesse correcta, é preciso ponderar todas as explicações possíveis uma contra a outra para chegar a uma conclusão sobre o que muito provavelmente causou a morte inexplicável das duas crianças. Os dados disponíveis sugerem que as probabilidades seriam a favor do duplo SIDS em comparação com o duplo homicídio por um factor de nove”. A condenação de Sally Clark acabou por ser anulada.
A falácia lúdica. As probabilidades são baseadas em modelos simples que ignoram as possibilidades reais (se remotas). Os jogadores de poker não consideram que um adversário possa sacar uma arma em vez de uma carta. Os segurados (e governos) assumem que as seguradoras permanecerão solventes, mas veja AIG e risco sistêmico.
Outros tipos de uso indevidoEditar
Outros usos indevidos incluem comparar maçãs e laranjas, usando a média errada, regressão em direção à média, e a frase guarda-chuva lixo dentro, lixo fora. Algumas estatísticas são simplesmente irrelevantes para uma questão.
O quarteto de Anscombe é um conjunto de dados inventado que exemplifica as deficiências da estatística descritiva simples (e o valor da plotagem de dados antes da análise numérica).