- Descarte de observaciones desfavorablesEditar
- Ignorar características importantesEditar
- Preguntas cargadasEditar
- La sobregeneralizaciónEditar
- Muestras sesgadasEditar
- La información errónea o la incomprensión del error estimadoEditar
- Falsa causalidadEditar
- Prueba de la hipótesis nulaEditar
- Confundir la significación estadística con la significación prácticaEditar
- Dragado de datosEditar
- Manipulación de datosEditar
- Otras falaciasEditar
- Otros tipos de uso indebidoEditar
Descarte de observaciones desfavorablesEditar
Todo lo que tiene que hacer una empresa para promocionar un producto neutral (inútil) es encontrar o realizar, por ejemplo, 40 estudios con un nivel de confianza del 95%. Si el producto es realmente inútil, esto produciría una media de un estudio que demostrara que el producto era beneficioso, un estudio que demostrara que era perjudicial y treinta y ocho estudios no concluyentes (38 es el 95% de 40). Esta táctica es más eficaz cuantos más estudios haya disponibles. Las organizaciones que no publican todos los estudios que realizan, como las empresas tabaqueras que niegan una relación entre el tabaquismo y el cáncer, los grupos de defensa antitabaco y los medios de comunicación que intentan demostrar una relación entre el tabaquismo y diversas dolencias, o los vendedores de píldoras milagrosas, son propensos a utilizar esta táctica.
Ronald Fisher consideró esta cuestión en su famoso experimento de ejemplo de degustación de té de señora (de su libro de 1935, El diseño de experimentos). Con respecto a los experimentos repetidos, dijo: «Sería claramente ilegítimo, y despojaría a nuestro cálculo de su base, si no se tuvieran en cuenta todos los resultados fallidos».
Otro término relacionado con este concepto es cherry picking.
Ignorar características importantesEditar
Los conjuntos de datos multivariables tienen dos o más características/dimensiones. Si se eligen muy pocas de estas características para el análisis (por ejemplo, si se elige sólo una característica y se realiza una regresión lineal simple en lugar de una regresión lineal múltiple), los resultados pueden ser engañosos. Esto deja al analista vulnerable a cualquiera de las diversas paradojas estadísticas o, en algunos casos (no todos), a una falsa causalidad, como se indica a continuación.
Preguntas cargadasEditar
Las respuestas de las encuestas a menudo pueden ser manipuladas mediante la redacción de la pregunta de tal manera como para inducir una prevalencia hacia una determinada respuesta del encuestado. Por ejemplo, al encuestar el apoyo a una guerra, las preguntas:
- ¿Apoya usted el intento de EE.UU. de llevar la libertad y la democracia a otros lugares del mundo?
- ¿Apoya usted la acción militar no provocada de EE.UU.
probablemente darán como resultado datos sesgados en diferentes direcciones, aunque ambos estén encuestando sobre el apoyo a la guerra. Una forma mejor de formular la pregunta podría ser «¿Apoya usted la actual acción militar de Estados Unidos en el extranjero?» Una forma aún más neutral de formular la pregunta es «¿Cuál es su opinión sobre la actual acción militar de EE.UU. en el extranjero?» La cuestión es que la persona a la que se le pregunta no tiene forma de adivinar a partir del enunciado lo que el interrogador podría querer oír.
Otra forma de hacerlo es preceder la pregunta de información que apoye la respuesta «deseada». Por ejemplo, es probable que más personas respondan «sí» a la pregunta «Dada la creciente carga impositiva sobre las familias de clase media, ¿apoya usted los recortes del impuesto sobre la renta?» que a la pregunta «Teniendo en cuenta el creciente déficit presupuestario federal y la desesperada necesidad de más ingresos, ¿apoya usted los recortes del impuesto sobre la renta?»
La formulación adecuada de las preguntas puede ser muy sutil. Las respuestas a dos preguntas pueden variar drásticamente según el orden en que se formulen. «Una encuesta en la que se preguntaba por la ‘propiedad de las acciones’ descubrió que la mayoría de los ganaderos de Texas poseían acciones, aunque probablemente no del tipo que cotiza en la Bolsa de Nueva York.»
La sobregeneralizaciónEditar
La sobregeneralización es una falacia que se produce cuando se afirma que una estadística sobre una población concreta es válida entre los miembros de un grupo para el que la población original no es una muestra representativa.
Por ejemplo, supongamos que se observa que el 100% de las manzanas son rojas en verano. La afirmación «Todas las manzanas son rojas» sería un caso de sobregeneralización porque la estadística original era cierta sólo para un subconjunto específico de manzanas (las de verano), que no se espera que sea representativo de la población de manzanas en su conjunto.
Un ejemplo del mundo real de la falacia de sobregeneralización puede observarse como un artefacto de las técnicas modernas de sondeo, que prohíben llamar a teléfonos móviles para realizar encuestas políticas por teléfono. Dado que los jóvenes son más propensos que otros grupos demográficos a carecer de un teléfono convencional «fijo», una encuesta telefónica que encueste exclusivamente a los encuestados que llamen a teléfonos fijos, puede hacer que los resultados de la encuesta no reflejen las opiniones de los jóvenes, si no se toman otras medidas para tener en cuenta este sesgo del muestreo. Así, una encuesta que examine las preferencias de voto de los jóvenes utilizando esta técnica puede no ser una representación perfectamente exacta de las verdaderas preferencias de voto de los jóvenes en su conjunto sin sobregeneralizar, porque la muestra utilizada excluye a los jóvenes que sólo llevan teléfonos móviles, que pueden tener o no preferencias de voto diferentes del resto de la población.
La sobregeneralización se produce a menudo cuando la información se transmite a través de fuentes no técnicas, en particular los medios de comunicación.
Muestras sesgadasEditar
Los científicos han aprendido a costa de que reunir buenos datos experimentales para el análisis estadístico es difícil. Ejemplo: El efecto placebo (mente sobre cuerpo) es muy poderoso. El 100% de los sujetos desarrollaron una erupción cuando se expusieron a una sustancia inerte que fue falsamente llamada hiedra venenosa mientras que pocos desarrollaron una erupción a un objeto «inofensivo» que realmente era hiedra venenosa. Los investigadores combaten este efecto mediante experimentos comparativos aleatorios a doble ciego. Los estadísticos suelen preocuparse más por la validez de los datos que por el análisis. Esto se refleja en un campo de estudio dentro de la estadística conocido como el diseño de experimentos.
Los encuestadores han aprendido a un gran coste que reunir buenos datos de encuestas para el análisis estadístico es difícil. El efecto selectivo de los teléfonos móviles en la recopilación de datos (analizado en la sección sobre la sobregeneralización) es un ejemplo potencial; si los jóvenes con teléfonos tradicionales no son representativos, la muestra puede estar sesgada. Las encuestas por muestreo tienen muchos escollos y requieren un gran cuidado en su ejecución. Una de ellas requirió casi 3.000 llamadas telefónicas para obtener 1.000 respuestas. La muestra aleatoria simple de la población «no es sencilla y puede no ser aleatoria»
La información errónea o la incomprensión del error estimadoEditar
Si un equipo de investigación quiere saber qué opinan 300 millones de personas sobre un determinado tema, sería poco práctico preguntarles a todas. Sin embargo, si el equipo elige una muestra aleatoria de unas 1000 personas, puede estar bastante seguro de que los resultados dados por este grupo son representativos de lo que habría dicho el grupo más grande si se les hubiera preguntado a todos.
Esta confianza puede cuantificarse realmente mediante el teorema del límite central y otros resultados matemáticos. La confianza se expresa como una probabilidad de que el resultado verdadero (para el grupo más grande) esté dentro de un cierto rango de la estimación (la cifra para el grupo más pequeño). Es la cifra de «más o menos» que suele citarse en las encuestas estadísticas. La parte de la probabilidad del nivel de confianza no suele mencionarse; si lo hace, se supone que es un número estándar como el 95%.
Los dos números están relacionados. Si una encuesta tiene un error estimado de ±5% con una confianza del 95%, también tiene un error estimado de ±6,6% con una confianza del 99%. ± x {\displaystyle x}
% al 95% de confianza es siempre ± 1,32 x {\displaystyle 1,32x}
% al 99% de confianza para una población con distribución normal.
Cuanto menor sea el error estimado, mayor será la muestra necesaria, con un nivel de confianza determinado.
Con una confianza del 95,4%:
±1% requeriría 10.000 personas.
±2% requeriría 2.500 personas.
±3% requeriría 1.111 personas.
±4% requeriría 625 personas.
±5% requeriría 400 personas.
±10% requeriría 100 personas.
±20% requeriría 25 personas.
±25% requeriría 16 personas.
±50% requeriría 4 personas.
La gente puede asumir, porque se omite la cifra de confianza, que hay un 100% de certeza de que el resultado verdadero está dentro del error estimado. Esto no es matemáticamente correcto.
Mucha gente puede no darse cuenta de que la aleatoriedad de la muestra es muy importante. En la práctica, muchas encuestas de opinión se realizan por teléfono, lo que distorsiona la muestra de varias maneras, incluyendo la exclusión de personas que no tienen teléfono, favoreciendo la inclusión de personas que tienen más de un teléfono, favoreciendo la inclusión de personas que están dispuestas a participar en una encuesta telefónica frente a las que se niegan, etc. El muestreo no aleatorio hace que el error estimado no sea fiable.
Por otro lado, la gente puede considerar que las estadísticas son intrínsecamente poco fiables porque no se llama a todo el mundo, o porque ellos mismos nunca son encuestados. La gente puede pensar que es imposible obtener datos sobre la opinión de decenas de millones de personas con sólo encuestar a unos pocos miles. Esto también es inexacto. Una encuesta con un muestreo perfectamente imparcial y respuestas veraces tiene un margen de error determinado matemáticamente, que sólo depende del número de personas encuestadas.
Sin embargo, a menudo sólo se comunica un margen de error para una encuesta. Cuando los resultados se comunican para subgrupos de población, se aplicará un margen de error mayor, pero esto puede no quedar claro. Por ejemplo, una encuesta de 1000 personas puede contener 100 personas de un determinado grupo étnico o económico. Los resultados centrados en ese grupo serán mucho menos fiables que los de toda la población. Si el margen de error de la muestra completa era del 4%, por ejemplo, el margen de error de ese subgrupo podría ser de alrededor del 13%.
También hay muchos otros problemas de medición en las encuestas de población.
Los problemas mencionados anteriormente se aplican a todos los experimentos estadísticos, no sólo a las encuestas de población.
Falsa causalidadEditar
Cuando una prueba estadística muestra una correlación entre A y B, suele haber seis posibilidades:
- A causa B.
- B causa A.
- A y B se causan mutuamente en parte.
- A y B son causados por un tercer factor, C.
- B es causado por C que está correlacionado con A.
- La correlación observada se debe puramente al azar.
La sexta posibilidad puede ser cuantificada por pruebas estadísticas que pueden calcular la probabilidad de que la correlación observada sea tan grande como lo es sólo por el azar si, de hecho, no hay ninguna relación entre las variables. Sin embargo, aunque esa posibilidad tenga una probabilidad pequeña, siguen existiendo las otras cinco.
Si el número de personas que compran helados en la playa está estadísticamente relacionado con el número de personas que se ahogan en la playa, entonces nadie afirmaría que los helados provocan ahogamientos porque es obvio que no es así. (En este caso, tanto el ahogamiento como la compra de helados están claramente relacionados por un tercer factor: el número de personas en la playa).
Esta falacia puede utilizarse, por ejemplo, para demostrar que la exposición a una sustancia química provoca cáncer. Sustituya «número de personas que compran helados» por «número de personas expuestas a la sustancia química X», y «número de personas que se ahogan» por «número de personas que contraen cáncer», y mucha gente le creerá. En una situación así, puede haber una correlación estadística aunque no haya un efecto real. Por ejemplo, si existe la percepción de que un emplazamiento químico es «peligroso» (aunque realmente no lo sea) el valor de la propiedad en la zona disminuirá, lo que atraerá a más familias de bajos ingresos a trasladarse a esa zona. Si las familias de bajos ingresos tienen más probabilidades de contraer cáncer que las de altos ingresos (debido a una dieta más pobre, por ejemplo, o a un menor acceso a la atención médica), los índices de cáncer aumentarán, aunque el producto químico en sí no sea peligroso. Se cree que esto es exactamente lo que ocurrió con algunos de los primeros estudios que mostraban una relación entre los CEM (campos electromagnéticos) de las líneas eléctricas y el cáncer.
En estudios bien diseñados, el efecto de la falsa causalidad puede eliminarse asignando a algunas personas a un «grupo de tratamiento» y a otras a un «grupo de control» al azar, y dando al grupo de tratamiento el tratamiento y no dando al grupo de control el tratamiento. En el ejemplo anterior, un investigador podría exponer a un grupo de personas a la sustancia química X y dejar un segundo grupo sin exponer. Si el primer grupo tiene tasas de cáncer más altas, el investigador sabe que no hay ningún tercer factor que afecte a la exposición de una persona, ya que controló quién estaba expuesto o no, y asignó a las personas a los grupos expuestos y no expuestos de forma aleatoria. Sin embargo, en muchas aplicaciones, hacer un experimento de esta manera es prohibitivo, inviable, poco ético, ilegal o directamente imposible. Por ejemplo, es muy poco probable que un CEI acepte un experimento que implique exponer intencionadamente a las personas a una sustancia peligrosa para comprobar su toxicidad. Las obvias implicaciones éticas de tales tipos de experimentos limitan la capacidad de los investigadores para probar empíricamente la causalidad.
Prueba de la hipótesis nulaEditar
En una prueba estadística, la hipótesis nula ( H 0 {\displaystyle H_{0}}
) se considera válida hasta que suficientes datos demuestren que es incorrecta. Entonces H 0 {displaystyle H_{0}}
se rechaza y se considera que la hipótesis alternativa ( H A {\displaystyle H_{A}}
) es correcta. Por casualidad esto puede ocurrir, aunque H 0 {\displaystyle H_{0}}
sea verdadera, con una probabilidad denotada α {\displaystyle \alpha }
(el nivel de significación). Esto puede compararse con el proceso judicial, en el que el acusado se considera inocente ( H 0 {\displaystyle H_{0}}
) hasta que se demuestre su culpabilidad ( H A {\displaystyle H_{A}}
) más allá de toda duda razonable ( α {\displaystyle \alpha }
).
Pero si los datos no nos dan pruebas suficientes para rechazar que H 0 {\displaystyle H_{0}}
, esto no demuestra automáticamente que H 0 {displaystyle H_{0}}
es correcto. Si, por ejemplo, un productor de tabaco desea demostrar que sus productos son seguros, puede realizar fácilmente una prueba con una pequeña muestra de fumadores frente a una pequeña muestra de no fumadores. Es poco probable que alguno de ellos desarrolle un cáncer de pulmón (e incluso si lo hace, la diferencia entre los grupos tiene que ser muy grande para rechazar H 0 {displaystyle H_{0}}.
). Por lo tanto, es probable -incluso cuando el tabaquismo es peligroso- que nuestra prueba no rechace la H 0 {displaystyle H_{0}}
. Si H 0 {\displaystyle H_{0}}
se acepta, no se deduce automáticamente que se demuestre que fumar es inofensivo. La prueba no tiene suficiente potencia para rechazar H 0 {\displaystyle H_{0}}
, por lo que la prueba es inútil y el valor de la «prueba» de H 0 {displaystyle H_{0}}
es también nulo.
Esto puede -utilizando el análogo judicial anterior- compararse con el acusado verdaderamente culpable que es liberado sólo porque la prueba no es suficiente para un veredicto de culpabilidad. Esto no demuestra la inocencia del acusado, sino sólo que no hay pruebas suficientes para un veredicto de culpabilidad.
«…la hipótesis nula nunca se demuestra ni se establece, sino que posiblemente se refuta, en el curso de la experimentación. Puede decirse que todo experimento existe sólo para dar a los hechos la posibilidad de refutar la hipótesis nula.» (Fisher en The Design of Experiments) Existen muchas razones para la confusión, incluyendo el uso de la lógica de la doble negación y la terminología resultante de la fusión de la «prueba de significación» de Fisher (donde la hipótesis nula nunca se acepta) con la «prueba de hipótesis» (donde siempre se acepta alguna hipótesis).
Confundir la significación estadística con la significación prácticaEditar
La significación estadística es una medida de probabilidad; la significación práctica es una medida de efecto. Una cura de la calvicie es estadísticamente significativa si una escasa pelusa de melocotón cubre habitualmente el cuero cabelludo antes desnudo. La cura es prácticamente significativa cuando ya no se necesita un sombrero cuando hace frío y el barbero pregunta cuánto hay que quitarle a la parte superior. Los calvos quieren una cura que sea significativa tanto desde el punto de vista estadístico como práctico; probablemente funcione y, si lo hace, tendrá un gran efecto capilar. La publicación científica suele exigir sólo significación estadística. Esto ha dado lugar a quejas (durante los últimos 50 años) de que las pruebas de significación estadística son un mal uso de la estadística.
Dragado de datosEditar
El dragado de datos es un abuso de la minería de datos. En el dragado de datos, se examinan grandes recopilaciones de datos para encontrar una correlación, sin ninguna elección predefinida de una hipótesis a probar. Dado que el intervalo de confianza necesario para establecer una relación entre dos parámetros suele ser del 95% (lo que significa que hay un 95% de probabilidades de que la relación observada no se deba al azar), existe un 5% de probabilidades de encontrar una correlación entre dos conjuntos de variables completamente aleatorias. Dado que los esfuerzos de dragado de datos suelen examinar grandes conjuntos de datos con muchas variables y, por tanto, un número aún mayor de pares de variables, es casi seguro que cualquier estudio de este tipo encuentre resultados espurios pero aparentemente significativos.
Nótese que el dragado de datos es una forma válida de encontrar una posible hipótesis, pero esa hipótesis debe probarse después con datos no utilizados en el dragado original. El mal uso viene cuando esa hipótesis se afirma como un hecho sin más validación.
«No se puede probar legítimamente una hipótesis con los mismos datos que sugirieron primero esa hipótesis. El remedio es claro. Una vez que tenga una hipótesis, diseñe un estudio para buscar específicamente el efecto que ahora cree que existe. Si el resultado de esta prueba es estadísticamente significativo, por fin tienes pruebas reales».
Manipulación de datosEditar
Informalmente llamada «amañar los datos», esta práctica incluye la presentación de informes selectivos (véase también el sesgo de publicación) e incluso la simple invención de datos falsos.
Los ejemplos de presentación de informes selectivos abundan. Los ejemplos más fáciles y comunes implican la elección de un grupo de resultados que siguen un patrón consistente con la hipótesis preferida, mientras que se ignoran otros resultados o «series de datos» que contradicen la hipótesis.
Los investigadores psíquicos han cuestionado durante mucho tiempo los estudios que muestran a personas con capacidad de percepción extrasensorial. Los críticos acusan a los defensores de la percepción extrasensorial de publicar sólo los experimentos con resultados positivos y archivar los que muestran resultados negativos. Un «resultado positivo» es una prueba (o una serie de datos) en la que el sujeto adivina una carta oculta, etc., con una frecuencia mucho mayor que el azar.
Los científicos, en general, cuestionan la validez de los resultados de los estudios que no pueden ser reproducidos por otros investigadores. Sin embargo, algunos científicos se niegan a publicar sus datos y métodos.
La manipulación de los datos es un problema/consideración grave en el más honesto de los análisis estadísticos. Los valores atípicos, los datos que faltan y la no normalidad pueden afectar negativamente a la validez del análisis estadístico. Conviene estudiar los datos y reparar los problemas reales antes de comenzar el análisis. «n todo diagrama de dispersión habrá algunos puntos más o menos alejados de la parte principal de la nube: estos puntos deben rechazarse sólo por causa.»
Otras falaciasEditar
La pseudoreplicación es un error técnico asociado al análisis de la varianza. La complejidad oculta el hecho de que el análisis estadístico se está intentando realizar sobre una única muestra (N=1). Para este caso degenerado no se puede calcular la varianza (división por cero). Un (N=1) siempre dará al investigador la mayor correlación estadística entre el sesgo de la intención y los hallazgos reales.
La falacia del jugador asume que un evento para el que se puede medir una probabilidad futura tiene la misma probabilidad de ocurrir una vez que ya ha ocurrido. Así, si alguien ya ha lanzado 9 monedas y cada una de ellas ha salido cara, la gente tiende a asumir que la probabilidad de que un décimo lanzamiento también salga cara es de 1023 a 1 en contra (lo que era antes de lanzar la primera moneda) cuando en realidad la probabilidad de que la décima salga cara es del 50% (suponiendo que la moneda sea imparcial).
La falacia del fiscal ha llevado, en el Reino Unido, a que Sally Clark sea condenada erróneamente por matar a sus dos hijos. En el juicio, la baja probabilidad estadística (1 entre 73 millones) de que los dos hijos de la mujer murieran por el síndrome de muerte súbita del lactante, dada por el profesor Sir Roy Meadow, fue malinterpretada para sugerir una baja probabilidad de su inocencia. Incluso si la probabilidad proporcionada de doble SMSL, que fue cuestionada posteriormente por la Real Sociedad de Estadística, fuera correcta hay que sopesar todas las posibles explicaciones entre sí para llegar a una conclusión sobre cuál fue la causa más probable de la muerte inexplicable de los dos niños. Los datos disponibles sugieren que las probabilidades estarían a favor del doble SMSL en comparación con el doble homicidio por un factor de nueve». La condena de Sally Clark fue finalmente anulada.
La falacia lúdica. Las probabilidades se basan en modelos simples que ignoran las posibilidades reales (aunque remotas). Los jugadores de póquer no tienen en cuenta que un adversario puede sacar una pistola en lugar de una carta. Los asegurados (y los gobiernos) asumen que las aseguradoras seguirán siendo solventes, pero véase AIG y el riesgo sistémico.
Otros tipos de uso indebidoEditar
Otros usos indebidos incluyen la comparación de manzanas y naranjas, el uso de una media incorrecta, la regresión hacia la media y la frase paraguas basura dentro, basura fuera. Algunas estadísticas son simplemente irrelevantes para un problema.
El cuarteto de Anscombe es un conjunto de datos inventado que ejemplifica las deficiencias de la estadística descriptiva simple (y el valor de la representación gráfica de los datos antes del análisis numérico).