Estadística

Y termino con lo de los intervalos

Y termino con lo de los intervalos. Me refiero a esto y esto.

Nunca me habría atrevido a escribir sobre el tema, y exponerme, de paso, a la muy razonadas explicaciones de quienes tuvieron a bien comentarlas, si no hubiese sido por un tema personal: el recuerdo de la frustración que me supuso hacerme en su día con la teoría subyacente tanto a las pruebas de hipótesis como a la construcción de intervalos de confianza.

Comparaciones de tres grupos: pruebas vs modelos

Una pregunta reciente en r-help-es se refería a la comparación en R de las proporciones en tres grupos. Obviando algunas pequeñas complicaciones en el problema, la respuesta canónica podría ser esta:

total <- c(56, 49,51)
positivos <- c(14, 10, 17)
prop.test(tmp$positivos, tmp$positivos + tmp$negativos)

# 3-sample test for equality of proportions without continuity correction
#
# data:  tmp$positivos out of tmp$positivos + tmp$negativos
# X-squared = 2.2289, df = 2, p-value = 0.3281
# alternative hypothesis: two.sided
# sample estimates:
#   prop 1    prop 2    prop 3
# 0.2500000 0.2040816 0.3333333

Los grupos no parecen ser desiguales.

¿A cuántos zombis conoces?

El artículo cuya lectura propongo hoy comienza así:

La zombificación es un gran problema de salud y de seguridad pública muy difícil de estudiar usando los métodos tradicionales basados en encuestas. Se cree que la tasa de penetración del teléfono entre la población zombi es pequeña. Además, los zombis son reacios a identificarse como tales al ser encuestados. Las entrevistas personales suponen un riesgo elevado para quienes las realizan. Las esperanzas originalmente depositadas en las encuestas a través del ordenador se desvanecieron ante el riesgo de que los virus propagasen la infección zombi.

La intersección de lo interesante, lo sorprendente, lo cierto y lo basado en datos

Me interesan, obviamente, los problemas interesantes.

Me interesan los problemas en que puedo argumentar basándome en datos. Para ello, obviamente, de nuevo, tienen que existir datos con los que tratar de dar respuesta a esas preguntas interesantes del párrafo anterior.

Me interesa que los datos revelen respuestas no obvias, que no sepamos ya de antemano. Me interesa que los datos me sorprendan.

Me interesa, obviamente, que esas respuestas sorprendentes a preguntas interesantes basadas en datos sean ciertas. O que tengan visos de certeza. Cuando menos, que no se caigan en la primera revisión crítica.

La combinación de observaciones y el método de mínimos cuadrados: una revisión histórica

Sabemos y se sabe desde hace mucho que un sistema lineal de n ecuaciones con m incógnitas, cuando n > m (y especialmente cuando n » m), muy probablemente no tenga solución. No obstante, sistemas así ocurren naturalmente: ahí está el modelo lineal.

En tiempos, al cálculo de los mejores coeficientes para ajustar un conjunto de datos, cuando el número de observaciones excedía el de coeficientes se lo llamó combinación de observaciones. Desde muy pronto se observó que más observaciones conducían a mejores estimaciones. Pero se tardó mucho en establecer cómo.

Contaminación y restricciones de tráfico en Madrid: ¿por qué no se puede ni prevenir ni "estimar"?

Aparentemente, porque así lo establece el protocolo de actuación, del ayuntamiento de la villa. Lo resume la imagen

antiestadistica

que bajé de Twitter y que me llamó la atención sobremanera. Algún gobierno municipal decidió en su día que estaba fuera de lugar tanto prevenir como estimar.

Me preocupa que dicho gobierno municipal estuviese reñido con el refranero en lo concerniente a la prevención. Pero no es el asunto, entiendo, por el que mis lectores me visitan.

¿Os lo podéis creer? ¡"Funnel plots" en la prensa española!

Pues sí, aquí están,

funnel_plots_suicidios

recién copipegados del documental de El Español sobre el suicidio.

Son los mismos de los que hablaba aquí o sobre los que Spiegelhalter ha publicado la mar de artículos.

Pero, ¿qué hacen en la prensa de un país como España? La historia es un poco larga, casi tanto como la mía protestando de la escasa calidad de los gráficos estadísticos por doquier. Pero esta vez los autores del documental me han invitado renunciar a la comodidad del crítico que todo lo juzga desde el sillón a, digámoslo así, consultor (o consejero) que tiene que pasar a proponer soluciones.

¿Estadística cualitativa?

La estadística cualitativa es una disciplina que, creo, no existe. Igual, simplemente, no existe porque no tiene razón de ser. No he buscado aún sistemáticamente, pero mi memoria no da con algo que se le parezca.

No es Statistics for Dummies: en la misma portada del libro dice que te quiere enseñar los cálculos y fórmulas esenciales. Como diré más abajo, no van por ahí los tiros.

Tampoco es la estadística descriptiva, que es lo menos estadístico que existe. Al menos, la que yo he visto, que tiende a ignorar, entre otras cosas, la variabilidad. La estadística descriptiva (insisto, la que yo conozco, como yo la he visto) es una rama de la aritmética, no de la estadística.

Reescrituras interesadas (de resultados estadísticos más o menos conocidos)

Traigo hoy dos artículos interesantes sobre un mismo tema: la ciencia de datos reescribiendo de manera interesada resultados estadísticos más o menos conocidos, presentando como nuevos los que no lo son del todo y omitiendo interesadamente referecias bibliográficas.

Son este y este (aunque el segundo trata de más temas).

Es muy interesante el concepto de plagio inteligente en oposición al de plagio literal que denuncia el primer enlace.

GAM

Hoy he dado una charla en la Carlos III. En la comida me han preguntado, algo extrañados, por un ejemplo que había enseñado en el que ajustaba un modelo usando GAMs.

El motivo era que quienes preguntaban —que trabajan con ese tipo de modelos— encuentran muy difícil, se ve, convencer a otros usuarios de los métodos estadísticos (economistas, etc.) de adoptarlos. Yo he contestado que hace unos pocos días a unos primíparos que acababan de ajustar sus tres primeros lms con R les invité a probar GAMs con sus datos. ¿Por qué no?