Estadística

Escribid a ley de Stamp en un papelito y pegadla en el espejo

Esta página me conduce a esta otra en la que, aparte de revelar su la autoría, nos informa de que la cita

The government are very keen on amassing statistics. They collect them, add them, raise them to the nth power, take the cube root and prepare wonderful diagrams. But you must never forget that every one of these figures comes in the first instance from the chowky dar [village watchman in India], who just puts down what he damn pleases.

Un muy cuestionable análisis de lo de PISA

Voy a realizar un más que cuestionable (debajo desgranaré los caveats) de los resultados de las pruebas PISA del 2015 en España.

Primero, datos y métodos. Los primeros (y las descripciones de las variables) se pueden bajar de aquí. En cuanto a los segundos, he consultado esto (que me ha llevado a), esto y esto (donde está actualizado para los resultados de la última oleada). Hablaré más de métodos, y sus problemas, más abajo.

Una pregunta sobre pruebas de hipótesis

Más que pregunta, debería haberlo planteado como encuesta: no estoy preguntando sino preguntándote qué es lo que haces tú (habitualmente).

Va de pruebas de hipótesis (a la Fisher). La teoría dice que hay que plantear una hipótesis nula y para poder estudiar lo anómalos que son los datos obtenidos experimentalmente bajo dicha hipótesis. Es decir, calculas $latex P(X | H_0)$.

Alternativamente (en muchos contextos, no en todos: no sabría cómo hacerlo, p.e., con el ks.test) uno puede echarle un vistazo a los intervalos de confianza del parámetro de interés y ver si incluye o no el valor de referencia.

Enhorabuena a eldiario.es porque el análisis de el diario.es de los resultados de PISA está perfectamente alineado con la linea editorial de eldiario.es

Eso, ¡enhorabuena!

El estudio está aquí. Como no tiene enlace a datos y métodos, no puedo añadir más. Aplaudo en todo caso al autor que no preste atención a la significancia (véase en el artículo como los intervalos de confianza no cortan el cero en ningún punto) como al tamaño del efecto (aunque no justifique si es grande o pequeño). De nuevo, ¡enhorabuena!

Nota: Si alguien tiene críos en edad escolar y va a elegir una escuela u otra por lo que diga el señor Héctor Cebolla Boado como dice él, a vuelapluma, y luego se da cuenta de que se ha equivocado, que le proteste a él y no a otros.

La regla del tres (para estimar la probabilidad de un evento todavía no observado)

Me acusan (quien lo hizo, si me lee, sabrá identificarse) de repetirme, de contar una historia dos, y sino me paran los pies, tres y más veces. Ya me pasó una vez por aquí. Espero que no me esté volviendo a suceder hoy porque habría jurado haber mencionado este asunto antes.

Es el de la estimación de la probabilidad de eventos todavía no observados. Traduzco y (como no rectoreo universidad pública alguna y, por ende, no puedo permitirme el lujo de copiar sin citar) luego diré de donde:

Probabilidades de empates en elecciones

Dichoso me tenía por no acordarme siquiera de las CUP, cuando una nota me ha hecho volver a lo de su otrora famoso pero ahora arrumbado por el constante devenir de otras noticias más enjundiosas (pausa) asunto: el de su empate.

asamblea_extremadura

La noticia en cuestión es esta, que conduce a esto y en definitiva a esto otro, que es donde reside lo enjundioso.

En realidad, el caso que explica el artículo es algo más complicado del que aplicaría en el caso de las CUP, pero exigiría igualmente, como ya indiqué en su día, especificar una serie de apriorismos no siempre a mano.

Análisis de la supervivencia cuando ningún sujeto ha muerto

Me ha sobrevenido un problema de análisis de supervivencia curioso: ningún sujeto ha muerto. Dicho de otra manera, todas mis observaciones están censuradas por la derecha.

Los datos recogen la antigüedad de la cámara de fotos de los visitantes de cierto blog. Y debería uno poder estimar cada cuántos años renuevan la cámara, es decir, la vida promedio de esos aparatejos. Si embargo, no tenemos información de la edad de las cámaras en el momento de la renovación. Solo de su edad hoy. ¡Todas las observaciones están censuradas por la derecha!

Estereotipos y estadística

El porcentaje de mosquitos que pueden transmitir enfermedades es pequeño, muy pequeño. Sin embargo, decimos mosquitos transmiten enfermedades sin empacho.

Un porcentaje mucho mayor de los libros tienen tapas blandas. Sin embargo, no decimos que los libros tienen tapas blandas.

Si evaluamos juicios similares con sujetos que son grupos sociales, religiones, razas, etc. las cosas se tornan la mar de entretenidas.

Yo lo dejo aquí, pero podéis seguir leyendo aquí o aquí.

El IPT y la paradoja de Simpson

El INE ha comenzado a publicar una nueva estadística, el IPT o índice de precios del trabajo. Su primera entrega ha sido glosada por la prensa en artículos como este o este.

Es imperativo leer la nota metodológica asociada (resumida aquí y detallada en un enlace que contiene) para darse cuenta de los problemas de interpretación que acompañan al índice.

Se parece al IPC en el sentido que promedia el peso de cada salario (precio en el IPC) por el porcentaje de gente que lo gana (o que se compra en la canasta bienes y servicios del IPC). Son dos las cosas que pueden cambiar a la vez, por lo que la interpretación de los movimientos del índice pueden tener una doble interpretación.

Detrás de la detección de anomalías en series temporales

Por azares, me ha tocado lidiar con eso de la detección de anomalías. Que es un problema que tiene que ver con dónde colocar las marcas azules en

anomaly_detection

El anterior es el gráfico construido con los datos de ejemplo del paquete AnomalyDetection. De hecho, así:

library(AnomalyDetection)

data(raw_data)
res <- AnomalyDetectionTs(raw_data,
    max_anoms=0.02,
    direction='both', plot=TRUE)
res$plot

Aparentemente, AnomalyDetectionTs hace lo que cabría sospechar. Primero, una descomposición de la serie temporal, tal como

Pesadumbre e incertidumbre desencadenadas

Hoy escribo afectado por un derrame de pesadumbre. Pero esa es solo una opinión que igual no importa nadie.

Estas del 8 de noviembre han sido las elecciones en que menos y que más caso he hecho de las encuestas electorales. Cansado del cada vez más monótono ciclo de que

  • se publican encuestas electorales
  • llegan las elecciones y el resultado no se parece en nada a lo dibujado por ellas y
  • se reitera el mismo blablablá (en latín se dice excusatio non petita) que unos meses antes

he decidido esta vez dejar de prestar atención a algo que, se ha visto, no ha sido sino ruido. Les he hecho caso, sin embargo, al inclinarme a comprar con ánimo 100% especulativo unas accioncillas que hoy valen el 4% menos que ayer y el 2% menos que cuando las compré. ¡Contento me tienen los científicos de opinión pública y sus benditas batas blancas!

¿Seis sigmas? Porque a mí solo me llegan 4.5 sigmas

Seis sigma es un conjunto de métodos y prácticas para mejorar la calidad de los procesos industriales. Su nombre está inspirado por la distribución normal: aspira a que la tasa de errores (por ejemplo, piezas defectuosas producidas por una planta) sea pnorm(-6).

six_sigma_definition_standard_deviations

Pero pnorm(-6) es 9.8e-10 (uno por millardo, aproximadamente), mientras que, según la Wikipedia, que siempre tiene la razón, la aspiración del Seis Sigma es la de alcanzar 3.4 defective features per million opportunities. Que es bastante (trescientas veces) superior.