Estadística

El número efectivo de partidos

El número efectivo de partidos es el nombre de una página de la Wikipedia, que contiene la fórmula

$$ N = \frac{1}{\sum_i p_i^2}$$

y excipiente alrededor.

Aplicada a España (usando datos del CIS como proxy),

Como casi siempre, el código:

library(rvest)
library(rvest)
library(reshape2)
library(plyr)
library(zoo)

url <- "http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/sB606050010.html"

raw <- read_html(url)
tmp <- html_nodes(raw, "table")
tmp <- html_table(tmp[[2]], fill = TRUE)

colnames(tmp)[1] <- "partido"

tmp <- tmp[!is.na(tmp$partido),]
tmp <- tmp[1:30,]

tmp <- melt(tmp, id.vars = "partido")
tmp <- tmp[tmp$value != ".",]
tmp$value <- as.numeric(tmp$value)

tmp$variable <- gsub("ene", "01-", tmp$variable)
tmp$variable <- gsub("abr", "04-", tmp$variable)
tmp$variable <- gsub("jul", "07-", tmp$variable)
tmp$variable <- gsub("oct", "10-", tmp$variable)

tmp$variable <- gsub("-0", "-200", tmp$variable)
tmp$variable <- gsub("-1", "-201", tmp$variable)
tmp$variable <- gsub("-9", "-199", tmp$variable)

tmp$variable <- paste0("01-", tmp$variable)

tmp$variable <- as.Date(tmp$variable, format = "%d-%m-%Y")

dat <- tmp

dat <- ddply(dat, .(variable), transform, total = value / sum(value))
res <- ddply(dat, .(variable), summarize, enp = 1 / (sum(total^2)))

res <- zoo(res$enp, order.by = res$variable)

plot(res, main = "Número efectivo de partidos\nen España(1996-2016)",
        xlab = "", ylab = "número efectivo de partidos")

Las tres (o cuatro) eras de la estadística

Las cosas, frecuentemente, son como son y no de otra manera, especulativamente, mejor por razones históricas. Es lo que hay. La respuesta a muchas preguntas es “porque A llegó antes que B”.

La estadística (y particularmente, la que se enseña) es como es y no de otra manera, especulativamente, mejor, también por razones históricas. Por eso siempre pierdo algo de tiempo hablando (¡es uno de mis personajes favoritos del XIX!) de Quetelet y los suyos; luego, de Fisher y compañía; finalmente, de Efron y los demás.

La h-filosofía de la estadística en once puntos

  • La estadística tiene que estar totalmente integrada en la investigación: el diseño experimental es fundamental.
  • Que no te asuste utilizar métodos modernos
  • Preserva toda la información disponible en los datos: evita categorizar los predictores continuos y los valores predichos
  • No asumas que algo opera linealmente
  • Ten en cuenta la incerditumbre sobre el (no del) modelo y trata de minimizarlo usando conocimiento previo sobre la materia
  • Usa remuestreos
  • Considera el tamaño muestral una variable aleatoria cuando sea posible
  • Usa estadística bayesiana siempre que sea posible
  • Usa buenos gráficos frecuentemente
  • Para que sea creíble, la investigación tiene que ser reproducible
  • Toda la manipulación de datos y el análisis estadístico tiene que ser reproducible

Weapons of Math Destruction

Así se titula un libro que no he leído y que, pese a lo cual, como los malos críticos, voy a comentar. Los libros suelen estar plagados de hojarasca, tal vez porque de otra manera no se puede hacer crecer un par de ideas más o menos originales a las cientoypico páginas como mínimo que uno espera encontrar entre dos tapas. El relato corto no da caché. Y yo ando corto de tiempo.

Escribid a ley de Stamp en un papelito y pegadla en el espejo

Esta página me conduce a esta otra en la que, aparte de revelar su la autoría, nos informa de que la cita

The government are very keen on amassing statistics. They collect them, add them, raise them to the nth power, take the cube root and prepare wonderful diagrams. But you must never forget that every one of these figures comes in the first instance from the chowky dar [village watchman in India], who just puts down what he damn pleases.

Un muy cuestionable análisis de lo de PISA

Voy a realizar un más que cuestionable (debajo desgranaré los caveats) de los resultados de las pruebas PISA del 2015 en España.

Primero, datos y métodos. Los primeros (y las descripciones de las variables) se pueden bajar de aquí. En cuanto a los segundos, he consultado esto (que me ha llevado a), esto y esto (donde está actualizado para los resultados de la última oleada). Hablaré más de métodos, y sus problemas, más abajo.

Una pregunta sobre pruebas de hipótesis

Más que pregunta, debería haberlo planteado como encuesta: no estoy preguntando sino preguntándote qué es lo que haces tú (habitualmente).

Va de pruebas de hipótesis (a la Fisher). La teoría dice que hay que plantear una hipótesis nula y para poder estudiar lo anómalos que son los datos obtenidos experimentalmente bajo dicha hipótesis. Es decir, calculas $latex P(X | H_0)$.

Alternativamente (en muchos contextos, no en todos: no sabría cómo hacerlo, p.e., con el ks.test) uno puede echarle un vistazo a los intervalos de confianza del parámetro de interés y ver si incluye o no el valor de referencia.

Enhorabuena a eldiario.es porque el análisis de el diario.es de los resultados de PISA está perfectamente alineado con la linea editorial de eldiario.es

Eso, ¡enhorabuena!

El estudio está aquí. Como no tiene enlace a datos y métodos, no puedo añadir más. Aplaudo en todo caso al autor que no preste atención a la significancia (véase en el artículo como los intervalos de confianza no cortan el cero en ningún punto) como al tamaño del efecto (aunque no justifique si es grande o pequeño). De nuevo, ¡enhorabuena!

Nota: Si alguien tiene críos en edad escolar y va a elegir una escuela u otra por lo que diga el señor Héctor Cebolla Boado como dice él, a vuelapluma, y luego se da cuenta de que se ha equivocado, que le proteste a él y no a otros.