Estadística

La media, medidas de centralidad y distancias

El problema de hoy viene sugerido por la manera de encontrar un valor central –una medida de centralidad– en una serie de números $latex x_1,\dots, x_n$. A uno se le viene a la mente la media de dichos puntos, por supuesto. Pero la media no es sino el valor $latex \theta$ que minimiza

$$ \sum_i (x_i - \theta)^2.$$

En lugar de minimizar la distancia al cuadrado entre ese punto central y los de la serie, podríamos usar otras funciones. Es sabido que si tratamos de minimizar

La variación y sus negacionistas

Las entradas de esta semana han girado alrededor de un tema: la comparación bajo incertidumbre. La remato recomendando un artículo de Stephen Few, Variation and Its Discontents, que tiene un subtítulo de lo más oportuno: Funnel Plots for Fair Comparisons.

Nota: Los lectores más fieles de estas páginas recordarán entradas viejas, como esta, que también sugerían el uso de gráficos de embudo (o trompeta).

Casillas puede ser un portero mediocre, pero quienes analizan sus números lo son aún más

Voy a hablar de fútbol. Voy a comentar esto. Contiene y argumenta alrededor de

casillas_paradas

que me puso sobre aviso. Y no, no voy a comentar el amateurismo que manifiesta el hecho de representar dos veces la misma magnitud, el porcentaje de paradas, usando dos significantes distintos (la longitud de las barras y el color). Por más de que siembre la sospecha por lo que sigue.

Me preocupa aún más el hecho de que se ignoren los intervalos de confianza, de que no se vaya más allá de lo que enseñan a los críos de once años y el autor se limite construir un diagrama de barras y un discurso alrededor de él.

Calcular una regresión a mano o con un programa puede ser más preciso

Leer sobre la historia de los glm me llevó a preguntarme sobre el modelo probit, que es —aunque con estas cosas hay que tener cuidado— cuarenta años anterior. Y tirando de ese hilo di con esto, donde se proponen tres métodos para ajustar estos modelos.

El tercer paso del primero es

fit_by_hand

y sí, sugiere ajustar a ojo, aunque advierte que hacerlo a mano (algebraicamente) o con la ayuda de un ordenador puede ser más preciso además de proporcionar intervalos de confianza.

¿Son normales las alturas (de los individuos)?

Diríase que sí. La altura de un individuo está sujeta a multitud de factores que suman y restan. Está la genética (que es el resultado de la suma y resta del impacto de muchos genes individuales). Está la dieta, está… Diríase, insisto, que la altura es el promedio de muchos efectos pequeños y no demasiado dependientes entre ellos.

Y en efecto, (una vez descargados los microdatos de la Encuesta Nacional de Salud de 2011),

Un problema inverso de regresión

He estado pensando qué tipo de ejercicios de estadística (y modelos estadísticos) plantear a mis alumnos del máster de data science de la UTAD.

Así que les he dado unos datos, los X, relativamente grandes (y sin problemas de colinealidad y similares) y les voy a pedir que me construyan la y de manera que los coeficientes obtenidos sean, aproximadamente, iguales a unos dados. A ver qué tal se les da.

Estadística descriptiva allende la estadística descriptiva

Este fin de semana me toca enseñar estadística en el máster de data science de la UTAD. Heredo un programa que incluye una sección importante de estadística descriptiva (que pienso subvertir, claro está).

La estadística descriptiva, según la entiendo, va mucho más allá de lo que viene llamándose estadística descriptiva: eso de las medias, las medianas, el análisis unidimensional, etc. Pienso que un modelo estadístico no es sino una evolución natural de esas trivialidades que nos proporciona una comprensión más profunda de los datos: más allá de cómo son las variables una a una, cómo interoperan y de qué manera actúan para determinar uno o varios efectos de interés.

Una interpretación (rápida y sucia) de los coeficientes de la regresión logística

Los coeficientes de la regresión logística tienen una interpretación recta en términos de odds ratio. Que es un concepto sobre el que puede que alguien tenga algún tipo de intuición. Pero yo no.

¿Cómo podemos interpretar, aunque sea de manera rápida y grosera, los coeficientes? En términos de la variación de la probabilidad cuando la variable correspondiente cambia de valor (p.e., en una unidad). El problema es que la probabilidad depende del valor del resto de las variables: la relación no es lineal. No obstante, esa intuición es posible (en algunos casos: véase la nota).

Rapapolvos al INE

¿Os acordáis de cuando escribí que para ingresar en el INE solo hacía falta estadística viejuna? Pues me cuenta una fuente fidedigna que Eurostat ha realizado una auditoría a nuestro organismo estadístico de cabecera y que le ha caído un buen rapapolvos. Consecuencia del cual, el INE está reformulando los criterios de acceso y tratándose de poner al día.

Igual no es cierto. No soy ducho en eso de manejar fuentes y hablar por terceros, sean o parezcan fidedignos o no. Tal vez me han metido un gol. Mas se non è vero, è ben trovato. Y si lo es, lo sabremos pronto.

Banzhaf y las elecciones que se nos vienen

Es pertinente rescatar una entrada de hace tres años sobre D’Hondt y Banzhaf. En el enlace, los detalles.

Me limitaré a actualizar el código de la función para que muestre las alianzas (algunas enteramente esperpénticas) posibles, que queda de la forma

banzhaf <- function(x){
  x <- -sort(-x)
  x <- x/sum(x)

  foo <- function(a,b,p){
    if(p>1/2)
      return(list(a))

    if (length(b)==0)
      return(NULL)

    b.prima <- b[-1]
    delta <- b[1]
    p.delta <- x[delta]

    return(c(foo(c(a,delta), b.prima, p+p.delta), foo(a,b.prima,p)))
  }

  res <- foo( NULL, names(x), 0)
  print(res)
  sort( table(unlist(res)) / length(res) )
}

y a aplicarlo sobre algunos casos de la más rabiosa actualidad que Leda Duelo ha tenido la gentileza de preparar para mí y, a través de esta página, para ti también. Son los que siguen.