Estadística

Twain, Grecia, Pisa, Cataluña y deontología

Leí un chiste el otro día: aparecía el ministro de economía de Grecia en su despacho revisando unos informes y comentándole a su asesor: “La única solución es volver a mentir”. No sin cierta dosis de razón nos recuerdan de vez en cuando la cita —de problemática atribución a Mark Twain—: Hay tres tipos de mentiras: mentiras pequeñas, mentiras grandes y estadísticas. Ahora nos enteramos de que Cataluña maquilló el resultado del examen de PISA a la educación: ...

Día mundial de la estadística

Hoy día 20 de octubre celebramos el segundo día mundial de la estadística. También es el día mundial del chef, supongo que por casualidad. Ambas, la de estadístico y la de chef, son profesiones que es preferible que no se noten. Cuando cobran algo de relevancia, malo. Supongo que por eso es necesario dedicar un día a quienes las practican. El que un chef se equivoque puede ser enojoso: se sonroja el camarero, hay que devolver el plato a la cocina y muchos temen que le pase algo cochino por el camino. Pero, ¿cuando es la estadística la que está torcida (o, tal vez, demasiado cocinada)? ...

Visualización de la incertidumbre sobre el futuro

Recomiendo a mis lectores el artículo Visualizing Uncertainty About the Future de D. Spiegelhalter, M. Pearson e I. Short. Trata sobre qué tipo de representaciones gráficas son más adecuadas para transmitir información acerca de la probabilidad de fenómenos futuros a distintos tipos de audiencias, incluidas las más anuméricas. Abarca desde los incipientes trabajos de Nightingale y Neurath hasta Gapminder y los más modernos desarrollos de la infografía. Aplaude, por ejemplo, la iniciativa del Banco de Inglaterra de publicar información sobre la posible evolución de indicadores económicos futuros de la forma ...

Causalidad y método científico en El País

A raíz de la concesión del último (mal llamado) premio Nobel de Economía, han aparecido publicados en el diario El País el artículo Un premio al método científico de Ramón Marimón y el reportaje Causa y efecto en la economía, sorprendentes ambos tanto por el título como por el contenido. Creo que bien merecen el protoanálisis que sigue. ¿Premio al método científico? Hombre, ¡que estamos hablando del premio Nobel! Además, si esta vez han premiado al método científico… ¿qué fueron los anteriores laureados? ¿Pitonisos? El debate es viejo y muchos lo conocen mejor que yo. Es bastante famoso el pequeño escrito de Robert E. Lucas, What Economists do, en el que el autor escribe ...

Las proyecciones de la población de España a corto plazo del INE no valen para un carajo

Las proyecciones de la población de España a corto plazo del INE no valen para un puto carajo. Tal vez sí para conseguir unos cuantos titulares en prensa como este, este o este otro. Pero no para lo que se supone que sirve. Además, por construcción. En el documento que explica qué son y para qué sirven dichas proyecciones se lee (con mi subrayado) La Proyección de Población de España a Corto Plazo elaborada por el INE constituye una simulación estadística del tamaño y estructura demográfica de la población que residiría en España […] en caso de mantenerse las tendencias y los comportamientos demográficos actualmente observados. ...

Puedes probar cualquier cosa (con paciencia)

Puedes probar prácticamente cualquier cosa. Con paciencia, claro. Por ejemplo, coge una moneda de tu bolsillo. Puedes probar que tiene un sesgo: salen más caras (o cruces, da igual) de lo que cabría esperar. No lo vas a probar como los gañanes, no. Lo vas a probar usando los mismos métodos con los que se aprueban los medicamentos u otras verdades relevantísimas: mostrando al mundo un p-valor pequeñajo, por debajo de 0.05. Veamos cómo. ...

Sobre la economía del lenguaje

De acuerdo con una observación de Zipf (y supongo que de muchos otros y que no hay que confundir con su ley), la longitud de las palabras más corrientes es menor que las que se usan menos frecuentemente. Un estudio reciente, Word lengths are optimized for efficient communication, matiza esa observación: la cantidad de información contenida en una palabra predice mejor la longitud de las palabras que la frecuencia de aparición pura. En una comparación entre diversos idiomas europeos, parece manifestarse que palabras que aportan poca información son breves; las que aportan mucha, más largas. ...

Anonimidad y cantidad de información

Juguemos a un juego: pienso el nombre de uno de los 45M de ciudadanos españoles y tenéis que acertarlo. Me podéis hacer preguntas, pero solo de esas cuya respuesta es sí o no. ¿Cuántas preguntas deberíais hacerme? Pues unas 25 o 26 porque $log_2 4.5e7 = 25.42$. La demostración es sencilla: suponed que tenéis una lista con los nombres de todos los ciudadanos (a razón de 45 por hoja y 200 hojas por tomo, ocuparían 5000 de ellos). La primera pregunta podría ser: el individuo que has pensado, ¿está en los tomos 1-2500? Luego, dependiendo de la respuesta, ¿del 1250 al 2500? Y etc. con la búsqueda binaria. En total, 25 o 26 veces. ...

Facetas en ggplot2 (al hilo de otra gañanada)

Hace años que no leo Expansión con la frecuencia de antaño. Los motivos son muchos. Pero el otro día, casi por nostalgia, pagué los 1.60 euros que no vale. De entre los gañanes que trabajan en dicho diario hay uno que lo es más que todos: el responsable de las gráficas. En tiempos me irritaba. Luego me fui acostumbrando. Al final, casi, casi, le cogí cariño. Acabé interpretando sus gañanadas casi como si me dijese: “pues por aquí andamos, trabajando; de saludo, bien; y tus cosas ¿cómo van?”. ...

La ley de Benford, revisitada

Revisito mi artículo sobre la ley de Benford no tanto por hacer mención a las entradas una, dos y tres que hizo Gregorio Serrano en su bitácora ni al oportunísimo artículo de The Guardian al respecto. Ni siquiera para mencionar la existencia de este sesudo artículo sobre el tema. Lo hago porque me pliego a la demanda popular: voy a explicar con más detalle el código que dejé allí escrito y que, por referencia, es benford <- function( foo, ..., n = 100000 ){ tmp <- foo( n, ... ) tmp <- as.character( tmp[ tmp > 0] ) tmp <- strsplit( tmp, "" ) leading.digit <- function( x ) x[ ! x %in% c( "0", "." )][1] tmp <- unlist( lapply( tmp, leading.digit ) ) 100 * table( tmp ) / length( tmp ) } benford( rcauchy ) benford( rexp, rate = 2 ) benford( rexp, rate = 5 ) benford( rnorm, sd = 40 ) benford( rweibull, shape = 1 ) Puede llamar la atención que el primer argumento de la función benford sea, precisamente, otra función. Nada del otro mundo. El siguiente es un ejemplo en el que se muestra el uso aislado para una mejor comprensión: ...