Estadística

El índice de riqueza integral

Alguna vez hemos criticado aquí el PIB como indicador del progreso de una economía, además de algunos aspectos metodológicos de su cálculo y la manera en que, por decirlo de alguna manera, se presenta en sociedad.

Un ejemplo: el destrozo que provoca un terremoto no resta del PIB. Sin embargo, el trabajo de reconstrucción sí.

El siguiente ejemplo ilustra otro de los principales problemas del PIB: si un país extrae petróleo del subsuelo, lo refina, lo vende en una gasolinera y alguien lo quema en alguna tontería, el indicador, mágicamente, asciende. Pero ese petróleo se ha esfumado para siempre y ya no está disponible en el ejercicio siguiente. Además, el dióxido de carbono resultado de su combustión queda en la atmósfera elevando la temperatura del globo e intoxicando. Pero el PIB ignora estos aspectos.

Rankings de colegios: problemas y alternativas

Me voy a sumar al rol de bitácoras que hablan del ministro Wert. No lo conocía de nada pero el día de su nombramiento, El País publicó un artículo suyo —que no he podido ubicar— en el que, como sociólogo, analizaba ciertos resultados electorales. Ese detalle me hizo pensar que me iba a caer bien el hombre. Y, pobre, no para de dar y recibir disgustos.

Planea ahora elaborar un ránking de colegios. No es una ocurrencia sino algo que se hace con normalidad (aunque no sin problemas, a veces) en otros sitios y que acá hacen otros en ocasiones.

Medias y medianas en el Banco de España

Los patriotas españoles del siglo II a.C. peleaban por la estepa lusitana contra los romanos y abominaban del alcantarillado y los acueductos. Los del siglo XVI, seguían el caminar del sol sobre el azul del mar para blanquear un subcontinente con el empuje de sus caderas. Los del XIX fusilaban a alcaldes liberales en las plazas de las villas altonavarras.

Y los españoles patriotas de junio de 2012 leemos el informe de estabilidad financiera del Banco de España. ¿Qué encontramos en él? Aparte de un poco de graficaca, como en el siguiente ejemplo

Desencriptando (I): el problema de un mal amigo

Tengo un muy mal amigo que, sabiendo cómo soy para esas cosas y de qué manera me quitan el sueño, quiso alterar mi solaz enviándome esto:

cadena <- c(
"s","u","t","k","r","k","b","s","w","f","s","t","s","u","z","k","q","x","p","k","s","r",
"t","z","z","a","s","r","f","q","z","u","s","r","w","z","u","t","g","f","s","b","k","y",
"z","y","s","v","y","g","s","e","f","s","m","p","s","d","s","e","p","w","u","u","z","c",
"z","c","k","s","w","f","g","z","r","s","e","j","g","w","t","s","r","z","u","z","e","s",
"w","f","s","w","v","k","z","t","s","u","v","z","e","g","z","f","s","r","z","b","p","w",
"s","s","w","u","z","e","j","r","g","h","k","c","z","e","s","u","s","v","v","k","g","w",
"s","e","z","p","f","g","w","g","c","k","v","z","e","z","f","r","z","d","s","e","t","s",
"u","d","g","f","g","z","u","z","g","j","v","k","g","w","t","s","u","z","k","q","x","p",
"k","s","r","t","z","z","a","s","r","f","q","z","u","s","f","s","b","k","y","z","y","s",
"v","y","g","j","a","u","k","v","z","p","w","z","v","z","r","f","z","z","f","r","z","d",
"s","e","t","s","p","w","z","j","z","b","k","w","z","l","s","a","t","s","z","j","g","o",
"g","z","e","p","v","z","p","e","z","e","p","e","v","r","k","f","z","s","w","w","g","c",
"a","r","s","t","s","u","g","e","v","k","w","v","g","v","g","w","t","s","w","z","t","g",
"e","s","w","s","e","f","s","v","z","e","g","s","u","c","k","e","c","g","o","z","n","z",
"k","s","q","e","z","a","k","z","b","z","g","w","k","z","z","v","k","w","f","g","r","i",
"z","k","f","q","g","t","r","k","b","p","s","q","o","k","r","s","w","z","a","z","u","s",
"f","z","p","w","t","k","z","t","s","e","j","p","s","e","t","s","u","z","w","g","f","k",
"n","k","v","z","v","k","g","w","t","s","u","n","z","u","u","g","t","s","u","r","k","a",
"p","w","z","u","p","j","r","s","c","g","x","p","s","y","z","r","s","a","z","m","z","t",
"g","t","s","t","k","s","q","z","e","s","k","e","z","w","g","e","o","c","s","t","k","g",
"e","p","v","g","w","t","s","w","z","o","u","z","t","s","k","s","q","e","z","a","k","z",
"b","z","o","t","s","g","v","y","g","z","e","s","k","e","z","w","g","e","u","z","e","t",
"s","u","r","s","e","f","g","t","s","s","w","v","z","p","e","z","t","g","e","u","u","k",
"t","s","r","t","s","u","z","z","w","f","k","b","p","z","z","f","z","e","p","w","z","r",
"s","e","j","g","w","e","z","a","k","u","k","q","z","t","s","u","z","e","s","w","f","s",
"w","v","k","z","z","u","g","e","s","w","s","c","k","b","g","e","t","s","u","z","j","z",
"q","s","w","f","r","s","u","g","e","x","p","s","v","k","f","z","z","u","j","r","s","e",
"k","t","s","w","f","s","t","s","u","g","a","k","s","r","w","g","z","r","k","z","w","g",
"z","m","g","o","z","u","e","s","v","r","s","f","z","r","k","g","b","s","w","s","r","z",
"u","t","s","u","u","n","r","s","t","g","s","r","s","q","p","a","z","u","v","z","a","z",
"o","z","u","j","r","s","e","k","t","s","w","f","s","t","s","u","d","z","e","v","g","w",
"f","g","w","k","g","z","e","z","b","g","k","f","k","f","s","b","k","e","g","e","f","k",
"s","w","s","x","p","s","s","e","f","g","e","t","k","r","k","b","s","w","f","s","e","j",
"g","u","k","f","k","v","g","e","e","s","g","j","g","w","s","w","z","u","z","j","z","q",
"j","g","r","x","p","s","w","g","f","k","s","w","s","w","z","b","s","w","t","z","j","z",
"r","z","s","u","u","z","o","e","s","e","s","w","f","k","z","w","v","g","c","g","t","k",
"e","k","c","z","c","s","w","f","s","k","w","e","f","z","u","z","t","g","e","s","w","s",
"u","s","e","x","p","s","c","z","z","w","f","k","f","s","r","r","g","r","k","e","f","z",
"x","p","s","u","s","e","j","s","r","c","k","f","k","z","g","v","p","u","f","z","e","p",
"d","s","r","t","z","t","s","r","z","w","z","f","p","r","z","u","s","q","z","z","w","f",
"k","t","s","c","g","v","r","z","f","k","v","z","r","s","j","z","r","s","c","g","e","v",
"g","w","t","s","u","s","k","f","s","u","z","c","z","e","r","s","n","k","w","z","t","z",
"t","s","u","z","e","r","s","e","j","p","s","e","f","z","e","t","s","c","g","v","r","z",
"f","k","v","z","e","y","z","b","z","c","g","e","x","p","s","j","g","r","j","r","k","c",
"s","r","z","d","s","q","s","w","u","z","y","k","e","f","g","r","k","z","s","u","k","w",
"t","s","j","s","w","t","s","w","f","k","e","c","g","t","k","e","j","p","f","s","v","g",
"w","z","u","f","z","e","j","g","e","k","a","k","u","k","t","z","t","s","e","t","s","z",
"u","v","z","w","q","z","r","u","z","d","k","v","f","g","r","k","z","u","z","e","j","r",
"g","h","k","c","z","e","s","u","s","v","v","k","g","w","s","e","d","z","e","v","g","w",
"b","z","t","z","e","y","z","j","r","g","j","p","s","e","f","g","s","u","t","k","r","k",
"b","s","w","f","s","z","a","s","r","f","q","z","u","s","s","w","v","z","r","v","s","u",
"z","t","g","s","w","u","z","j","r","k","e","k","g","w","t","s","g","b","r","g","w","g")

Se trata de una cadena de 1144 caracteres que, aparentemente, encerraban algún tipo de mensaje. De hecho, era probable que se tratase de un mensaje codificado con una técnica que, dicen, ya empleaba Julio César en la campaña de las Galias y que describí en otra ocasión: a saber, mediante una permutación de letras.

Modelos exponenciales para grafos aleatorios (y III): inferencia

Me quedé el otro día en el modelo probabilístico de los grafos aleatorios exponenciales. Quedaba una última parte y al ensayar su redacción me di cuenta de que me había metido en un huerto: la cosa es mucho más vasta de lo que a primera vista parecía.

Así que me limitaré a repasar lo más básico tratando de no meter demasiado la pata.

Tradicionalmente, se utilizaba para estimar los parámetros de un grafo la llamada técnica de la función de seudo-verosimilitud. Se ve que uno puede escribir

Para los expertos en series temporales

El otro día, en una bitácora de la que he perdido la referencia, el autor retaba a sus lectores a desentrañar los secretos de una serie temporal famosa. La había desdibujado sometiéndola a una transformación lineal para evitar que fuese identificada en Google.

Lo emulo hoy aquí y dejo a mis lectores esta vez una serie temporal (igualmente desdibujada y que diría yo que famosa) por si alguno, desocupado, quiere hincarle el diente y desentrañar sus misterios.

Estadística para periodistas en Idescat

Idescat, el instituto de estadística oficial de Cataluña, va a organizar el día 18 de mayo un curso de estadística para periodistas. Sus objetivos son, con mi traducción,

ayudar a entender e interpretar la estadística por jugar un papel importante a la hora de dar un valor añadido a la información que ofrecen [los medios].

Además, se espera que las jornadas se conviertan en un canal de difusión permanente y que se organicen otras en el futuro.

¿Se puede predecir con Twitter?

Tal y como quedaron establecidos hace 80 años los parámetros para determinar si una hipótesis es o no plausible —por no calificarla de significativa o, más malévolamente, publicable— sólo una de cada veinte lo serían.

Es un hecho que contrasta con la habilidad de los consultores que se dedican a esa labor tan difícil de acotar y que va desde la estadística a la minería de datos tocando otras áreas más o menos afines. Los buenos, siempre encuentran efectos significativísimos y relevantísimos con que adornar sus presentaciones. So pena de ser sustituidos por otros con todavía menos escrúpulos que sepan envolver con maña en pan de oro el accidente y la aleatoriedad.

Modelos exponenciales para grafos aleatorios (II): modelo probabilístico

Ayer dejamos abierto el problema de la inferencia en grafos. La idea fundamental es la de suponer que un grafo determinado no es tanto un grafo en sí como una realización de un proceso aleatorio de generación de aristas entre un determinado número de nodos.

El planteamiento es análogo al que se hace con las series temporales: no es tan importante la serie en sí como el hecho de que pueda probarse que obedece a un modelo autorregresivo, ARIMA, etc.

Modelos exponenciales para grafos aleatorios (I): motivación

Sea un colegio y $latex a_i$ sus alumnos. Sea $latex y_{ij} \in {0,1}$ el indicador de que el alumno i es amigo del alumno j. Con eso tenemos montado un grafo (o, si se prefiere, una red social).

Muchos análisis que se hacen sobre este tipo de redes son meramente descriptivos pero, ¿es posible la inferencia sobre este tipo de conjunto de datos?

Por ejemplo, en el grafo que describo más arriba, cabría preguntarse si hay reciprocidad, es decir, si $latex P( y_{ij} = 1 | y_{ji} = 1 )$ es mucho mayor que $latex P( y_{ij} = 1 | y_{ji} = 0)$. O dicho de otro modo, si el que Juan sea amigo de Pedro incrementa notablemente la probabilidad de que Pedro también se considere amigo de Juan.

Todos los modelos son X, pero algunos son Y

En la cita original de Box, X e Y son, respectivamente, falsos y útiles. Pero traigo a la consideración de mis lectores una visión alternativa de la cita en la que X e Y son ciertos e inútiles. El resumen de la conferencia cuyas diapositivas acabo de enlazar es, con mi traducción, el siguiente:

A los estudiantes de estadística se les presenta la famosa cita de George Box según la cual, todos los modelos son falsos, pero algunos son útiles. En esta charla, argumento que aunque es útil, es falsa. Resulta más interesante adoptar una postura positiva y reconocer que un modelo es un procedimiento para extraer información útil de un conjunto de datos. la verdad es infinitamente compleja y un modelo es una mera aproximación a ela. Si la aproximación es mala o engañosa, entonces el modelo es inútil. En esta charla proporciono ejemplos de modelos correctos que no son ciertos. E ilustro cómo la nocion de modelo incorrecto puede conducir a conclusiones erróneas.

Contar, ¿fácil?

Contar debería ser fácil. Sobre todo, cifras relativamente pequeñas. Y más para el Estado, con todo su —aunque menguante, según algunos— poder.

Por otro lado, dicen, las cifras son las que son. Y son incuestionables. Además, sirven para cuestionar. Por ejemplo, para cuestionar la labor de la Dirección General de Tráfico, cuyo rendimiento, en gran medida, se mide por el recuento anual de muertes en la carretera.

Y en este contexto, y a la luz de lo publicado recientemente en la prensa, diríase que sucede un fenómeno que me parece la mar de sorprendente: el número cobra una importancia que la metodología no puede matizar. Directores, exdirectores y asociaciones de no sé muy bien qué, se atizan —cual garroteros gollescos— con alternativas metodológicas persiguiendo intenciones que, uno sospecha, tienen poco que ver con la creación de un cuadro lo más fidedigno posible de la realidad. (A veces tengo la tentación de promover para este tipo de discusiones —así como existen las bizantinas— el término de discusión argentina).

Variables instrumentales con R

Los economistas usan unas cosas a las que llaman variables instrumentales con las que uno apenas se tropieza fuera de contextos econométricos. El problema se plantea en el contexto de la regresión

$$y_i = \beta x_i + \varepsilon_i,$$

cuando existe correlación entre X y $latex \varepsilon$. En tales casos, el estimador por mínimos cuadrados es

$$\hat{\beta} =\frac{x’y}{x’x}=\frac{x’(x\beta+\varepsilon)}{x’x}=\beta+\frac{x’\varepsilon}{x’x}$$

y debido a la correlación entre X y $latex \varepsilon$, está sesgado.

La solución que se plantea en ocasiones es el de usar variables instrumentales, es decir, variables correlacionadas con X pero no con $latex \varepsilon$. La siguiente simulación en R ilustra el problema: