Estadística

Para los expertos en series temporales

El otro día, en una bitácora de la que he perdido la referencia, el autor retaba a sus lectores a desentrañar los secretos de una serie temporal famosa. La había desdibujado sometiéndola a una transformación lineal para evitar que fuese identificada en Google.

Lo emulo hoy aquí y dejo a mis lectores esta vez una serie temporal (igualmente desdibujada y que diría yo que famosa) por si alguno, desocupado, quiere hincarle el diente y desentrañar sus misterios.

Estadística para periodistas en Idescat

Idescat, el instituto de estadística oficial de Cataluña, va a organizar el día 18 de mayo un curso de estadística para periodistas. Sus objetivos son, con mi traducción,

ayudar a entender e interpretar la estadística por jugar un papel importante a la hora de dar un valor añadido a la información que ofrecen [los medios].

Además, se espera que las jornadas se conviertan en un canal de difusión permanente y que se organicen otras en el futuro.

¿Se puede predecir con Twitter?

Tal y como quedaron establecidos hace 80 años los parámetros para determinar si una hipótesis es o no plausible —por no calificarla de significativa o, más malévolamente, publicable— sólo una de cada veinte lo serían.

Es un hecho que contrasta con la habilidad de los consultores que se dedican a esa labor tan difícil de acotar y que va desde la estadística a la minería de datos tocando otras áreas más o menos afines. Los buenos, siempre encuentran efectos significativísimos y relevantísimos con que adornar sus presentaciones. So pena de ser sustituidos por otros con todavía menos escrúpulos que sepan envolver con maña en pan de oro el accidente y la aleatoriedad.

Modelos exponenciales para grafos aleatorios (II): modelo probabilístico

Ayer dejamos abierto el problema de la inferencia en grafos. La idea fundamental es la de suponer que un grafo determinado no es tanto un grafo en sí como una realización de un proceso aleatorio de generación de aristas entre un determinado número de nodos.

El planteamiento es análogo al que se hace con las series temporales: no es tan importante la serie en sí como el hecho de que pueda probarse que obedece a un modelo autorregresivo, ARIMA, etc.

Modelos exponenciales para grafos aleatorios (I): motivación

Sea un colegio y $latex a_i$ sus alumnos. Sea $latex y_{ij} \in {0,1}$ el indicador de que el alumno i es amigo del alumno j. Con eso tenemos montado un grafo (o, si se prefiere, una red social).

Muchos análisis que se hacen sobre este tipo de redes son meramente descriptivos pero, ¿es posible la inferencia sobre este tipo de conjunto de datos?

Por ejemplo, en el grafo que describo más arriba, cabría preguntarse si hay reciprocidad, es decir, si $latex P( y_{ij} = 1 | y_{ji} = 1 )$ es mucho mayor que $latex P( y_{ij} = 1 | y_{ji} = 0)$. O dicho de otro modo, si el que Juan sea amigo de Pedro incrementa notablemente la probabilidad de que Pedro también se considere amigo de Juan.

Todos los modelos son X, pero algunos son Y

En la cita original de Box, X e Y son, respectivamente, falsos y útiles. Pero traigo a la consideración de mis lectores una visión alternativa de la cita en la que X e Y son ciertos e inútiles. El resumen de la conferencia cuyas diapositivas acabo de enlazar es, con mi traducción, el siguiente:

A los estudiantes de estadística se les presenta la famosa cita de George Box según la cual, todos los modelos son falsos, pero algunos son útiles. En esta charla, argumento que aunque es útil, es falsa. Resulta más interesante adoptar una postura positiva y reconocer que un modelo es un procedimiento para extraer información útil de un conjunto de datos. la verdad es infinitamente compleja y un modelo es una mera aproximación a ela. Si la aproximación es mala o engañosa, entonces el modelo es inútil. En esta charla proporciono ejemplos de modelos correctos que no son ciertos. E ilustro cómo la nocion de modelo incorrecto puede conducir a conclusiones erróneas.

Contar, ¿fácil?

Contar debería ser fácil. Sobre todo, cifras relativamente pequeñas. Y más para el Estado, con todo su —aunque menguante, según algunos— poder.

Por otro lado, dicen, las cifras son las que son. Y son incuestionables. Además, sirven para cuestionar. Por ejemplo, para cuestionar la labor de la Dirección General de Tráfico, cuyo rendimiento, en gran medida, se mide por el recuento anual de muertes en la carretera.

Y en este contexto, y a la luz de lo publicado recientemente en la prensa, diríase que sucede un fenómeno que me parece la mar de sorprendente: el número cobra una importancia que la metodología no puede matizar. Directores, exdirectores y asociaciones de no sé muy bien qué, se atizan —cual garroteros gollescos— con alternativas metodológicas persiguiendo intenciones que, uno sospecha, tienen poco que ver con la creación de un cuadro lo más fidedigno posible de la realidad. (A veces tengo la tentación de promover para este tipo de discusiones —así como existen las bizantinas— el término de discusión argentina).

Variables instrumentales con R

Los economistas usan unas cosas a las que llaman variables instrumentales con las que uno apenas se tropieza fuera de contextos econométricos. El problema se plantea en el contexto de la regresión

$$y_i = \beta x_i + \varepsilon_i,$$

cuando existe correlación entre X y $latex \varepsilon$. En tales casos, el estimador por mínimos cuadrados es

$$\hat{\beta} =\frac{x’y}{x’x}=\frac{x’(x\beta+\varepsilon)}{x’x}=\beta+\frac{x’\varepsilon}{x’x}$$

y debido a la correlación entre X y $latex \varepsilon$, está sesgado.

La solución que se plantea en ocasiones es el de usar variables instrumentales, es decir, variables correlacionadas con X pero no con $latex \varepsilon$. La siguiente simulación en R ilustra el problema:

Cuando falta la variable más importante (II)

No sé si esto que voy a contar me obliga a tragarme mis propias palabras. Porque siempre he pensado que era poco menso que imposible. Pero hace unos pocos días escribí sobre el asunto y hoy traigo otro similar a colación.

La variable más importante a la hora de construir un modelo es, precisamente, la que se quiere predecir. Casi todos los textos asumen que se conoce sin ningún género de dudas en, al menos, una determinada muestra que, además, corresponde más o menos a la población subyacente: si el paciente sobrevive o no; si la hipoteca entra en mora o no; si el cliente responde a la oferta o no, etc.

Corrección por exposición del modelo logístico

He tropezado con una extensión curiosa y que no conocía del modelo logístico que lo emparenta un tanto con los modelos de supervivencia. Es un problema que aparece en los modelos de los actuarios, por ejemplo, y en la supervivencia de nidos (sí, nidos de bichos alados), parece.

Es el siguiente: supongamos que unos sujetos están expuestos a un cierto suceso cuya probabilidad, $latex p_i$, depende del sujeto a través del esquema habitual de la regresión logística (es decir, depende de algunas variables como el sexo, etc., a través de una fórmula lineal cuyos coeficientes interesa estimar).