Estadística

Pocos de los encuestados...

Como aragonés, a veces me interesa el estado de ese idioma que algunos quieren convencerme de que me es propio. En la Wikipedia hay un mapa que indica la presunta distribución de las distintas lenguas en Aragón y tienen marcado de rojo zonas que no conozco mal y en las que jamás he oído hablar en tal cosa.

Fuera de los mapas que se colorean ateniéndose a criterios poco transparentes, ¿qué nos dicen los estudios serios que puedan haberse hecho sobre los hablantes de esa lengua? Uno de los estudios más recientes que he visto (2006), Usos del aragonés en el Aragón aragonesparlante, en la página 95 y siguientes de esto, describe los resultados de una encuesta que realizaron sus autores a una muestra de 431 sujetos (n = 431) de 16 y más años residentes en los municipios de la zona incluida en el dominio lingüístico del aragonés.

¿Si un día faltan 21.63 euros en caja?

Si un día faltan 21.63 euros en caja se cuenta y se recuenta. Se revisan los tiques, se comprueban los pagos con tarjeta, se vuelven a sumar los pagos a proveedores, etc. Hasta que, con suerte, alguien encuentra algo y la diferencia se reduce a, digamos, 3.92 euros. Pero cuando la diferencia es de 2.15… se da por buena sin más.

Cuando el t-test da un p-valor de .058, se revisan los números, se reestudia la carga y manipulación de datos, se replantea si el caso 194 es o no un outlier, etc. Pero si el p-valor es 0.036, nada de eso ocurre. Nadie revisa caso 194. ¡Ni falta que hace!

La información es sorpresa

Hace unos días publiqué esto en Twitter:

David Cabo, muy oportunamente, denunció

Cosa que no niego. La frase que resumía el enlace tiene esa pintaza. No obstante, el artículo al que apunta es una elaboración de esa frase. El artículo, además, incluye (y no es habitual) referencias a dos artículos académicos (que no he consultado) que, entiendo, tratan y desarrollan la cuestión.

Más sobre el error de medida

En el periódico del domingo nos regala Ángel Laborda un parrafito delicioso que abunda en el tema tratado en mi última entrada sobre el una error de medida.

Así dice:

Ahora bien, hay que tomar estos datos con muchas cautelas. Una vez más estamos delante de datos estadísticos de cierta complejidad a la hora de interpretarlos y de valorarlos. En primer lugar, se observa que la desestacionalización de los mismos que hacen, por un lado, el Ministerio de Economía y, por otro, el INE cuando los utiliza en el cálculo de la contabilidad nacional, difiere notablemente. En segundo lugar, los deflactores utilizados por ambos organismos para pasar de precios corrientes a constantes también vienen difiriendo significativamente (en el primer caso se utilizan los valores unitarios y en el segundo, los índices de precios de exportación e importación de productos industriales complementados con alguna otra información para los no industriales). Todo ello lleva a obtener tasas intertrimestrales bastante diferentes en un caso o en otro. Haciendo un cálculo aproximativo, hasta que en la próxima semana conozcamos las estimaciones del INE, llegamos a la conclusión de que la caída intertrimestral a precios constantes de las exportaciones ha sido algo mayor a la señalada anteriormente y, en cambio, la de las importaciones ha sido bastante menor, situándose incluso por debajo de las exportaciones, con lo que la aportación conjunta al crecimiento del PIB ha podido ser de nuevo negativa.

Error de medida

Por su interés y oportunidad, reproduzco aquí y en su idioma original (la parque que nos es más relevante de) un breve editorial de Simon Baptist, economista jefe de The Economist Intelligence Unit.

Así reza:

This week we had some apparent good news with [Indian] GDP growth at the end of 2014 revised upward to 7.5% but, looking closer, a large part of the good performance is due to changes in the way that GDP is calculated. These changes are welcome, as they better reflect the structure of the current Indian economy, but remind me that the mind-numbingly boring issues of price deflators and sectoral weights are actually much more important to economic statistics than issues of reform or central bank behaviour. Although it is less exciting, we economic commentators really should spend more time focusing on where our numbers come from rather than breathlessly extolling changes that are smaller than the likely measurement error. Either way, really understanding the context of data and forecasts is critical to making good business decisions.

Parametrización de modelos de supervivencia (paramétricos)

He participado directa o indirectamente en algunas decenas de los llamados proyectos de churn. Estoy al tanto de aún más de los que he hablado con otros colegas.

Digresión (para desavisados): se aplica (impropiamente) el término churn a aquellos clientes (en general) que abandonan una compañía o dan de baja un servicio. En realidad churn se refiere al flujo a corto plazo de clientes de poco valor que adquiere una compañía y que pierde enseguida. No sé por qué no se ha popularizado abandono. Uno de los primeros proyectos que abordan los departamentos de inteligencia de clientes de las compañías que se lo pueden permitir es tratar de identificar aquellos clientes con alta probabilidad de abandonarla.

Grandes datos, máquinas pequeñas (y regresiones logísticas con variables categóricas)

Preguntaba el otro día Emilio Torres esto en R-help-es. Resumo la pregunta. Se trata de una simulación de unos datos y su ajuste mediante una regresión logística para ver si los coeficientes obtenidos son o no los esperados (teóricamente y por construcción).

El código de Emilio (cuyos resultados no podemos reproducir porque no nos ha contado qué similla usa) es

logisticsimulation <- function(n){
  dat <- data.frame(x1=sample(0:1, n,replace=TRUE),
                    x2=sample(0:1, n,replace=TRUE))
  odds <- exp(-1 - 4 * dat$x1 + 7*dat$x2 - 1 *dat$x1* dat$x2 )
  pr <- odds/(1+odds)
  res <- replicate(100, {
    dat$y <- rbinom(n,1,pr)
    coef(glm(y ~ x1*x2, data = dat, family = binomial()))
  })
  t(res)
}

res <- logisticsimulation(100)
apply(res,2,median)
## (Intercept)          x1          x2       x1:x2
## -1.0986123 -18.4674562  20.4823593  -0.0512933

Efectivamente, los coeficientes están lejos de los esperados, i.e., -1, -4, 7 y 1.

Cuando dicen que la variable x es exógena, quieren decir...

Cuando los economistas dicen que la variable $latex x$ es exógena (con respecto a una variable de interés $latex y$) en realidad quieren decir que la función de verosimilitud $latex f(x,y)$ puede descomponerse de la forma $latex f(x,y) = f(y|x) g(x)$ y eso permite modelizar $latex y$ en función de $latex x$.

Cuando la descomposición no es posible (porque $latex x$ y $latex y$ se influyen mutuamente) dicen que $latex x$ es endógena. Obviamente, a la hora de (pretender) modelizar $latex y$ pueden considerarse variables endógenas y exógenas (y la correspondiente descomposición de la verosimilitud es un ejercicio para el lector).

Rarezas: estadística algebraica

Matemáticas y estadística son peras y manzanas. La una es la ciencia del ser; la otra, del parecer. Se encuentran en la teoría de la probabilidad, pero se miran de reojo y con recelo. Por eso este curso de estadística algebraica es toda una rareza.

Contiene resultados, como la proposición 1.1.2 que… bueno, sí, bien, vale:

Proposición 1.1.2. Las variables aleatorias [discretas] X e Y son independientes sí y solo sí la matriz $latex p = (p{ij})$ tiene rango 1._