mgm (no la de las pelis sino la de los modelos gráficos)

Cayeron en mis manos unos datos que no puedo publicar, pero me atreveré a presentar algunos resultados anonimizados. Se trata de una tabla de puntuaciones numéricas (18 en total, cada una en su columna) proporcionadas por unos cuantos centenares de sujetos (filas). Era de interés un estudio cualitativo de las posibles relaciones de dependencia entre las variables. La manera más rápida de comenzar, un heatmap(cor(dat)), para obtener Y luego PCA y todas esas cosas. ...

25 de enero de 2018 · Carlos J. Gil Bellosta

Insospechadas aplicaciones de la estadística en arqueología

Se ve que hace 4000 años existió una incipiente actividad comercial entre protociudades situadas en las actuales Turquía, Siria e Irak: Se han descubierto tablillas tales como (que es el primer bono del que se tiene constancia) en las que se lee que alguien llevó tanta plata de la ciudad X a la Y, etc. Los autores Trade, Merchants and Lost Cities of the Bronze Age, usando una muestra de unas 5000 tablillas, modelaron este tráfico usando un modelo de gravedad, es decir, ...

18 de enero de 2018 · Carlos J. Gil Bellosta

¿Quitar variables no significativas?

Contexto: modelos de regresión con de varias a muchas variables. Muy particularmente cuando interesa la predicción. Pseudoproblema: ¿quitamos las variables no significativas? Los manualitos (muy queridos de enseñantes, porque les dan reglas sencillitas; muy queridos también de los aprendientes, por el mismo motivo) rezan que sí. Se quitan y a otra cosa. La regla adulta es: Si el coeficiente es grande y tiene el signo correcto, ¡enhorabuena! Si el coeficiente es pequeño, la variable no hace ni bien ni mal. Y hay más motivos para dejarla que para quitarla. Pero si el coeficiente es grande y el signo es contrario a lo que cabría esperar (p.e., a más gripe menos fallecidos, a más capacidad económica menos compra media, etc.), ¡ah!, toca volver a replantear el modelo seriamente. Nota: en lo anterior no he usado la palabra significativo. Si alguien quiere traducir grande y pequeño en términos de la ocurrencia de hace ochenta años de un inglés que sostenía que el tabaco era sano, allá él.

17 de enero de 2018 · Carlos J. Gil Bellosta

Lecturas recomendadas: sobre la anonimización de currículos y su impacto en la "diversidad"

Recomiendo la lectura de Going blind to see more clearly: unconscious bias in Australian Public Service shortlisting processes por varios motivos. El primero, porque es el producto de un equipo de trabajo de una naturaleza inaudita en nuestras latitudes: el grupo de trabajo de economía conductual del gobierno australiano. Seguro que hacen cosas muy interesantes. Segundo, porque es un ejemplo estupendo de cómo se describe un experimento estadístico: planteamiento, resultados, etc. están descritos sin que sobre ni falte una coma y en un lenguaje llano, preciso y accesible. ...

15 de enero de 2018 · Carlos J. Gil Bellosta

¿Lo publico y nos echamos unas risas todos?

Estos días, haciendo limpieza de cajones, estanterías y directorios, he dado con un documentito que se me quedó accidentalmente pegado al disco duro hace muchos, muchos años. Es la documentación metodológica y técnica, firmada por una consultora de postín, de los algoritmos de cálculo de la probabilidad de impago en una de esas entidades financieras que quebraron en su día con enorme estrépito (y perjuicio para el erario público, sea dicho de paso). ...

10 de enero de 2018 · Carlos J. Gil Bellosta

Mortalidad en carretera (contada de una manera distinta)

Con motivo de fin de año se ha hablado de fallecidos en accidentes de tráfico como por ejemplo en El Mundo o en El País. Y sí, parece que el número observado de muertos ha aumentado. Lo cual es mucho menos relevante de lo que se da a entender. Si tiras una moneda al aire 100 veces y sacas 48 caras y luego repites el experimento, podrías sacar 53 (y habría aumentado el número observado de caras) o 45 (y habría disminuido). Lo relevante es si ha cambiado o no la probabilidad de cara de la moneda. De lo cual, y volviendo al caso de la siniestralidad, ya me ocupé en su día. ...

9 de enero de 2018 · Carlos J. Gil Bellosta

Recodificación de variables categóricas de muchos niveles: ¡ayuda!

Una vez escribí al respecto. Y cuanto más lo repienso y lo reeleo, menos clara tengo mi interpretación. De hecho, estoy planteándome retractar esa entrada. Y reconozco que llevo tiempo buscando en ratos libres algún artículo serio (no extraído del recetario de algún script kiddie de Kaggle) que justifique el uso del procedimiento. Es decir, que lo eleve de técnica a categoría. Sin éxito. He hecho probaturas y experimentos mentales en casos extremos (p.e., cuando todos los niveles de la variable categórica son distintos, cuando son iguales, etc.) con los decepcionantes resultados que cabe esperar. Lo cual contradice las presuntas virtudes casi taumatúrgicas del procedimiento. ...

8 de enero de 2018 · Carlos J. Gil Bellosta

La ilusión de progreso (en problemas de clasificación)

David Hand, en Classifier Technology and the Illusion of Progress, resume el asunto así: A great many tools have been developed for supervised classification, ranging from early methods such as linear discriminant analysis through to modern developments such as neural networks and support vector machines. A large number of comparative studies have been conducted in attempts to establish the relative superiority of these methods. This paper argues that these comparisons often fail to take into account important aspects of real problems, so that the apparent superiority of more sophisticated methods may be something of an illusion. In particular, simple methods typically yield performance almost as good as more sophisticated methods, to the extent that the difference in performance may be swamped by other sources of uncertainty that generally are not considered in the classical supervised classification paradigm. ...

4 de enero de 2018 · Carlos J. Gil Bellosta

p-curvas

Primero, una simulación: n <- 100 delta <- 0.2 n.iter <- 10000 p_valores <- function(n, delta){ tmp <- replicate(n.iter, { x <- rnorm(n) y <- rnorm(n, mean = delta) t.test(x, y)$p.value }) res <- tmp[tmp < 0.05] hist(res, freq = FALSE, xlab = "p value", ylab = "", col = "gray", main = "histograma de p-valores publicables") res } null_effect_p_values <- p_valores(n, 0) some_effect_p_values <- p_valores(n, delta) Lo que simula son n.iter experimentos en los que se comparan n valores N(0,1) con otros n valores N(delta, 1) y se extrae el correspondiente p-valor. Luego se grafican los publicables (<0.05). Cuando diff es 0, sucede: No hay diferencia entre x e y, i.e., no hay efecto real. Los p-valores tienen una distribución uniforme en [0,1] y, por tanto, también en [0, 0.05]. Así que la p-curva tiene una forma característica, aproximadamente como ...

12 de diciembre de 2017 · Carlos J. Gil Bellosta

Un artículo que está esperando a ser escrito

Alguno de mis lectores, supongo, estará metido en ese mundo de ir escribiendo cosas y cosechado méritos, impactos y anecosas para salir del precariado y pillar moscosos. Que dejen de leer. Es una orden. A aquellos que tengan tiempo y talento los invito a escribir el artículo titulado Temperaturas umbrales de disparo de la mortalidad atribuible al frío y al calor en España en el periodo 2007-2017. Se trata, esencialmente, de aggiornar metodológica, gráfica y sintácticamente esta cosa viejuna y manifiestamente mejorable en todas las dimensiones concebibles. ...

7 de diciembre de 2017 · Carlos J. Gil Bellosta