Codificación de categóricas: de (1 | A) a (B | A)

La notación y la justificación de (1 | A) está aquí, una vieja entrada que no estoy seguro de que no tenga que retocar para que no me gruña el ministerio de la verdad. Esta entrada lo es solo para anunciar que en uno de nuestros proyectos y a resultas de una idea de Luz Frías, vamos a implementar una versión mucho más parecida al lo que podría representar el término (B | A), que es, casi seguro, chorrocientasmil veces mejor. ...

11 de noviembre de 2020 · Carlos J. Gil Bellosta

"Introducción a la probabilidad y la estadística para científicos de datos": primera entrega

Acabo de colgar el primer par de capítulos de mi libro Introducción a la probabilidad y la estadística para científicos de datos. No voy a adelantar nada aquí que no esté contenido en la introducción a la obra (AKA la introducción de la introducción). Pero baste este adelanto: Las peculiaridades de su público explican algunas de las páginas que siguen. Por ejemplo, en ellas no se encontrará ni rigor, ni ortodoxia ni autocompletitud. ...

15 de octubre de 2020 · Carlos J. Gil Bellosta

Neyman y la definición original de los intervalos de confianza

Se atribuye a Neyman (y particular por su artículo de 1935 On the Problem of Confidence Intervals) la paternidad del concepto de intervalo de confianza. Aunque, leyéndolo y de acuerdo con las referencias bibliográficas de la cosa parece haber precedentes en el innombrable F (sí, el que osaba publicar en el también innombrable Journal of E.). Lo interesante del tema es que, contrariamente a las reinterpretaciones posteriores, los define tal y como se le ocurrirían a un lego medianamente inteligente: ...

6 de octubre de 2020 · Carlos J. Gil Bellosta

Una diferencia teórica importante entre los lm y el resto de los glm

[Este es un extracto, una píldora atómica, de mi charla del otro día sobre el modelo de Poisson y al sobredispersión.] Aunque me guste expresar el modelo lineal de la forma $$ y_i \sim N(a_0 + \sum_j a_j x_{ij}, \sigma_i)$$ hoy, para lo que sigue, es más conveniente la representación tradicional $$ y_i = a_0 + \sum_j a_j x_{ij} + \epsilon_i$$ donde si no sabes lo que es cada cosa, más vale que no sigas leyendo. ...

22 de septiembre de 2020 · Carlos J. Gil Bellosta

En defensa de iris

El archiconocido conjunto de datos iris es víctima reciente de un ataque relacionado con su pecado original: haber tenido unos padres estigmatizados hoy por su otrora popular idea de que gracias a la ciencia podríamos construir un futuro mejor. También ha sido víctima de ataques, esta vez más endógenos, relacionados con lo menguado de su tamaño y lo trivial de su estructura. Vengo aquí a romper una lanza —tres, más bien— en favor de este muy querido de los más conjunto de datos. Tres lanzas esgrimidas, como se verá, en contextos, con fines y ante públicos muy concretos. ...

21 de septiembre de 2020 · Carlos J. Gil Bellosta

De "la fiebre amarilla de Cádiz y pueblos comarcanos" de 1800

Esta entrada está motivada, en última instancia, por la lectura del libro (muy recomendable, por otra parte), The Art of Statistics: Learning From Data, de David Spiegelhalter. Sus muchas virtudes hacen, por contraste, que relumbre particularmente un defecto característico de toda esa creciente literatura sobre el tema: su aburridor anglocentrismo. Que si el médico devenido asesino en serie, que si los cirujanos de Bristol, que si el manidísimo John Snow (que esta vez, en este libro, de casualidad, no aparece),… ...

11 de septiembre de 2020 · Carlos J. Gil Bellosta

Este vídeo es un resumen en 15 minutos de años de entradas de este blog, solo que contado todo al revés

El vídeo es este: Si tomas cada frase y le pones un NO delante, tienes un esquema de un sílabo para un curso de capacitación estadística básica. Por algún motivo, cuando vi el vídeo por primera vez, la única palabra que me venía a la mente era: «pornográfico«. Para conocer más sobre el mundo al que se refiere el vídeo, recomiendo El oscuro mundo de los ’tipsters’, los pronosticadores que ejercen de gancho de las casas de apuestas (un artículo al que solo le pongo el pero de haber sido redactado bajo la ilusión del solucionismo regulatorio). Hay un filón de trabajo cuantitativo y pro bono que podría hacerse (atención al uso del impersonal) al respecto para contrarrestar (¿es posible?) el impacto de toda esta gente. La gente está fatal. Vedlo. Es alucinante.

9 de septiembre de 2020 · Carlos J. Gil Bellosta

Muchos cocineros con la misma receta...

[Iba a guardar un enlace a este artículo entre mis notas, pero, qué demonios, lo dejo aquí, público, porque así lo encuentro yo y lo encontramos todos.] ¿Qué pasa/puede llegar a pasar si muchos científicos de datos analizan los mismos datos en busca de una respuesta a la misma cuestión? Una de las posibles respuestas está en Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results. Y por evitaros un click, ...

7 de septiembre de 2020 · Carlos J. Gil Bellosta

Misma p, distinto n, luego...

Tres situaciones. La primera: n <- 20 y <- 15 test <- prop.test(y, n, p = .5) test$p.value # [1] 0.04417134 test$conf.int # 0.5058845 0.9040674 La segunda: n <- 200 y <- 115 test <- prop.test(y, n, p = 0.5) test$p.value #[1] 0.04030497 test$conf.int # 0.5032062 0.6438648 Y la tercera: n <- 2000 y <- 1046 test <- prop.test(y, n, p = 0.5) test$p.value #[1] 0.0418688 test$conf.int # 0.5008370 0.5450738 En resumen: mismo problema distintos tamaños muestrales mismo p-valor (aproximadamente) distintos estimadores distintos intervalos de confianza La pregunta: ¿qué circunstancia es más favorable? Una respuesta, aquí. Coda: Había olvidado que había escrito sobre el mismo asunto años atrás. Precisamente, en p, n y mi moneda de la suerte.

30 de julio de 2020 · Carlos J. Gil Bellosta

Aún más sobre la presunta sobredispersión en modelos de Poisson

[Esta entrada continúa el ciclo al que he dedicado esta y esta otra entradas durante los últimos días.] Las dos entradas anteriores de la serie se resumen en que: el modelo de Poisson no recoge todas las fuentes de error que pueden existir en los datos y que las soluciones al uso (como, p.e., usar modelos quasi-Poisson) son puros remiendos. Si el error en el modelo de Poisson entra (también) en el término lineal, podemos modelar ese error explícitamente. Podría haber implementado la solución INLA o Stan del problema, pero me conformaré con la lme4. Primero, generaré los datos (igual que en las entradas anteriores) y añadiré una variable categórica que identifique cada registro: ...

22 de julio de 2020 · Carlos J. Gil Bellosta