Los tres contraargumentos habituales

Hago pública por su interés (parte de) una respuesta de Ramón Díaz Uriarte a un correo mío en el que yo sugería que una vez que sabes especificar un modelo probabilístico para unos datos, p.e., para la regresión lineal, y ~ N(a0 + a1 x1 +..., sigma)), para el test de Student, y0 ~ N(mu, sigma); y1 ~ N(mu + delta, sigma), etc. no hace falta saber qué es lm, ni el test de Student, ni nada. Cero teoría; sobre todo, de teoría tipo recetario. Se especifica el modelo (con una determinada sintaxis), se deja correr la cosa y a interpretar. Su respuesta: ...

29 de febrero de 2016 · Carlos J. Gil Bellosta

¿Hay una epidemia en mi grafo?

Tengo un grafo, g cuyas aristas pueden ser cualquier cosa susceptible de contaminarse. Me pregunto si la contaminación puede contagiarse a través del grafo. Es decir, si A y B están unidos por una arista y A está contaminado, la probabilidad de que B también lo esté es superior a la normal. Se me ocurre probar esa hipótesis así: library(igraph) # mi grafo g <- erdos.renyi.game(10000, p.or.m = 0.001, type="gnp") min.mean.dist <- function(n){ # contaminación al azar contaminados <- sample(V(g), n) # distancias entre aristas contaminadas res <- shortest.paths(g, v = contaminados, to = contaminados) diag(res) <- Inf # distancia al contaminado más próximo min.dist <- apply(res, 1, min, na.rm = T) # y su media mean(min.dist) } # histograma bajo la hipótesis nula res <- replicate(100, min.mean.dist(100)) El resto son detalles que el lector atento sabrá completar por su cuenta.

26 de febrero de 2016 · Carlos J. Gil Bellosta

La democracia no representativa no es representativa

En estadística, una muestra representativa tiene que contener las características relevantes de la población en las mismas proporciones en que están incluidas en tal población (referencia). En estos tiempos, se están poniendo de moda alternativas a la muy tradicional democracia representativa que, en contraposición a ella, no aspiran a serlo. Y su principal problema radica, precisamente, en que no lo son. Lo anterior no es más que una opinión: es la constatación de un hecho. Esta semana pasada, en aras de una versión más directa y asamblearia de la democracia, ha habido en mi barrio un par de eventos en los que en presencia de la alcaldesa de Madrid el uno y del concejal de mi distrito el otro, se han tratado temas que me interesan directamente. Pero, oh, fatalidad, a la hora en que yo (y muchos otros) estamos lejos y ocupados ganándonos el pan. ...

22 de febrero de 2016 · Carlos J. Gil Bellosta

Clases sociales y clústering

El clústering (o análisis de conglomerados, o como se le quiera llamar) es un atajo intelectual. En lugar de estudiar individuos (no necesariamente personas), estos se agrupan de manera más o menos cuestionable, se eligen representantes en cada uno de ellos, cuyas características se atribuyen a continuación a todos sus miembros. No puedo evitar escribir párrafos como el anterior sin que me venga a la nariz ese olor a naftalina de cuando era crío y abría los armarios de mi abuela. ...

16 de febrero de 2016 · Carlos J. Gil Bellosta

¿Cómo seleccionar un cubo al azar?

Podemos hacerlo seleccionando aleatoriamente (uniformemente) la longitud de la arista (p.e., entre 3 y 5 cm) la superficie de la cara (p.e., entre 9 y 25 cm²) su volumen (p.e., entre 27 y 125 cm³) Obviamente, los tres mecanismos anteriores generarán distribuciones de muestreo diferentes (¿cuáles?). Una trivialidad, tal vez, que tiene que ver con esto y con esto.

11 de febrero de 2016 · Carlos J. Gil Bellosta

Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga

¡Olé! Con la frase que titula esta entrada se cierra este artículo tan torero de eldiario.es. El resto de lo que se publica me viene de perillas para ilustrar a mis alumnos del máster de ciencia de datos de KSchool eso de la dependencia e independencia condicional. Lo que el artículo argumenta, y que nadie pone en duda, es que altas concentraciones de óxidos de nitrógeno (A) y picos de hospitalizaciones por enfermedades respiratiorias (B), no son eventos independientes. Es decir, que $P(A \cap B) \neq P(A)P(B)$. En otros términos, que nuestro conocimiento de A nos permite refinar nuestra estimación de B. Todo correcto. ...

5 de febrero de 2016 · Carlos J. Gil Bellosta

Y termino con lo de los intervalos

Y termino con lo de los intervalos. Me refiero a esto y esto. Nunca me habría atrevido a escribir sobre el tema, y exponerme, de paso, a la muy razonadas explicaciones de quienes tuvieron a bien comentarlas, si no hubiese sido por un tema personal: el recuerdo de la frustración que me supuso hacerme en su día con la teoría subyacente tanto a las pruebas de hipótesis como a la construcción de intervalos de confianza. ...

4 de febrero de 2016 · Carlos J. Gil Bellosta

Comparaciones de tres grupos: pruebas vs modelos

Una pregunta reciente en r-help-es se refería a la comparación en R de las proporciones en tres grupos. Obviando algunas pequeñas complicaciones en el problema, la respuesta canónica podría ser esta: total <- c(56, 49,51) positivos <- c(14, 10, 17) prop.test(tmp$positivos, tmp$positivos + tmp$negativos) # 3-sample test for equality of proportions without continuity correction # # data: tmp$positivos out of tmp$positivos + tmp$negativos # X-squared = 2.2289, df = 2, p-value = 0.3281 # alternative hypothesis: two.sided # sample estimates: # prop 1 prop 2 prop 3 # 0.2500000 0.2040816 0.3333333 Los grupos no parecen ser desiguales. ...

25 de enero de 2016 · Carlos J. Gil Bellosta

¿A cuántos zombis conoces?

El artículo cuya lectura propongo hoy comienza así: La zombificación es un gran problema de salud y de seguridad pública muy difícil de estudiar usando los métodos tradicionales basados en encuestas. Se cree que la tasa de penetración del teléfono entre la población zombi es pequeña. Además, los zombis son reacios a identificarse como tales al ser encuestados. Las entrevistas personales suponen un riesgo elevado para quienes las realizan. Las esperanzas originalmente depositadas en las encuestas a través del ordenador se desvanecieron ante el riesgo de que los virus propagasen la infección zombi. ...

21 de enero de 2016 · Carlos J. Gil Bellosta

La intersección de lo interesante, lo sorprendente, lo cierto y lo basado en datos

Me interesan, obviamente, los problemas interesantes. Me interesan los problemas en que puedo argumentar basándome en datos. Para ello, obviamente, de nuevo, tienen que existir datos con los que tratar de dar respuesta a esas preguntas interesantes del párrafo anterior. Me interesa que los datos revelen respuestas no obvias, que no sepamos ya de antemano. Me interesa que los datos me sorprendan. Me interesa, obviamente, que esas respuestas sorprendentes a preguntas interesantes basadas en datos sean ciertas. O que tengan visos de certeza. Cuando menos, que no se caigan en la primera revisión crítica. ...

29 de diciembre de 2015 · Carlos J. Gil Bellosta