Carlos J. Gil Bellosta

Más sobre correlaciones espurias y más sobre correlación y causalidad

Hoy toca esto: Esto es lo que provoca la contaminación: los picos de contaminación coinciden con un aumento radical en los ingresos de los hospitales https://t.co/GpEBg6hqko pic.twitter.com/tvwS1r3Ldi — Ignacio Escolar (@iescolar) November 23, 2017 Se trata de una invitación para leer el artículo Los picos de contaminación coinciden con un aumento radical en los ingresos hospitalarios, un cúmulo de desafueros epilogados por el ya habitual Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga. ...

dbf · xlsx · pdf

Me escriben pidiendo consejo sobre cómo leer datos contenidos en (una serie larga de) ficheros en formatos .dbf, .xlsx (con un formato extraño) y .pdf. .dbf No tengo ni curiosidad por averiguar de dónde proceden. Simplemente, library(foreign) res <-read.dbf("R0010.DBF") funciona de maravilla. .xlsx Estos sí que sé de dónde vienen (y me guardo la opinión). El problema aquí no era leer directamente tablas contenidas en hojas sino ir extrayendo celdas y rangos de hojas. Así que: ...

Arqueólogos bayesianos

Se ve que hay arqueólogos bayesianos. Un problema con el que se encuentran es que tropiezan con cacharros antiguos y quieren estimar su antigüedad. Así que prueban distintos métodos (¿químicos?), cada uno de los cuales con su precisión, y acaban recopilando una serie de estimaciones y errores. Obviamente, tienen que combinarlas de alguna manera. El modelo más simple es $$ M_i \sim N(\mu, \sigma_i)$$ donde $\mu$ es la antigüedad (desconocida) del artefacto y los $\sigma_i$ son las varianzas distintas de los distintos métodos de medida, que arrojan las estimaciones $M_i$. ...

La viejunísima escuela

Leí esto. Me asaltó la pregunta obvia, la manifiesta, la fundamental, la sine qua non. Si queréis, echadle un vistazo y podréis descubrirla por vosotros mismos. Y para evitar el spoiler de un golpe de vista involutario al párrafo siguiente, intercalo la foto de un lindo gatito. Pues sí, el señor Escohotado afirma que: En el año dos mil tres un profesor de Harvard, McCormick, un medievalista, digitalizó, escaneó todos los documentos medievales del siglo VI al siglo XIII, los pasó por un programa adecuado y les preguntó cosas tan sencillas como ¿cuántas veces aparece la palabra “negotiator”? ...

¿Primeros principios para la estadística descriptiva?

Hay disciplinas que parecen puras colecciones de anécdotas, recetarios ad hoc y listas de contraejemplos. Tal se ha predicado, por ejemplo, de la economía conductual. Pero, ¿pueden reconstruirse a partir de primeros principios? Si se ha ensayado con la economía conductual, ¿por qué no intentarlo con nuestra modestísima estadística descriptiva? Un caso particular: cuando de una variable aleatoria calculo y escribo o represento su media y su desviación estándar, de alguna manera estoy modelizándola como una distribución normal. Esta modelización puede ser explícita, aunque casi siempre es implícita. Si la variable aleatoria tiene una distribución muy alejada de la normal, habrá quien proteste: que si la media es engañosa, que si… Pero, ¿por qué habría de ser engañosa en este caso y no en otro? Precisamente por la (incorrecta) modelización implícita: estaría usando lo de la normal donde no aplica. ...

La función de pérdida es una API entre los "stakeholders" de un análisis estadístico

El objeto único de la estadística es informar decisiones. V.g, si conceder un préstamo, proceder a la quimio, construir una línea de AVE entre Calatayud y Soria o permitir aparcar mañana en el centro de Madrid a los de Móstoles. Pero quienes toman decisiones y quienes analizan datos suelen ser personas distintas. Típicamente, ni se conocen. Lo cual es tanto pésimo como tema para otra entrada distinta de esta. Lo fundamental es que estas personas se comunican a través de, metafóricamente, APIs. Unas de las más usadas son los p-valores. Que son tan pésismos como tema para otra entrada distinta de esta. ...

Advertencias sobre el uso de los n-gramas de Google

Dudaba en si dedicar la entrada a popularizar los n-gramas de Google en lugar de advertir sobre sus sesgos. Pero, habida cuenta de que lo primero sería llover sobre mojado (véase esto o esto), me he decantado por lo segundo. El primer problema es el del reconocimiento de caracteres. Aunque la tecnología mejorará, aún se encuentra, p.e., cami6n en lugar de camión. El fundamental, no obstante, es que los libros aparecen una única vez independientemente de su popularidad. Esto plantea problemas para medir el impacto cultural de determinados términos: su presencia o ausencia en los n-gramas puede no encontrar correlato en la calle. ...

¿Cuántos culpables son declarados inocentes por un juez?

Desde un punto de vista estrictamente legalista, ninguno. Pero todo sistema de decisión está expuesto tanto a falsos positivos como a falsos negativos. Creo entender que nuestro sistema legal, el español, es especialmente garantista, i.e., que prefiere los últimos a los primeros. Pero, digan lo que digan los juristas, el asunto de los falsos negativos es real y tiene su coste social. Además, y por eso lo traigo al blog, tiene una interesante lectura probabilística y participa extremadamente del habitual problema de la indisponibilidad de datos fehacientes. Todas estas cuestiones las trata (en el contexto estadounidense, advierto) esto que enlazo.

Estadística(s) y el dedo de Dios

He usado el vídeo en un curso de estadística básica para ilustrar a través de experimentos se construyen histogramas y estos convergen a y, en última instancia, justifican el uso de distribuciones de probabilidad. Es decir, experimentos -> histogramas -> funciones de distribución. Y de ahí, el resto. ...

Probabilismo, probabilorismo y todas esas cosas

La teoría moderna de la decisión, con sus escenarios, recompensas, escenarios, probabilidades y consideraciones de orden sicológico, es cosa del siglo pasado. El principio de máxima verosimilidad también. Si se me apura, incluso, la teoría de la probabilidad propiamente construida. Esos desarrollos opacan las discusiones previas, tal vez pueriles, al respecto. Pero húbolas. No sé cómo, he tropezado con algunas. Como las que se discuten en los enlaces, este, este y este, que comparto.