Más sobre variables instrumentales con R

R

[El título de esta entrada tiene un + delante porque ya escribí sobre el asunto tiempo atrás.]

Con la excusa de la reciente publicación del paquete ivreg (para el ajuste de modelos con variables instrumentales, por si el contexto no lo hace evidente), he mirado a ver quién estaba construyendo y ajustando modelos generativos menos triviales que los míos (véase el enlace anterior) para que quede más claro de qué va la cosa. Porque la explicación típica, que adopta formas no muy distintas de

Muchos cocineros con la misma receta...

[Iba a guardar un enlace a este artículo entre mis notas, pero, qué demonios, lo dejo aquí, público, porque así lo encuentro yo y lo encontramos todos.]

¿Qué pasa/puede llegar a pasar si muchos científicos de datos analizan los mismos datos en busca de una respuesta a la misma cuestión? Una de las posibles respuestas está en Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results. Y por evitaros un click,

El pozo aristotélico

[Hoy voy a tratar ciertas reflexiones suscitadas por el artículo más relevante que he leído este verano.]

La física aristotélica tiene mala prensa. Sin embargo, Carlo Rovelli, en _Aristotle’s Physics: a Physicist’s Look _ofrece una visión alternativa y más optimista de la generalizada, que resume así:

I show that Aristotelian physics is a correct and non-intuitive approximation of Newtonian physics in the suitable domain (motion in fluids), in the same technical sense in which Newton theory is an approximation of Einstein’s theory. Aristotelian physics lasted long not because it became dogma, but because it is a very good empirically grounded theory. The observation suggests some general considerations on inter-theoretical relations.

Contrariamente a lo que creía recordar, "Hot deck" != LOCF

Imputación (que es algo en lo que muy a regañadientes estoy trabajando estos días).

Si de verdad tienes que imputar datos en una tabla (y solo en ese caso), solo hay un criterio: construye un modelo para predecir los valores faltantes en función del resto y reemplaza el NA por la su predicción.

El modelo puede ser tan tonto como

lm(my_col ~ 1, na.rm = T)

que resulta en la popular estrategia de reemplazar los NAs por la media del resto de las observaciones. Cambiando lm por otras cosas funciones más molonas y la fórmula por otras más complejas en que intervengan otras columnas se obtienen métodos más potentes. Se pueden usar GAMs (como en mtsdi) o random forests (como en missForest), pero la idea está clara. Es solo la naturaleza del problema la que nos invita a decantarnos por una u otra opción.

Hoy sí, sobre tetas y culos (e Instagram, como excipiente)

Hoy voy a aprovechar una excusa peregrina para hablar de lo que por algún motivo se me antoja imperiosamente, que son tetas y culos. Que (este pronombre es un puntero a excusa) es

[Nota: aquí quise incrustar un tuit de Analía Plaza que, aparentemente, fue borrado por su autora meses después.]

Lo primero que tengo que decir al respecto es que las tetas y culos que asocia al Cabo de Gata el Instagram de quienqueira que haya tomado esas capturas son prácticamente las mismas que en el mío (y otro día os cuento por qué tengo Instagram, porque ni lo sabéis ni os lo podéis imaginar), a saber,

¿CDO de, p.e., España? Nah...

Dizque hace falta un CDO (chief data officer) de esa parte de España que es el estado español (aunque no sabemos si con autoridad solo dentro de la administración central o también en sus tentáculos semiautónomos) porque es una figura con creciente importancia en las empresas y con un rol muy definido en ellas.

Aquí voy a argumentar a la contra introduciendo un elemento de sospecha en esa aparentemente sencilla y automática traslación de roles entre la empresa privada y una cosa tan pantagruélica y aparatosa como la administración de un estado. Al menos, en lo que concierne a un CDO con poderes ejecutivos, es decir, con potestad para pedir que algo sea hecho y que, efectivamente, se haga.

Sobre la muy necesaria "Oficina del Dato"

Hace no tanto propuse la creación de un segundo INE axialmente (eje: la Castellana) simétrico al actualmente existente que elaborase un segundo censo, una segunda EPA, etc. por lo mucho que podríamos aprender acerca de la varianza (y los límites de la estadística) gracias a la simultánea publicación de parejas de cifras oficiales desiguales.

Pero alguien en el brazo largo de la palanca debió leerme sin advertir que iba de coña y me hizo caso. Así, en uno de los últimos BOEs, se nos comunica que:

Misma p, distinto n, luego...

Tres situaciones. La primera:

n <- 20
y <- 15
test <- prop.test(y, n, p = .5)
test$p.value
# [1] 0.04417134
test$conf.int
# 0.5058845 0.9040674

La segunda:

n <- 200
y <- 115
test <- prop.test(y, n, p = 0.5)
test$p.value
#[1] 0.04030497
test$conf.int
# 0.5032062 0.6438648

Y la tercera:

n <- 2000
y <- 1046
test <- prop.test(y, n, p = 0.5)
test$p.value
#[1] 0.0418688
test$conf.int
# 0.5008370 0.5450738

En resumen:

  • mismo problema
  • distintos tamaños muestrales
  • mismo p-valor (aproximadamente)
  • distintos estimadores
  • distintos intervalos de confianza

La pregunta: ¿qué circunstancia es más favorable? Una respuesta, aquí.

¿Un "Instituto Nacional de Datos"?

Por motivos que algún día contaré, me está tocando leer una serie de documentos muy bizarros (en su acepción bárbara). De entre todos, el que se lleva la palma es el titulado Estrategia Española de I+D+I en Inteligencia Artificial, promovido por el ministerio del ramo y elaborado por la Secretaría General de Coordinación de Política Científica del Ministerio de Ciencia, Innovación y Universidades y el Grupo de Trabajo en Inteligencia Artificial GTIA.

"Transformación digital"

2010: Todos los registros civiles municipales ya están digitalizados:

Todos los registros civiles municipales de España (110.210 tomos manuscritos y 68.197.976 páginas) ya se encuentran en formato digital gracias al ‘Registro Civil en Línea’ que ha impulsado el MITYC a través del programa ‘red.es’, y al Ministerio de Justicia.

La iniciativa ha contado con un presupuesto de 128 millones de euros, cofinanciados con fondos FEDER, para digitalizar e informatizar los órganos registrales y los libros manuscritos desde 1950.