Estadística

El calendario chino como determinante en el sexo de los hijos

No a la hora en la que escribo esto pero, probablemente y por lo que me han dicho, sí a la hora en la que se publique esto, aparecerá en la revista Buena Vida de El País un artículo en el que se me menciona como experto y que se refiere a lo que encabeza esta entrada.

Por si las necesarias ediciones y por su valor intrínseco, reproduzco aquí (casi) íntegro el correo que he enviado a la autora:

gam vs rrff (y, en general, modelos generativos vs cajas negras)

Para modelizar una serie temporal, y simplificándolo mucho, ¿gam o rrff? Como todo, depende. El otro día oí de un caso en el que los segundos vencían a los primeros claramente. Natural.

Hay contextos con una estructura matemática clara y potente. En particular, muchos en los que trabajo actualmente. ¿Para qué usar una herramienta genérica cuando cuento con una específica? Esos datos, mis datos, exigen estructura matemática.

Luego hay otros casos en los que uno se lanza al río. Luego uno siempre quiere invertir el proceso y ver qué carajos está ocurriendo con los datos (véase esto).

Redundancias (o por qué empeñarnos en tener tantos datos cuando con una fracción sobra)

[Esta entrada no contiene ni respuestas ni, tan siquiera, buenas preguntas. Solo vuelco en ella ideas más o menos inconexas que me rondan la cabeza. Tal vez alguien sepa reformularlas mejor, plantear la pregunta concreta que exige el asunto y, con suerte, responderla con claridad y distinción.]

Mi proyecto trata de la estimación de los parámetros que rigen una determinada curva (altamente no lineal) de la que se tienen N observaciones en el tiempo. Igual que tengo N podría tener 2N o N/2.

Un problema: cómo muestrear histogramas con medias. La vía de los trapecios

Me refiero muy impropiamente con histogramas con medias a algo parecido a

que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos.

Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido.

Por simplificar, supongamos que tenemos datos en el intervalo [0, 1] cuya media es $latex \mu$. ¿Cómo obtener un muestreo razonable de valores en dicho intervalo?

Modelos con inflación de ceros y separación perfecta

Al estudiar problemas de conteos, la llamada inflación de ceros ocurre frecuentemente: los datos contienen más ceros de los que ocurrirían según las distribuciones habituales (Poisson, binomial negativa). Un modelo con inflación de ceros es una mezcla (mixtura) de un modelo de conteos y una distribución de Dirac (en cero).

Las técnicas habituales para resolverlos involucran (explícita o implícitamente) una estructura jerárquica de modelos: primero, uno (similar a una logística), separa las observaciones que corresponderían a la Dirac del resto. Un segundo modelo de conteos trata de ajustar el segundo.

Estimar la demanda es como ponerle el cascabel al gato

Alborozábanse los ratones al oír de sus líderes la solución definitiva al problema de aquel gato que los diezmaba inmisericordemente: ¡colóquesele un cascabel!

El problema gordiano del pricing, el cascabel que hay que ponerle a ese gato, es el de la estimación de la curva de demanda. Ahi radica el quid.

Unos lo resuelven con simulaciones que quedan estupendas sobre el papel. ¡Qué fácil es ponerle un cascabel a un gato de madera!

Causalidad: malo lo uno, pero tampoco bueno lo otro

Leo en Las causalidades en Economía a Manuel Alejandro Hidalgo dignándose a dar réplica al panfletillo Curva de Laffer: Montoro bajó por fin el IRPF… y recaudó un 6% más.

El último no cuenta apenas más que lo que anuncia en su titulo. El primero quiere enmendarle la plana, pero al hacerlo escribe frases tan chirriantes como:

Insinuar que gracias a la bajada del IRPF por Cristóbal Montoro los ingresos por este tributo se incrementaron en un 6,5% exige, cuando menos, un Trabajo Fin de Máster y de los buenos. Exige muchas semanas de trabajo y mucha econometría, por no decir que exige de un modelo de tu economía que te ayude a manejar de un modo ordenado las ideas, las relaciones causales.

¿Qué más se supo de la correlación del s. XXI?

No os acordáis porque pasó en 2011. Yo tampoco me acordaba hasta que me volvió a la cabeza no sé bien por qué motivo. Pero durante un par de semanas hubo revuelo porque unos tipos habían descubierto una medida de correlación mucho mejor que la correlación, etc. Creo que hasta salió publicado en prensa. Yo escribí al respecto, claro está.

Ocho años después, nada. Y lo mismo, supongo, con tantas, tantas y tantas cosas.

Población: el padrón y la otra cosa

En un proyecto necesitábamos cifras de población por provincias durante los últimos años. Así que usamos los datos del padrón proporcionados por el INE (el INE es guay; AEMET es kk). Pero alguien nos dijo que era mejor usar los otros datos de población, los nosequé (sí, las estimaciones intercensales, si es que se llaman así) porque eran más mejores.

El padrón es un registro administrativo. Lo otro es algo soportado por lo que yo llamo método y el resto de la humanidad, metodología.

A mayor efecto (sobre todo, si es novedoso), mayor escepticismo

El NYT resume un artículo recentísimo sobre esas cosas que preocupan tanto en EE.UU. y que viene a decir, en términos sucintísimos, lo siguiente:

  • A los niños negros les va mucho (mucho, mucho: el efecto tiene una magnitud enorme) peor en la vida que a sus equivalentes blancos independientemente de la clase social, riqueza del hogar y otros factores predictores del éxito.
  • En cambio, el efecto de la raza es inapreciable para las niñas.

Hoy todo el mundo habla del asunto. Y lo da por bueno. Pero yo advierto un elemento de sospecha: que un efecto tan, tan grande no haya sido advertido antes. De hecho, los comentarios que he leído sobre el estudio tienden a conjungar verbos como contradecir, utilizan expresiones como echar por tierra, etc.