Estadística

Un problema: cómo muestrear histogramas con medias. La vía de los trapecios

Me refiero muy impropiamente con histogramas con medias a algo parecido a

que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos.

Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido.

Por simplificar, supongamos que tenemos datos en el intervalo [0, 1] cuya media es $latex \mu$. ¿Cómo obtener un muestreo razonable de valores en dicho intervalo?

Estimar la demanda es como ponerle el cascabel al gato

Alborozábanse los ratones al oír de sus líderes la solución definitiva al problema de aquel gato que los diezmaba inmisericordemente: ¡colóquesele un cascabel!

El problema gordiano del pricing, el cascabel que hay que ponerle a ese gato, es el de la estimación de la curva de demanda. Ahi radica el quid.

Unos lo resuelven con simulaciones que quedan estupendas sobre el papel. ¡Qué fácil es ponerle un cascabel a un gato de madera!

¿Qué más se supo de la correlación del s. XXI?

No os acordáis porque pasó en 2011. Yo tampoco me acordaba hasta que me volvió a la cabeza no sé bien por qué motivo. Pero durante un par de semanas hubo revuelo porque unos tipos habían descubierto una medida de correlación mucho mejor que la correlación, etc. Creo que hasta salió publicado en prensa. Yo escribí al respecto, claro está.

Ocho años después, nada. Y lo mismo, supongo, con tantas, tantas y tantas cosas.

A mayor efecto (sobre todo, si es novedoso), mayor escepticismo

El NYT resume un artículo recentísimo sobre esas cosas que preocupan tanto en EE.UU. y que viene a decir, en términos sucintísimos, lo siguiente:

  • A los niños negros les va mucho (mucho, mucho: el efecto tiene una magnitud enorme) peor en la vida que a sus equivalentes blancos independientemente de la clase social, riqueza del hogar y otros factores predictores del éxito.
  • En cambio, el efecto de la raza es inapreciable para las niñas.

Hoy todo el mundo habla del asunto. Y lo da por bueno. Pero yo advierto un elemento de sospecha: que un efecto tan, tan grande no haya sido advertido antes. De hecho, los comentarios que he leído sobre el estudio tienden a conjungar verbos como contradecir, utilizan expresiones como echar por tierra, etc.

Modelos de factores ocultos y la caverna de Platón

La filosofía griega, aunque tosca, es rica en imágenes poderosas. El monotemático, además, solo ve su monotema.

Así que observando

no pude dejar de pensar que sugiere perfectamente los modelos (de factores) ocultos: kriggin, Kalman, los HMM, etc.

En definitiva, los humanos vemos las sombras (ruidosas) de unos objetos ideales que permanecen escondidos. Aunque a diferencia del iluminado platónico que logra girar la cabeza, nosotros, simplemente, exprimimos las sombras para conocer más y mejor los objetos que las proyectan.

Brechas salariales: así las calcularía yo

He visto N estimaciones de las brechas salariales (de género) con resultados de lo más variado. En algunos casos he podido estudiar los métodos utilizados y, la verdad, dan grima (cosas con tufo econométrico viejuno y demás).

Y me refiero, particularmente, a aquellos métodos que analizan la pregunta interesante: ¿hay igualdad de salario a igualdad de méritos? Hay publicaciones que llaman brecha a otra cosa (masa salarial dividido por sujetos), que no merece ni ser comentada aquí.

LDA para dummies (y con un ejemplo)

Tema de hoy: LDA (Latent Dirichlet Allocation). A raíz de la pregunta de una atenta lectora que quiere saber de qué va la cosa. Con un ejemplo: reproducir el mecanismo mental para tratar de averiguar a qué partido vota alguien.

Supongamos que hay cuatro partidos (PP, PSOE, Ciudadanos, IU). Supongamos que una persona al azar votaría a uno de los cuatro. Pero no sabemos a cuál. De todos modos, como leemos las encuestas, sabemos que la probabilidad de que vote PP es alrededor del 30% etc.

De sesgo, varianza y gilipollas (esta vez, con la gripe como excusa)

Un gilipollas se delatará por preferir una mentira exacta a una verdad aproximada. Y me refiero a La gripe ha causado ya más muertes en España que la pandemia de 2009, donde se lee que

España ha registrado hasta el momento un total de 472 muertes por gripe confirmadas en laboratorio, desde que a primeros de noviembre se registrara el primer fallecimiento de la temporada 2017-2018, que se ha convertido ya en la más letal de la última década, por encima incluso de la pandemia de gripe A (H1N1) que se produjo en 2009.

Secciones censales en la Wikipedia

Era una vergüenza que tantos de nosotros estemos dándole vueltas periódicamente al concepto de sección censal y este no tenga una mala entrada en la Wikipedia.

O no la tenía hasta que creé un microartículo en ella.

Estoy seguro que muchos de los lectores de estas páginas saben más (y a ciencia cierta; y pueden, además, encontrar la fuente donde aparece propiamente escrito por la autoridad pertinente) sobre el asunto que lo que aparece ahí reflejado. Y por su cuenta o a través de otros (p.e., servidor) se encargarán de hacerlo constar.

Inferencia fiduciaria: una ocurrencia, afortunadamente, muerta

Hay ocurrencias la mar de extravagantes que sobreviven el paso del tiempo (p.e., la homeopatía o el marxismo). Otras mueren. Como requetemuertas que están, no somos conscientes de que alguna vez existieron.

Una de ellas es la inferencia fiduciaria, un inventillo del mismo Fisher que no lo convenció enteramente ni a él mismo. La Wikipedia lo cita escribiendo que lo tenía not clear in the head (¡ah!, la misma sensación que tuve yo al enfrentarme a los p-valores, a la estadística bajo la perspectiva econométrica (OLS por doquier, etc.) y a algunas cosas más de las que me redimió el reverendo).