Estadística

Redundancias (o por qué empeñarnos en tener tantos datos cuando con una fracción sobra)

[Esta entrada no contiene ni respuestas ni, tan siquiera, buenas preguntas. Solo vuelco en ella ideas más o menos inconexas que me rondan la cabeza. Tal vez alguien sepa reformularlas mejor, plantear la pregunta concreta que exige el asunto y, con suerte, responderla con claridad y distinción.]

Mi proyecto trata de la estimación de los parámetros que rigen una determinada curva (altamente no lineal) de la que se tienen N observaciones en el tiempo. Igual que tengo N podría tener 2N o N/2.

Un problema: cómo muestrear histogramas con medias. La vía de los trapecios

Me refiero muy impropiamente con histogramas con medias a algo parecido a

que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos.

Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido.

Por simplificar, supongamos que tenemos datos en el intervalo [0, 1] cuya media es $latex \mu$. ¿Cómo obtener un muestreo razonable de valores en dicho intervalo?

Modelos con inflación de ceros y separación perfecta

Al estudiar problemas de conteos, la llamada inflación de ceros ocurre frecuentemente: los datos contienen más ceros de los que ocurrirían según las distribuciones habituales (Poisson, binomial negativa). Un modelo con inflación de ceros es una mezcla (mixtura) de un modelo de conteos y una distribución de Dirac (en cero).

Las técnicas habituales para resolverlos involucran (explícita o implícitamente) una estructura jerárquica de modelos: primero, uno (similar a una logística), separa las observaciones que corresponderían a la Dirac del resto. Un segundo modelo de conteos trata de ajustar el segundo.

Estimar la demanda es como ponerle el cascabel al gato

Alborozábanse los ratones al oír de sus líderes la solución definitiva al problema de aquel gato que los diezmaba inmisericordemente: ¡colóquesele un cascabel!

El problema gordiano del pricing, el cascabel que hay que ponerle a ese gato, es el de la estimación de la curva de demanda. Ahi radica el quid.

Unos lo resuelven con simulaciones que quedan estupendas sobre el papel. ¡Qué fácil es ponerle un cascabel a un gato de madera!

Causalidad: malo lo uno, pero tampoco bueno lo otro

Leo en Las causalidades en Economía a Manuel Alejandro Hidalgo dignándose a dar réplica al panfletillo Curva de Laffer: Montoro bajó por fin el IRPF… y recaudó un 6% más.

El último no cuenta apenas más que lo que anuncia en su titulo. El primero quiere enmendarle la plana, pero al hacerlo escribe frases tan chirriantes como:

Insinuar que gracias a la bajada del IRPF por Cristóbal Montoro los ingresos por este tributo se incrementaron en un 6,5% exige, cuando menos, un Trabajo Fin de Máster y de los buenos. Exige muchas semanas de trabajo y mucha econometría, por no decir que exige de un modelo de tu economía que te ayude a manejar de un modo ordenado las ideas, las relaciones causales.

¿Qué más se supo de la correlación del s. XXI?

No os acordáis porque pasó en 2011. Yo tampoco me acordaba hasta que me volvió a la cabeza no sé bien por qué motivo. Pero durante un par de semanas hubo revuelo porque unos tipos habían descubierto una medida de correlación mucho mejor que la correlación, etc. Creo que hasta salió publicado en prensa. Yo escribí al respecto, claro está.

Ocho años después, nada. Y lo mismo, supongo, con tantas, tantas y tantas cosas.

Población: el padrón y la otra cosa

En un proyecto necesitábamos cifras de población por provincias durante los últimos años. Así que usamos los datos del padrón proporcionados por el INE (el INE es guay; AEMET es kk). Pero alguien nos dijo que era mejor usar los otros datos de población, los nosequé (sí, las estimaciones intercensales, si es que se llaman así) porque eran más mejores.

El padrón es un registro administrativo. Lo otro es algo soportado por lo que yo llamo método y el resto de la humanidad, metodología.

A mayor efecto (sobre todo, si es novedoso), mayor escepticismo

El NYT resume un artículo recentísimo sobre esas cosas que preocupan tanto en EE.UU. y que viene a decir, en términos sucintísimos, lo siguiente:

  • A los niños negros les va mucho (mucho, mucho: el efecto tiene una magnitud enorme) peor en la vida que a sus equivalentes blancos independientemente de la clase social, riqueza del hogar y otros factores predictores del éxito.
  • En cambio, el efecto de la raza es inapreciable para las niñas.

Hoy todo el mundo habla del asunto. Y lo da por bueno. Pero yo advierto un elemento de sospecha: que un efecto tan, tan grande no haya sido advertido antes. De hecho, los comentarios que he leído sobre el estudio tienden a conjungar verbos como contradecir, utilizan expresiones como echar por tierra, etc.

Lecciones estadísticas que pueden extraerse de los disturbios de Lavapiés

Mi barrio ha sufrido una serie de sobresaltos provocados por la incontinencia de la plebe frumentaria a raíz de la muerte por infarto de un mantero. Ha salido en las noticias y no merece la pena abundar en ello.

Y no mencionaría el asunto salvo porque el otro día, de casualidad, advertí que el antedicho mantero y yo compartimos sección censal. Lo cual invita a una reflexión de corte estadístico. Porque las secciones censales son las unidades más básicas de las que existe información estadística (número de personas, distribución por sexos, edades, etc.) toda ella convenientemente promediada (renta media, etc.). La vieja historia del si yo me como un pollo y tú ninguno, un estadístico diría que nos estamos comiendo los dos medio, pero de otra manera.

Modelos de factores ocultos y la caverna de Platón

La filosofía griega, aunque tosca, es rica en imágenes poderosas. El monotemático, además, solo ve su monotema.

Así que observando

no pude dejar de pensar que sugiere perfectamente los modelos (de factores) ocultos: kriggin, Kalman, los HMM, etc.

En definitiva, los humanos vemos las sombras (ruidosas) de unos objetos ideales que permanecen escondidos. Aunque a diferencia del iluminado platónico que logra girar la cabeza, nosotros, simplemente, exprimimos las sombras para conocer más y mejor los objetos que las proyectan.

Brechas salariales: así las calcularía yo

He visto N estimaciones de las brechas salariales (de género) con resultados de lo más variado. En algunos casos he podido estudiar los métodos utilizados y, la verdad, dan grima (cosas con tufo econométrico viejuno y demás).

Y me refiero, particularmente, a aquellos métodos que analizan la pregunta interesante: ¿hay igualdad de salario a igualdad de méritos? Hay publicaciones que llaman brecha a otra cosa (masa salarial dividido por sujetos), que no merece ni ser comentada aquí.

¿Soy parte del concilábulo heteropatriarcal?

En una de esas comidas navideñas tuve que asistir pasivamente a una conversación en la que se dibujaba una peculiar realidad alternativa: existiría algo así como un conciliábulo (el Márketing) con capacidad de memoria, entendimiento y voluntad propias e interés por implementar una particular agenda de corte heteropatriarcal. Producto de la cual, por ejemplo, las afeitadoras de color rosa para mujeres vendrían a resultar más caras que las azules para hombres, etc. El Márketing sería un grupito de señores fumando puros, jugando al mus que, entre partida y partida, deciden el color, empaquetado, estampado, forma y precio de cada producto imaginable vendido en cualquier tienda del reino; el descuento que se puede aplicar a cada cual según su raza, sexo/orientación sexual, religión, enfermedad crónica y afiliación sindical. Con un solo objetivo: perjudicar a los/as consabidos/as.

Kriging con Stan

Este mes de julio, cuórum mediante, impartiré en la UPC un curso que he maltitulado, mor de brevedad, Estadística Bayesiana Aplicada.

Los cursos de estadística bayesiana son teoría, mucha teoría, y unos ejemplos tontos que quieren justificarla. Del tipo: hagamos lo que ya sabemos hacer de otra manera más; busquemos una alternativa molona al p-valor (y usémosla como usar íamos un p-valor, por supuesto), etc.

Mi curso debería haberse titulado algo así como: Problemas reales (aunque simplificados por motivos estrictamente pedagógicos) resueltos con tecnología bayesiana porque, si no, dígame Vd. cómo lo haría: ¿con optim? Jajajajaja…