Estadística

Probabilidad y banca

Traduzco y adapto un texto de Matt Levine (fuente), cuya relevancia para lo que aquí se suele tratar es más que evidente:

[…] el capital social de un banco, la participación de los accionistas, es solo una pequeña porción que descansa sobre un enorme iceberg de pasivos. En un banco conservador y rentable, podría haber 100€ de activos, 90€ de pasivos y, por lo tanto, 10€ de capital social. Los pasivos son ciertos y conocibles —cosas como depósitos, que deben pagarse al 100%—. Los activos son variables, tienen un riesgo y su valoración es un poco una suposición: incluye activos con precios sujetos a las variaciones del mercado, derivados extraños difíciles de valorar y préstamos comerciales con probabilidades inciertas de ser devueltos. El banco aplica algunas convenciones contables y hace algunas suposiciones para llegar a un valor de 100€ para sus activos. Pero ese número está rodeado de incertidumbre.

Sobre el muy necesario "Rolling Journal of Sociology"

I.

El ordenador —de sobremesa— con el que trabajo habitualmente está más cerca de los diez que de los cinco años. Desde que lo compré ha avanzado la tecnología y soy consciente de que uno nuevo podría facilitarme cierto tipo de tareas. Pero para el 99% de ellas, con lo que tengo, vale. Cambiar me costaría tiempo y dinero. Me da pereza. Realmente, puedo hacer todo lo que necesito con este i5-6400 de 64GB de RAM DDR3-2133.

"Outliers": las dos aproximaciones

Leyendo Taking Outlier Treatment to the Next Level me entretuve en pensar cómo la literatura sobre el tratamiento de los outliers tiende a ignorar y confundir los dos modos —o más bien, circunstancias— de enfrentarse a ellos. Por ejemplo, en ese enlace se discute alrededor de los datos y el modelo representado en,

que, como veremos, pertenece a lo que llamo primer modo usando técnicas propias del segundo.

Obviamente, el segundo tiene que poder ilustrarse con datos concretos. Es entendible. Pero es contraproducente para el lector pensar que las técnicas propias del segundo modo han de aplicarse —o poder aplicarse— donde procede las del primero.

Sobre la elipse que "mejor" se ajusta a una "nube de puntos"

Es un problema conocido ese de tener una nube de puntos $(x_i, y_i)$ y preguntarse por la mejor recta (o polinomio de grado 2, 3, etc.) que los ajusta. Pero a veces uno busca la mejor elipse. Un caso del que me acuerdo (aunque allí se buscaba un círculo, más bien), es en Calculando la redondez de una piedra con R. Yo me encontré con el problema al construir una pequeña herramienta que me ayudase a mejorar el trazo de mis elipses a mano alzada; se trata de una página web (para visitar idealmente desde una tableta con lápiz electrónico) que:

Ajuste de modelos: Optimización vs generalización

He escrito esta entrada como una introducción a lo que se cuenta aquí, aquí y aquí sobre el asunto de la relación entre la optimización (como parte del proceso de ajuste de modelos) y la generalización (o su capacidad para aprender sobre el mundo y no solo sobre los datos de entrenamiento). En los enlaces, el lector encontrará planteadas una serie de cuestiones sobre cómo y por qué generalizan los (o cierto tipo de) modelos en lugar de, simplemente, no hacerlo.

Sobre la interpretación de los indicadores económicos

The Economist tiene a bien publicar una serie de tablas comparativas de los indicadores económicos más importantes de las distintas economías. Si uno se fija en la fila de Tailandia verá que sistemáticamente tiene unas cifras de desempleo ridículas. Por ejemplo, es el 0.9% en la última edición.

Pero, ¿es Tailandia el paraíso en la tierra para los trabajadores? Me temo que no. ¿Se calcula entonces allí la tasa de desempleo de alguna manera particular y sesgada? Tampoco: se trata de un indicador que se construye usando una metodología uniforme en todas partes.

Una aplicación inesperada de la detección de "outliers"

Es esta:

La foto está construida apilando varias tomadas secuencialmente. Cada píxel que se ve procede de alguna de las originales. En concreto, en la coordenada $ij$ se selecciona uno de los píxeles $ij$ de alguna de las de partida.

Para conseguir el efecto deseado, el píxel seleccionado es no otro que el outlier. En este caso concreto, la antimediana, el más alejado de la mediana.

La foto original, una discusión detallada del algoritmo, etc., puede consultarse en Apilado por ‘antimediana’ para replicar sujetos en movimiento con Photoshop.

Sobre lo de Ariely, Gino, etc.

I.

Hay tres motivos por los que me interesa esta historia que, creo, serán compartidos por mis lectores:

  • Dice mucho sobre la recocina donde se prepara eso que llaman ciencias sociales.
  • Tiene mucho interés estadístico, es material docente de primera.
  • Y, sobre todo, ¡es tan ameno!

II.

En 2012, cinco autores —Shu, Mazar, Gino, Ariely y Bazerman— que pertenecían a dos grupos de investigación distintos que trabajaban sobre un mismo asunto, decidieron publicar un artículo conjunto con tres estudios que apuntaban en una misma dirección: Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end.

Inmigración y PISA: ¿en qué quedamos? (si es que merece la pena)

I.

Comenzaré por los dos relatos.

El primero, está resumido en la siguiente infografía que se puede encontrar en la página 36 del primer volumen de los resultados de PISA de 2022:

El hecho destilado que los autores del informe pretenden que uno aprenda leyendo eso —al menos, a la ligera— es que el ser inmigrante —así, en abstracto— no afecta al desempeño académico.

El segundo relato está también resumido en otro gráfico,

Sobre los retos asociados a la "stealthflation"

Estoy aficionándome a usar el Chatbot Arena como intefaz para utilizar LLMs. No solo te da acceso a algunos de los más potentes, sino que te lo ofrecen en pares (y uno puede puntuar las respuestas para elaborar posteriormente un ránking ELO de todos ellos).

Y resulta que al preguntarles qué cosa es la stealthflation, gpt-4-turbo me ha dado prácticamente el resumen de lo que quería exponer en presente entrada. Con mi traducción,

¿Se encoge el cerebro de los hombres cuando tienen un su primer crío?

Si uno atiende a lo que dicen los medios, diríase que sí. El runrún mediático está motivado por la publicación del estudio First-time fathers show longitudinal gray matter cortical volume reductions: evidence from two international samples al que no tengo acceso ni siquiera oblicuamente (i.e., vía Sci-Hub), pero cuyo resumen traduce ChatGPT así:

Las evidencias emergentes señalan la transición a la paternidad como una ventana crítica para la plasticidad neural en adultos. Estudiar a los padres brinda una oportunidad única para explorar cómo la experiencia de la paternidad puede dar forma al cerebro humano cuando el embarazo no se experimenta directamente. Sin embargo, muy pocos estudios han examinado las adaptaciones neuroanatómicas de los hombres que pasan a la paternidad. El presente estudio informa sobre una colaboración internacional entre dos laboratorios, uno en España y otro en California (Estados Unidos), que han recopilado prospectivamente datos de neuroimagen estructural en 20 futuros padres antes y después del nacimiento de su primer hijo. La muestra española también incluyó un grupo de control de 17 hombres sin hijos. Probamos si la transición a la paternidad implicaba cambios anatómicos en el volumen, grosor y área cortical cerebral, y en los volúmenes subcorticales. Encontramos tendencias superpuestas de reducción del volumen cortical dentro de la red de modo predeterminado y las redes visuales, y la preservación de las estructuras subcorticales en ambas muestras de padres primerizos, lo cual persistió después de controlar la edad de los padres y los niños en la exploración postnatal. Este estudio proporciona evidencia convergente de cambios estructurales corticales en los padres, respaldando la posibilidad de que la transición a la paternidad pueda representar una ventana significativa de plasticidad neuroestructural inducida por la experiencia en los hombres.

¿Cuántas iteraciones necesita mi MCMC?

Es el tema de este reciente artículo de Gelman. Cabe esperar que algunos se sientan decepcionados porque no tenga solo una página en la que se lea algo así como: usa cuatro cadenas de 4000 iteraciones, 1000 de ellas de warmup. Lo siento: son 26 páginas y sin recetas copy-paste.

Tampoco puedo añadir nada de sustancia a lo que ahí se cuenta. Me voy a limitar a subrayar una idea e ilustrarla con un caso con el que me enfrenté hace unos años.