Libros

Más sobre la estimación de probabilidades de eventos que no se repiten

Hace un tiempo hablé sobre la estimación de probabilidades de eventos que ocurren una única vez: elecciones, etc. Argumentaba cómo pueden ser descompuestos en dos partes muy distintas cualitativamente: una asociada a eventos que sí que se han repetido; otra, específica y única. El tamaño relativo de ambas componentes afecta a eficacia del mecanismo de estimación.

Esta vez quiero ilustrarlo con un ejemplo extraído, traducido y adaptado de aquí que ilustra el procedimiento.

Dos cuestiones sobre la naturaleza de la probabilidad planteadas por Keynes en 1921 pero que siguen hoy igual de vigentes

I.

A Treatise on Probability, la obra de Keynes (sí, el famoso) de 1921, es un libro muy extraño que se puede leer de muchas maneras. Puede servir, si se hace poco caritativamente, para denunciar el lastimoso estado en el que se encontraba la probabilidad antes de la axiomatización de Kolmogorov, 12 años depués de su publicación. O también, si se hace más cuidadosamente, para rescatar una serie de consideraciones que aun hoy muchos hacen mal en ignorar.

Sobre el "programa fuerte" de la sociología de la ciencia: una visión desde la "ciencia de datos"

I.

Estos días y por razones que no vienen a cuento, he estado leyendo Fashionable Nonsense. Es un libro que puede describirse como la versión del director del conocido como escándalo Sokal.

Para los no advertidos y según la Wikipedia:

En 1996, Sokal, profesor de física en la Universidad de Nueva York, envió un artículo pseudocientífico para que se publicase en la revista postmoderna de estudios culturales Social Text. Pretendía comprobar que una revista de humanidades «publicará un artículo plagado de sinsentidos, siempre y cuando: a) Suene bien; y b) Apoye los prejuicios ideológicos de los editores (contra las ciencias empíricas)».

"Introducción a la probabilidad y la estadística para científicos de datos": segunda entrega

Acabo de subir:

  • Modificaciones y correcciones a los dos primeros capítulos.
  • Un tercer capítulo sobre distribuciones de probabilidad.

Queda ampliar, organizar y razonar la biblografía correspondiente a ese tercer capítulo.

Lo más original (con cuádruples comillas) de este capítulo es tal vez la construcción de la función de densidad a partir de histogramas obtenidos a partir de simulaciones de variables aleatorias. Algo sobre lo que creo que escribí en su día en el blog pero que no ubico.

Canales (o estéticas), de mejor a peor, según Healy

Data visualization, de Healy, sicólogo sociólogo (gracias al atento comentarista) para más señas, es dizquel nuevo Cleveland. Que lo pone al día 27 años después.

Una muestra del libro:

Se trata de las estéticas (en su acepción ggplot2) ordenadas de mayor a menor efectividad.

[Estoy leyéndolo y nada nuevo bajo el sol; tal vez, sí, el aggiornamiento que de vez en cuando parece que necesitan las cosas para que se oreen las ideas, las tipografías y las paletas de color de los gráficos.]

Algoritmos y ética circa 1950

Estoy corrigiendo las partes de mi libro que tienen que ver con la teoría del a probabilidad para hacerlas más prácticas para quienes llegan a ese mundo no para aprender una serie de reglas operativas que le sirvan para resolver un examen y pasar a otra cosa sino para su trabajo y su vida. Es decir, para asignar probabilidades a eventos.

Y eso me ha llevado a hojear uno de los libros más famosos en los últimos tiempos dedicados al asunto: Superforecasting. En el que he encontrado una referencia a una discusión del perínclito Meehl que dice:

"Introducción a la probabilidad y la estadística para científicos de datos": primera entrega

Acabo de colgar el primer par de capítulos de mi libro Introducción a la probabilidad y la estadística para científicos de datos. No voy a adelantar nada aquí que no esté contenido en la introducción a la obra (AKA la introducción de la introducción). Pero baste este adelanto:

Las peculiaridades de su público explican algunas de las páginas que siguen. Por ejemplo, en ellas no se encontrará ni rigor, ni ortodoxia ni autocompletitud.

Mi parrafito favorito de "Number Sense"

Acabo de terminar (la última edición corregida y aumentada de) The Number Sense, un libro que libro explora la ubicación de la aritmética básica dentro del eje naturaleza vs crianza y del que me permito compartir mi parrafito favorito:

"Poor Economics": el resumen

Leí hace un tiempo, antes de que concediesen el Nobel a sus autores y porque había oído hablar muy bien de él a un tipo que conozco, Poor Economics.

Es un libro muy deprimente y voy a explicar aquí por qué.

Advierto que escribo de memoria: ni he revisado el libro ni lo que de él anoté para este infrarresumen.

El libro tiene muchas páginas divididas en N+1 capítulos. Los N primeros describen muchos, muchísimos RCTs (¿en el orden de cientos?) agrupados por temas —que si microcréditos, que si redes para los mosquitos para prevenir la malaria,…— en un montón de países. Tienen un denominador común: nada funciona. Todo lo que se ensaya fracasa por los motivos más variopintos.

Rebelarse vende

Tales son las circunstancias de los tiempos que nos ha tocado vivir que muchos de quienes trabajamos en ciencia de datos, querámoslo o no, nos dedicamos a vender cachivaches. De ahí que recomiende la lectura de

un librito con muchas posibles interpretaciones pero que da en el clavo en muchas. O tal opino yo.

Nota: muchas cosas han cambiado desde que se publicó. No sé si es bueno leer esto antes o después que el libro.

Feria del libro, 2019

Fui a la Feria del Libro. El calor era el de L’Étranger. Comencé por la caseta uno. TOC. Riguroso orden hasta la cientiypico.

Libros, libros por todas partes…

Autoayuda. Autoayuda. Reverté (¿recopilatorio de artículos?). Libros rosas, libros con nombres y fotos de mujeres en la portada. Autoayuda. Infantil. Losantos y su Barcelona. Autoayuda. Dos pornógrafas. Los gatitos (y la filosofía) de Stoya. Autoayuda. DIY. Facsílmil de Voynich. Los mismos libros una y otra vez. Más autoayuda y libros facilongos. Marx y esas cosas.

Libros y el índice de compresibilidad

Los libros contienen palabras e ideas. Un libro con un índice de compresibilidad del 0% es uno para el que transmitir el, p.e., 30% de las ideas que contiene hacen falta, como poco, el 30% de las palabras. Muchos libros de matemáticas o estadística tienen ratios de ese nivel.

El otro día leí una entrada de blog en la que alguien le hacía un 80:20 a un libro que había leído. Que viene a significar que el autor del texto original era uno de esos tipos palabreros que se escuchan a sí mismos y que no tiene respeto alguno por tu tiempo.