Estadística

Reescrituras interesadas (de resultados estadísticos más o menos conocidos)

Traigo hoy dos artículos interesantes sobre un mismo tema: la ciencia de datos reescribiendo de manera interesada resultados estadísticos más o menos conocidos, presentando como nuevos los que no lo son del todo y omitiendo interesadamente referecias bibliográficas.

Son este y este (aunque el segundo trata de más temas).

Es muy interesante el concepto de plagio inteligente en oposición al de plagio literal que denuncia el primer enlace.

agate: análisis de datos optimizado para humanos (y no para máquinas)

Una de las cosas que menos me canso de repetir es que R no es (solo) un lenguaje de programación. R es un entorno para el análisis de datos. Los informáticos se horrorizan con él: no entienden por qué es como es. Pero, fundamentalmente, su problema es que no conciben que pueda haber sido diseñado para el REPL y no (solamente) para crear programas.

Casi todo el tiempo que paso con R abierto lo consumo trabajando interactivamente, no programando. R está pensado para facilitar ese tipo de trabajo, no para crear programas complejos. Está optimizado para el usuario, no para la máquina. De ahí se sigue una cascada de corolarios que no ha lugar plantear aquí.

GAM

Hoy he dado una charla en la Carlos III. En la comida me han preguntado, algo extrañados, por un ejemplo que había enseñado en el que ajustaba un modelo usando GAMs.

El motivo era que quienes preguntaban —que trabajan con ese tipo de modelos— encuentran muy difícil, se ve, convencer a otros usuarios de los métodos estadísticos (economistas, etc.) de adoptarlos. Yo he contestado que hace unos pocos días a unos primíparos que acababan de ajustar sus tres primeros lms con R les invité a probar GAMs con sus datos. ¿Por qué no?

Encuestas, censos, elecciones

Hace unas semanas tuve un lapso de creatividad. Dejé de escribir durante un tiempo y me dediqué al sucedáneo: leer. Terminé, para variar, unos cuantos libros.

Uno de ellos es Proofiness, the Dark Arts of Mathematical Deception que está más o menos bien. En su mayor parte abunda sobre fenómenos conocidos, estudiados y sobradamente denunciados: que hay que recurre a argumentos basados en números, estadísticas o construcciones matemáticas más o menos sofisticadas para dar visos de verdad a mentiras flagrantes. Los ejemplos resultarán más afines culturalmente a quienes vivan en la orilla equivocada del Atlántico, aunque son los suficientemente conocidos para que sepamos de qué se habla y que el género es ensayo y no ficción.

Ad more geometrico

De la manera geométrica. No sé si fue Spinoza o si se le adelantó alguno el que trató de explicar la filosofía y la ética como hacían los geómetras con sus puntos, rectas y arcos. Es cosa del XVIII y del XIX, si mal no recuerdo, el pretender trasladar esa manera de pensar científica y racional que tantos avances había proporcionado en física, química, etc. a las ciencias humanas.

Ayer viví una reedición. Acudí a las charlas de Machine Learning Spain. Una de ellas fue muy buena: ingenieros aeronáuticos explicando métodos que utilizaban para optimizar estudios de aerodinámica combinando resultados de simulaciones matemáticas con mediciones en túneles de viento.

El g-test para tablas de contingencia

Hace unos días recibí una consulta de una vieja amiga lingüista. Ella trabaja en algo que creo que se llama cocolocación: el estudio de palabras que aparecen o que tiendan a aparecer juntas en textos. Digamos que es algo así como una correlación o una regla de asociación.

Los lingüistas están muy interesados en ese tipo de fenómenos. Tradicionalmente (cada gremio tiene su librillo) usan la información mutua. Pero, al final, lo que tienen es una tabla de contingencia: situaciones en que aparece una, la otra, ambas o ninguna de las palabras.

La falacia del fiscal (pero con frecuencias naturales)

No sé si alguien conoce la historia de Sally Clark. Fue condenada por el asesinato de sus dos hijos. Ambos padecieron, según ella, el síndrome de la muerte súbita del lactante. La probabilidad, sin embargo, de que sus dos hijos lo padecieran (supuesto que son eventos independientes, i.e., que no hay, por ejemplo, factores genéticos comunes) era muy baja: una de 73 millones. Por eso la enchironaron.

Pero, ¿qué es 1 / 73e6? Eso es $latex P(D|I)$, es decir, la probabilidad del suceso (los datos) condicionada a la inocencia de Sally. Sin embargo, la probabilidad que tiene que tener encuenta un juez no es esa sino $latex P(I|D)$, es decir, la probabilidad de ser inocente a la vista de los datos.

Del hombre medio a la factura media

Del hombre medio (u homme moyen de Quetelet para los eruditos) ya hemos hablado antes: es un concepto decimonónico, de la época de los albores de la estadística, que permite argumentar alrededor de una construcción inexistente: el sujeto que está en la media de todo, la medida de la normalidad.

Pero buscad “factura media” en Google (entrecomillado) y veréis como en el siglo XXI todavía se argumenta alrededor de construcciones ideales similares. Para determinar si un servicio sube o baja de precio, reguladores, periodistas, asociaciones de consumidores, etc. examinan la facture moyenne.

La funesta manía de querer acertar

Vayan dos cosas por delante:

  • Que la de pretender acertar es una perniciosa manía. Más loable es la de tratar de evitar un fallo catastrófico.
  • Que recomiendo muy mucho seguir las cosas que hace Kiko Llaneras.

Dicho lo cual…

Kiko Llaneras ha estado elaborando predicciones del resultado de las elecciones en Cataluña durante la precampaña. Pueden verse aquí. El documento enlazado incluye una discusión de la metodología.

A diferencia de los más de los comentaristas, Kiko ofrece, más que pretendidas certezas, distribuciones. Tal y como hacen los que más saben. Es algo aplaudible.