Más capítulos del libro de estadística (y otras cosas y proyectos para 2021)

Por un lado, he publicado tres capítulos más de mi libro de estadística desde el último anuncio. Son el (brevísimo) de introducción a la estadística, y los dedicados a la estadística descriptiva y la estimación puntual.

Hay algunas cosas en ellos que no se encuentran habitualmente en otros manuales. Por ejemplo, en el hecho de plantear determinados modelos como meras herramientas de visualización de datos (o de apoyo a ellas) en el de la estadística descriptiva. También se han recogido en ese capítulo las discusiones relevantes sobre lo que es un missing o un outlier y cómo tratarlos en general.

Sobre la relación entre la teoría de la relatividad y la regresión logística

Según la teoría de la relatividad, las velocidades (lineales) se suman así:

v1 <- 100000
v2 <- 100000
velocidad_luz <- 300000

suma_relativista <- function(x,y){
  (x + y) / (1 + x * y / velocidad_luz^2)
}

suma_relativista(v1, v2)
# 180000

Lo que es todavía menos conocido es que esa operación es equivalente a la suma ordinaria de velocidades a través de una transformación de ida y vuelta vía la arcotangente hiperbólica (véase esto). En concreto:

f1 <- function(x) {
  atanh(x / velocidad_luz)
}

f2 <- function(x) {
  velocidad_luz * tanh(x)
}

f2(f1(v1) + f1(v2))
# 180000

Ahora imaginemos un universo donde la velocidad máxima no es la de la luz, sino que solo están permitidas las velocidades entre 0 y 1:

Tres pirámides poblacionales con nombre

La primera es esta, a la que muchos conocen como la pirámide de población española de 1992, pero que yo conozco como la pirámide de población de la masificación universitaria:

Es posible que a muchos no os suene el concepto pero, ¿véis ese pico en la edad de la chavalería? Corresponde a todos esos a los que dio de repente por ponerse a estudiar ingeniería, derecho o matemáticas de forma que no cabían en las aulas. En este tiempo no era inhabitual ver en los telediarios imágenes de estudiantes tomando apuntes de álgebra lineal sentados en los radiadores.

Mis prioris sobre la vacuna: ¿por qué estarían tan desviadas?

I.

De todas las explicaciones sobre cómo funciona la percepción —desde la más inmediata, la de los sentidos (“ahí hay una vaca”), hasta la que nos permite transitar las complejidades físicas y conceptuales del mundo moderno— la que he encontrado más convincente hasta el sol de hoy es una construida alrededor de un símil con el proceso actualización bayesiano de las probabilidades.

Según ella, por un lado tenemos nuestra propia cosmovisión, lo que esperamos ver antes de abrir los ojos a la realidad, nuestra priori (p.e., las llaves están en el llavero). Los sentidos (o las lecturas, o…) aportan información (no mucha, apenas unos KB) y el cerebro opera una suerte de actualización de probabilidades —aquí no tengo claro si los defensores de esta teoría recurren a Bayes de forma alegórica o si piensan que el cálculo es exactamente bayesiano; supongo que habrá de todo— y llega a un consenso sobre lo que ocurre realmente.

Sobre el "programa fuerte" de la sociología de la ciencia: una visión desde la "ciencia de datos"

I.

Estos días y por razones que no vienen a cuento, he estado leyendo Fashionable Nonsense. Es un libro que puede describirse como la versión del director del conocido como escándalo Sokal.

Para los no advertidos y según la Wikipedia:

En 1996, Sokal, profesor de física en la Universidad de Nueva York, envió un artículo pseudocientífico para que se publicase en la revista postmoderna de estudios culturales Social Text. Pretendía comprobar que una revista de humanidades «publicará un artículo plagado de sinsentidos, siempre y cuando: a) Suene bien; y b) Apoye los prejuicios ideológicos de los editores (contra las ciencias empíricas)».

La interpretación de "significativo" en un caso muy concreto

Comienzo por el final:

En el gráfico anterior se aprecian unos datos, generados mediante

n <- 100
x <- 1:n

y_base <- cos(2 * pi * x / 100)
y <- y_base + rnorm(n, 0, .4)

datos <- data.frame(x = x, y_base = y_base, y = y,
                    cos1 = cos(2 * pi * x / 100),
                    cos2 = cos(4 * pi * x / 100))

a los que se ha ido añadiendo un ruido progresivamente, es decir, una serie de outliers artificiales.

Las líneas rojas representan la predicción realizada mediante un modelo de segundo orden de Fourier (si se me permite), es decir,

Encuestas (electorales), medios y sesgos

Me he entretenido estos días en crear un modelo que represente la siguiente hipótesis de trabajo:

Los encuestadores electorales combinan tres fuentes de información: sus propios datos, el consenso de los restantes encuestadores y la voz de su amo, es decir, el interés de quien paga la encuesta.

Es un modelo en el que se introduce (y se mide) el sesgo que introduce cada casa en los resultados. De momento (¡no fiarse!, léase lo que viene después) he obtenido cosas como estas (para el PP):

La lotería del hardware y la cámara de resonancia académica

El artículo The Hardware Lottery es, hasta cierto punto, informativo. En el fondo, no dice nada que no supiésemos ya: que ciertas ideas, algoritmos, procedimientos, métodos, en diversas disciplinas (¡no en matemáticas!) triunfan esencialmente porque les toca la lotería del hardware. No es que sean las mejores desde una perspectiva actual —podría usar aquí los términos etic y emic a lo ovetense— sino que fueron afortunados y bendecidos por el hecho de estar a la (típicamente, medianeja) altura de los tiempos medidos en términos del desarrollo del hardware.

Máxima verosimilitud vs decisiones

En Some Class-Participation Demonstrations for Introductory Probability and Statistics tienen los autores un ejemplo muy ilustrativo sobre lo lo relativo (en oposición a fundamental) del papel de la máxima verosimilitud (y de la estadística puntual, en sentido lato) cuando la estadística deja de ser un fin en sí mismo y se inserta en un proceso más amplio que implica la toma de decisiones óptimas.

Se trata de un ejemplo pensado para ser desarrollado en una clase. Consiste en un juego en el que el profesor muestra a los alumnos un bote con monedas y les propone que traten de acertar su número exacto. En tal caso, los alumnos se la quedan y pueden repartirse el contenido.

En respuesta a los que me preguntan si pondré "la vacuna"

[Dejo aquí por escrito la respuesta detallada a esa pregunta por, primero, una cuestión de eficiencia: poder contestarla con un enlace cuando me vengan de nuevo con ella. Pero también por la relación que guarda con temas como el riesgo o la teoría de la decisión que a estas página mías no les son ajenos.]

I.

¿Me vacunaré?

Espero que no, ojalá que no. Lo digo solo porque soy penúltimo o antepenúltimo en esa lista de prelaciones que parecen haber publicado nuestras beneméritas autoridades (y que tanto me recuerda a esto). Simplemente, espero que para cuando me toque ya no sea necesaria.

Sobre la "Carta de Derechos Digitales"

No cualquier ministerio sino precisamente el de economía (lo subrayo: es muy relevante para lo que sigue) ha colgado de su portal una (propuesta de) Carta de Derechos Digitales para su pública consulta.

Se trata de un documento confuso, en el que se mezclan propuestas que afectan a ámbitos muy heterogéneos, desde el transhumanismo,

[L]a ley regulará aquellos supuestos y condiciones de empleo de las neurotecnologías que, más allá de su aplicación terapéutica, pretendan el aumento cognitivo o la estimulación o potenciación de las capacidades de las personas.

Análisis de eventos recurrentes

He sido fan del análisis de los eventos recurrentes desde antes incluso de saber que existía tal cosa formalmente.

Es una extensión del análisis de la supervivencia donde resucitas y vuelves a morirte a lo Sísifo. Es decir, en el análisis de la supervivencia, te mueres y ya; por eso, si quieres extender el análisis de la supervivencia a asuntos tales como compras de clientes es necesario usar el calzador muy heterodoxamente.

"Introducción a la probabilidad y la estadística para científicos de datos": segunda entrega

Acabo de subir:

  • Modificaciones y correcciones a los dos primeros capítulos.
  • Un tercer capítulo sobre distribuciones de probabilidad.

Queda ampliar, organizar y razonar la biblografía correspondiente a ese tercer capítulo.

Lo más original (con cuádruples comillas) de este capítulo es tal vez la construcción de la función de densidad a partir de histogramas obtenidos a partir de simulaciones de variables aleatorias. Algo sobre lo que creo que escribí en su día en el blog pero que no ubico.