Estadística

Este también buscaba la precisión donde tal vez menos importaba

Esta no va de prensa sino de una reunión de vecinos. Al terminar, hablo con uno de ellos y me cuenta que siempre se había dedicado a la construcción y que en alguna ocasión tocó la estadística. En particular, en el estudio, relevantísimo, que describo a continuación.

En los años 70, como parte de la preparación de las ofertas para construir una incineradora de basura en Madrid, una que se ve que aún existe, le encomendaron la muy estadística tarea de estimar el poder calorífico de la basura de la capital.

Aquellos que ignoran la estadística etcétera

Ayer asistí a una charla sobre errors. Brevemente (porque está estupendamente explicado, motivado y documentado por su autor, al que aprovecho la ocasión para saludar), hace esto:

library(errors)
valores <- unlist(list(a = 1, b = 2, c = 3))
vars    <- c(1, 1, 1)    # varianzas de esos datos/medidas
sds     <- sqrt(vars)

# errores
x <- valores
errors(x) <- sds
format(x[1] * sin(x[2])^3, notation = "plus-minus", digits = 3)
#[1] "0.75 +/- 1.28"

Y nuestro viejo, clásico, manido, infrautilizado, semidesconocido mas no por ello menos querido método delta, ¿para qué existe en lugar de (como elucubraba el filósofo), simplemente, no existir? ¿Para qué otra cosa sino para aprenderlo me levanté yo aquella fría mañana del 94 sino para contemplarlo proyectado de diapositivas manuscritas de acetato? ¿Fue en vano?

¿Dónde dejar de leer? Un caso práctico

Hay mucho por leer. El tiempo es finito y valioso. Es imperativo contar con criterios para dejar de leer. Identificar señales tempranas que indiquen que no merece la pena seguir. Generalmente, porque te están tratando de vender una moto.

En una de las primeras diapositivas de la VIII Encuesta de Percepción de la Ciencia realizado por la Fundación Española para la Ciencia y la Tecnología (Fecyt) se muestran las respuestas a la siguiente pregunta:

WolframAlfa al rescate de exmatemáticos

Tengo el sistema

$$ m = \frac{a}{a+b}$$ $$ v = \frac{ab}{(a+b)^2 (a+b+1)}$$

en los que alguien descubrirá cosas relativas a la distribución beta.

Interesa despejar $latex a$ y $latex b$. Pero solo soy un exmatemático perezoso, disléxico y con déficit de tiempo y atención. Así que tacacata y…

$$ a = \frac{-m^3 + m^2 - mv}{v}$$ $$ b = \frac{m^3 - 2m^2 + mv + m -v}{v}$$

Así se inventó el nudo gordiano del "hombre medio"

Lo cuenta muy bien Todd Rose en How the Idea of a ‘Normal’ Person Got Invented.

Hay tres grandes eras en la estadística moderna:

  • La queteliana, resumida en la imagen del hombre medio: existe un prototipo sobre el que, tal vez, se consideran variaciones. Es decimonónica, pero colea.
  • La kamediana, que es una versión pizza partida en ocho de la anterior. Es de mitad del siglo pasado y perdura en paleomentes.
  • La contemporánea, que contempla cada sujeto en su individualidad (aunque inserta en su circunstancia). Es propia del big data bien hecho.

Que se desenvuelva exige deshacer (¿cortar a tajos?) un par de nudos gordianos.

La tierra gira alrededor del sol, sí, pero... ¿cuánta gente lo sabe?

Pues según la VIII Encuesta de Percepción de la Ciencia realizado por la Fundación Española para la Ciencia y la Tecnología (Fecyt), el 88.3% de los españoles (mayores de cierta edad y tal, supongo).

Así lo recogen los medios que podéis consultar al respecto.

Pero, ¿de acuerdo con los muy escépticos y bien informados lectores de esta página? No, a este selecto grupúsculo de irreductibles carpetovetones no nos van a engañar con unas sumitas de Excel.

Experimentos con "extremely small data": la media muestral de pocas betas

Aquí, contracorriente. Dejamos aparcado el big data y le damos a lo que nos da de comer. Entre otras cosas, este pequeño experimento con muy pequeños datos (¿tres?).

La aplicación es real. Y los datos pequeños porque son carísimos.

Se puede suponer que tienen distribución beta de parámetros desconocidos. Nos interesa la media muestral de unas pocas observaciones: dos, tres, cuatro,… En particular, qué distribución tiene.

Si fuesen muchos, podríamos aplicar el teorema central del límite (que funciona estupendamente incluso con valores no muy grandes). Pero la suma de pocas observaciones beta no tiene una distribución con nombre (que yo sepa). Pero podemos usar un viejo truco (parecido al de la aproximación de Welch para el número de grados de libertad de la prueba de Student cuando las varianzas son desiguales):

Llegó (¿llegó?) el tiempo de la ingeniería estadística

Mucho se habla de ciencia de datos pero poco de una disciplina emergente de la que me ocupé hace tiempo en una entrada que entre las más de 1300 que llevo no ubico: la ingeniería estadística.

Porque muchos de nosotros no hacemos ciencia (¡Dios nos guarde!); más bien, resolvemos problemas reales en contextos reales. Y, entre otras cosas, defenimos o redefinimos el problema (¡al carajo con el RMSE!).

Pero, ¿qué es la ingeniería estadística? Pues podéis averiguarlo aquí mucho mejor contado que por mí.