Hoy, como excepción, gritaré y justificaré: ¡Malditos logaritmos!

Dados unos números positivos hay que justificar por que no tomar logaritmos y no al revés. La carga de la prueba recae sobre quien no lo hace. No obstante: Tenía unos datos (para cada $t$) que siguen (me lo juran) un modelo teórico $$ \log y \sim k \exp(-at)$$ Existen dos opciones para encontrar los parámetros deseados $k$ y $a$. El primero, tomando logaritmos y aplicando lm. El segundo, ajustando un modelo no lineal con, p.e., nls. ...

29 de junio de 2017 · Carlos J. Gil Bellosta

Este también buscaba la precisión donde tal vez menos importaba

Esta no va de prensa sino de una reunión de vecinos. Al terminar, hablo con uno de ellos y me cuenta que siempre se había dedicado a la construcción y que en alguna ocasión tocó la estadística. En particular, en el estudio, relevantísimo, que describo a continuación. En los años 70, como parte de la preparación de las ofertas para construir una incineradora de basura en Madrid, una que se ve que aún existe, le encomendaron la muy estadística tarea de estimar el poder calorífico de la basura de la capital. ...

1 de junio de 2017 · Carlos J. Gil Bellosta

Aquellos que ignoran la estadística etcétera

Ayer asistí a una charla sobre errors. Brevemente (porque está estupendamente explicado, motivado y documentado por su autor, al que aprovecho la ocasión para saludar), hace esto: library(errors) valores <- unlist(list(a = 1, b = 2, c = 3)) vars <- c(1, 1, 1) # varianzas de esos datos/medidas sds <- sqrt(vars) # errores x <- valores errors(x) <- sds format(x[1] * sin(x[2])^3, notation = "plus-minus", digits = 3) #[1] "0.75 +/- 1.28" Y nuestro viejo, clásico, manido, infrautilizado, semidesconocido mas no por ello menos querido método delta, ¿para qué existe en lugar de (como elucubraba el filósofo), simplemente, no existir? ¿Para qué otra cosa sino para aprenderlo me levanté yo aquella fría mañana del 94 sino para contemplarlo proyectado de diapositivas manuscritas de acetato? ¿Fue en vano? ...

24 de mayo de 2017 · Carlos J. Gil Bellosta

Así se inventó el nudo gordiano del "hombre medio"

Lo cuenta muy bien Todd Rose en How the Idea of a ‘Normal’ Person Got Invented. Hay tres grandes eras en la estadística moderna: La queteliana, resumida en la imagen del hombre medio: existe un prototipo sobre el que, tal vez, se consideran variaciones. Es decimonónica, pero colea. La kamediana, que es una versión pizza partida en ocho de la anterior. Es de mitad del siglo pasado y perdura en paleomentes. La contemporánea, que contempla cada sujeto en su individualidad (aunque inserta en su circunstancia). Es propia del big data bien hecho. Que se desenvuelva exige deshacer (¿cortar a tajos?) un par de nudos gordianos.

21 de abril de 2017 · Carlos J. Gil Bellosta

Lo (mínimo) que hay que saber de series temporales: breve, conciso e indoloro

Es Forecasting: principles and practice, de Hyndman y Athana­sopou­los.

6 de abril de 2017 · Carlos J. Gil Bellosta

Llegó (¿llegó?) el tiempo de la ingeniería estadística

Mucho se habla de ciencia de datos pero poco de una disciplina emergente de la que me ocupé hace tiempo en una entrada que entre las más de 1300 que llevo no ubico: la ingeniería estadística. Porque muchos de nosotros no hacemos ciencia (¡Dios nos guarde!); más bien, resolvemos problemas reales en contextos reales. Y, entre otras cosas, defenimos o redefinimos el problema (¡al carajo con el RMSE!). Pero, ¿qué es la ingeniería estadística? Pues podéis averiguarlo aquí mucho mejor contado que por mí.

4 de abril de 2017 · Carlos J. Gil Bellosta

Tres grandes problemas que ocupan pero, según el CIS, no preocupan

Plañe el periodista porque dizque hay tres graves problemas que, a pesar de lo que ocupan (en los medios), a la hora del CIS, no preocupan. Aggiorno una vieja entrada para ver, por ejemplo, cómo ha variado en los últimos años la preocupación de los encuestados por el CIS acerca de uno de los tres graves problemas: De hecho, el porcentaje que se muestra indica la proporción de los encuestados que mencionaron el asunto como uno de los tres principales problemas de España. La pregunta, de respuesta abierta, aparece así formulada en los cuestionarios: ...

3 de abril de 2017 · Carlos J. Gil Bellosta

EM (duro) a mano (y para humanos)

Dada una configuración de puntos tal como puede pensarse que existen dos grupos (clústers los llaman casi todos menos el neotroll de estas páginas y algún otro purista) de puntos organizados alrededor de unas rectas que se adivinan. Nos planteamos el problema de identificarlas y de asignar los puntos a su respectiva. Una posible estrategia consiste en construir la verosimilitud asociada al problema y maximizarla. Esa verosimilitud dependería de muchos parámetros: ...

20 de marzo de 2017 · Carlos J. Gil Bellosta

Un párrafo afortunadísimo sobre las "nuevas aptitudes"

Traduzco: Las nuevas aptitudes que tanto atraen la atención de los medios no sirven para resolver más eficazmente el problema de la inferencia; son puras técnicas de supervivencia para gestionar los artefactos inducidos por la computación distribuida a gran escala. Lidian con las enormes restricciones que impone el mundo de los sistemas multiproceso y distribuidos sobre los algoritmos. En este mundo tan constreñido, el elenco de algoritmos utilizables es tan limitado si se lo compara con el disponible en el de un único procesador, que es inevitable adoptar técnicas estadísticas que hubieran sido tachadas de rudimentarias, si no de inadecuadas, en otros tiempos. Estos problemas consumen nuestro tiempo y energía, deforman nuestro criterio sobre lo que resulta adecuado y nos desvían de las estrategias de análisis de datos que habríamos aplicado de oficio en otras circunstancias. ...

9 de marzo de 2017 · Carlos J. Gil Bellosta

Reducción de la dimensionalidad con t-SNE

Voy a explicar aquí lo que he aprendido recientemente sobre t-SNE, una técnica para reducir la dimensionalidad de conjuntos de datos. Es una alternativa moderna a MDS o PCA. Partimos de puntos $x_1, \dots, x_n$ y buscamos otros $y_1, \dots, y_n$ en un espacio de menor dimensión. Para ello construiremos primero $n$ distribuciones de probabilidad, $p_i$ sobre los enteros $1, \dots, n$ de forma que $$ p_i(j) \propto d_x(x_i, x_j),$$ donde $d_x$ es una determinada distancia entre puntos en el espacio original. De la misma manera, construimos sendas distribuciones de probabilidad, $q_i$, ...

8 de marzo de 2017 · Carlos J. Gil Bellosta