¿Qué modelas cuando modelas?

Ahora que estoy trabajando en el capítulo dedicado a la modelización (clásica, frecuentista) de mi libro, me veo obligado no ya a resolver sino encontrar una vía razonable entre las tres —¿hay más?— posibles respuestas a esa pregunta. La primera es yo modelo un proceso (o fenómeno), los datos llegan luego. Yo pienso que una variable de interés $Y$ depende de $X_i$ a través de una relación del tipo $$ Y | X_i \sim N(f(X_i, \sigma)$$ ...

26 de enero de 2021 · Carlos J. Gil Bellosta

Más capítulos del libro de estadística (y otras cosas y proyectos para 2021)

Por un lado, he publicado tres capítulos más de mi libro de estadística desde el último anuncio. Son el (brevísimo) de introducción a la estadística, y los dedicados a la estadística descriptiva y la estimación puntual. Hay algunas cosas en ellos que no se encuentran habitualmente en otros manuales. Por ejemplo, en el hecho de plantear determinados modelos como meras herramientas de visualización de datos (o de apoyo a ellas) en el de la estadística descriptiva. También se han recogido en ese capítulo las discusiones relevantes sobre lo que es un missing o un outlier y cómo tratarlos en general. ...

14 de enero de 2021 · Carlos J. Gil Bellosta

La interpretación de "significativo" en un caso muy concreto

Comienzo por el final: En el gráfico anterior se aprecian unos datos, generados mediante n <- 100 x <- 1:n y_base <- cos(2 * pi * x / 100) y <- y_base + rnorm(n, 0, .4) datos <- data.frame(x = x, y_base = y_base, y = y, cos1 = cos(2 * pi * x / 100), cos2 = cos(4 * pi * x / 100)) a los que se ha ido añadiendo un ruido progresivamente, es decir, una serie de outliers artificiales. Las líneas rojas representan la predicción realizada mediante un modelo de segundo orden de Fourier (si se me permite), es decir, modelo <- lm(y ~ cos1 + cos2, data = out) Los p-valores correspondientes al segundo coeficiente (que no aporta nada al modelo generativo) son ...

16 de diciembre de 2020 · Carlos J. Gil Bellosta

Encuestas (electorales), medios y sesgos

Me he entretenido estos días en crear un modelo que represente la siguiente hipótesis de trabajo: Los encuestadores electorales combinan tres fuentes de información: sus propios datos, el consenso de los restantes encuestadores y la voz de su amo, es decir, el interés de quien paga la encuesta. Es un modelo en el que se introduce (y se mide) el sesgo que introduce cada casa en los resultados. De momento (¡no fiarse!, léase lo que viene después) he obtenido cosas como estas (para el PP): ...

14 de diciembre de 2020 · Carlos J. Gil Bellosta

La lotería del hardware y la cámara de resonancia académica

El artículo The Hardware Lottery es, hasta cierto punto, informativo. En el fondo, no dice nada que no supiésemos ya: que ciertas ideas, algoritmos, procedimientos, métodos, en diversas disciplinas (¡no en matemáticas!) triunfan esencialmente porque les toca la lotería del hardware. No es que sean las mejores desde una perspectiva actual —podría usar aquí los términos etic y emic a lo ovetense— sino que fueron afortunados y bendecidos por el hecho de estar a la (típicamente, medianeja) altura de los tiempos medidos en términos del desarrollo del hardware. ...

11 de diciembre de 2020 · Carlos J. Gil Bellosta

Máxima verosimilitud vs decisiones

En Some Class-Participation Demonstrations for Introductory Probability and Statistics tienen los autores un ejemplo muy ilustrativo sobre lo lo relativo (en oposición a fundamental) del papel de la máxima verosimilitud (y de la estadística puntual, en sentido lato) cuando la estadística deja de ser un fin en sí mismo y se inserta en un proceso más amplio que implica la toma de decisiones óptimas. Se trata de un ejemplo pensado para ser desarrollado en una clase. Consiste en un juego en el que el profesor muestra a los alumnos un bote con monedas y les propone que traten de acertar su número exacto. En tal caso, los alumnos se la quedan y pueden repartirse el contenido. ...

9 de diciembre de 2020 · Carlos J. Gil Bellosta

"Introducción a la probabilidad y la estadística para científicos de datos": segunda entrega

Acabo de subir: Modificaciones y correcciones a los dos primeros capítulos. Un tercer capítulo sobre distribuciones de probabilidad. Queda ampliar, organizar y razonar la biblografía correspondiente a ese tercer capítulo. Lo más original (con cuádruples comillas) de este capítulo es tal vez la construcción de la función de densidad a partir de histogramas obtenidos a partir de simulaciones de variables aleatorias. Algo sobre lo que creo que escribí en su día en el blog pero que no ubico. ...

30 de noviembre de 2020 · Carlos J. Gil Bellosta

¿A que les ha jugado una mala pasada el Excel?

Se ha dado por cabal en muchos medios lo que espero que no llegue a más que a un borrador. Ha sido publicado por el Banco de España y contiene párrafos como En cambio, la menor cualificación, por término medio, de los trabajos desempeñados por los jóvenes licenciados españoles sugiere que su nivel de desempleo comparativamente mayor que el de sus homólogos del área del euro podría obedecer, entre otros factores, a una menor calidad de la educación superior. ...

26 de noviembre de 2020 · Carlos J. Gil Bellosta

Distancias (V): el colofón irónico-especulativo

Remato la serie sobre distancias con una entrega especulativa. Según se la mire, o bien nunca se ha hecho esa cosa o bien nunca ha dejado de hacerse. El problema es que ninguna de las propuestas desgranadas por ahí, incluidas las de mis serie, responde eficazmente la gran pregunta: ¿Son más próximos un individuo y una individua de 33 años o una individua de 33 y otra de 45? La respuesta es contextual, por supuesto, y en muchos de esos contextos habría que tener en cuenta las interacciones entre variables, que es a lo que apunta la pregunta anterior. ...

23 de noviembre de 2020 · Carlos J. Gil Bellosta

Distancias (IV): la solución rápida y sucia

Prometí (d)escribir una solución rápida y sucia para la construcción de distancias cuando fallan las prêt à porter (euclídeas, Gower, etc.). Está basada en la muy socorrida y casi siempre falsa hipótesis de independencia entre las distintas variables $x_1, \dots, x_n$ y tiene la forma $$ d(x_a, x_b) = \sum_i \alpha_i d_i(x_{ia}, x_{ib})$$ donde los valores $\alpha_i$ son unos pesos que me invento (¡eh!, Euclides también se inventó que $\alpha_i = 1$ y nadie le frunció el ceño tanto como a mí tú ahora) tratando de que ponderen la importancia relativa que tiene la variable $i$ en el fenómeno que me interesa. ...

20 de noviembre de 2020 · Carlos J. Gil Bellosta