Desde cierto punto de vista, lo ideal a la hora de realizar una prueba estadística es que:
El efecto sea grande. La variación de los sujetos sea pequeña. El tamaño de la muestra sea generoso. Pero solo bajo cierto punto de vista: todas las pruebas estadísticas en que pasa eso ya se han hecho antes. Llevamos cientos de años haciendo ciencia y billones de euros invertidos en ella. Lo que nos enseñan las pruebas estadísticas con un SNR (signal to noise ratio) y posibilidad de extraer nuevas observaciones a bajo coste, ya lo sabemos desde hace tiempo.
I. La semana pasada, tras 18 años de buen servicio —ha estado encendido ininiterrumpidamente desde, por lo menos, el confinamiento—, falleció el que degradé a segundo monitor: un LG Flatron L1910S de 19 pulgadas y una resolución hoy mísera que compré en Carrefor y me costó 500 euros del ala. Podría haberlo reparado porque su único problema, casi seguro, es un fallo superficial en la alimentación; pero me he dejado llevar por el consumismo.
I. Esta entrada es una especie de continuación de otra que escribí recientemente sobre la gestión de la liquidez en tiempos de inflación. Describe a alto nivel y sin detalles concretos cómo gestiono mis inversiones a largo plazo en renta variable —la renta fija merece un apartado aparte— y cabe en mi blog por su relación (o no) con la teoría básica de las inversiones financieras, fuertemente fundamentada en la estadística.
En Improving Research Through Safer Learning from Data, Frank Harrell, junto con otros consejos muy provechosos para aquellos investigadores que tengan un compromiso más serio con la rectitud metodológica que con el desarrollo de su carrera profesional, menciona a modo de ejemplo una solución propuesta por Box y Tiao (en el tercer capítulo de esto) al problema del t-test en el caso de que no rija la hipótesis de normalidad. Más propiamente, en casos en los que se sospecha que la desviación con respecto a la normalidad lo es en términos de la curtosis (y no la asimetría).
I. Hubo un tiempo en el que en estas páginas, dejado arrastrar por la corriente, me interesaba por asuntos de esos en los que se asumía la esfericidad de los seres humanos y se estudiaban asuntos como la comparación del radio promedio del alumno esférico español con el de los de otros países de la OCDE. Y otras cosas parecidas o peores.
Desafortunadamente, no somos esféricos, arrastramos nuestras circunstancias multidimensionales y es improbable que vuelva a ocuparme en estas páginas de asuntos que no me competan directamente.
Son:
El detective Salazar y los modelos bayesianos de Emilio Torres Manzanera. Fundamentos de estadística de José Ramón Barrendero.
I. Voy a plantear el problema del día en el contexto más simple y familiar para la mayoría que se me ocurre: una ANOVA para comparar dos tratamientos. Se puede representar de la forma
$$y_i \sim \alpha + \beta_{T(i)} + \epsilon$$
donde $T(i)$ es el tratamiento, $A$ o $B$, que recibe el sujeto $i$. Parecería que el modelo estuviese sugiriendo determinar tres parámetros, $\alpha$, $\beta_A$ y $\beta_B$, correspondientes al efecto sin tratamiento y los efectos adicionales de los tratamientos $A$ y $B$.
I. Dedicarse a hacer predicciones —es decir, estimar las probabilidades de ocurrencia de eventos futuros— por hobby es un entretenimiento tan digno como cualquier otro. Además, hoy en día existen plataformas (como esta, esta, esta, esta o esta) donde poner a prueba las habilidades propias e, incluso, llegar a monetizarlas. Es un mundo en el que ponderé introducirme en su día para hacer más llevaderas las pesadumbres de la existencia; al fin y al cabo, las habilidades que exige —un conocimiento somero de la teoría de la probabilidad, sentido común y curiosidad y diligencia para documentarse sobre temas variopintos— no me son del todo ajenos.
Como saben los viejos del sitio, instalé un dispositivo en el cuadro que mide mi consumo eléctrico en tiempo real. Lo que hace el dispositivo es muy simple. Por un lado, mide las funciones $i(t)$ y $v(t)$ (intensidad y voltaje); por el otro lado, calcula las integrales
$$\int_0^T i(t) v(t) dt,$$
$$\int_0^T i^2(t) dt$$
y
$$\int_0^T v^2(t) dt.$$
Con un $T$ pequeño (unos segundos), muestra en una app los valores
I. Las distintas disciplinas estudian aspectos diferentes de la realidad. Para ello crean modelos. Un modelo es una representación teórica y simplificada de un fenómeno real. Por un lado, el territorio; por el otro, el mapa.
Los físicos modelan cómo oscila un péndulo y se permiten obviar cosas como el rozamiento del aire. Los economistas, la evolución del PIB o la inflación. Los biólogos, la absorción de una determinada sustancia por un tejido.
Hoy voy a abundar sobre el modelo 3PL que ya traté el otro día. En particular voy a contrastar críticamente varios modelos alternativos sobre los mismos datos.
I. El modelo que implementé (aquí) puede describirse así:
$$r_{ij} \sim \text{Bernoulli}(p_{ij})$$ $$p_{ij} = p(a_i, d_j, …)$$ $$a_i \sim N(0, 1)$$ $$d_j \sim N(0, 1)$$ $$\dots$$
donde
$$p = p(a, d, \delta, g) = g + \frac{1 - g}{1 + \exp(-\delta(a- d))}$$
y $a_i$ y $d_j$ son la habilidad del alumno $i$ y la dificultad de la pregunta $j$ respectivamente.
La energía nuclear tiene varios problemas:
Seguridad Aprovisionamiento de combustible Gestión de residuos Precio Otros: relaciones públicas, etc. La casi totalidad de la literatura seria al respecto se puede resumir en lo siguiente: cómo solucionar 1, 2 y 3 exacerbando 4.
[Luego, claro, hay otra literatura seudocientífica que viene a decir cómo 1, 2 y 3 son irresolubles por mucho que se agrave 4. Pero este es un blog serio y sin tiempo para tonterías.
Un gráfico estadístico —salvo error u omisión— representa fielmente los datos sobre los que se construye: podríamos programar una máquina para que recompusiera la tabla original a partir de cualquier gráfica independientemente de la estética utilizada: sean longitudes, ángulos, tonos de color, etc.
El problema es que los humanos —particularmente, pensando rápido a lo Kahneman— tendemos a fabricar connotaciones que tuercen su sentido. Estas connotaciones —como tantas otras cosas en la vida— pueden tener origen biológico o cultural.