La historia de la estadística comienza...
[…] con algo llamado aritmética política en el siglo XVII […]
El resto (son apenas ocho hojas), tenéis que leerlo (porque os intriga, ¿verdad?) aquí.
[…] con algo llamado aritmética política en el siglo XVII […]
El resto (son apenas ocho hojas), tenéis que leerlo (porque os intriga, ¿verdad?) aquí.
Una red bayesiana es algo de lo que ya hablé (y que me está volviendo a interesar mucho últimamente). En esencia, es un modelo probabilístico construido sobre un grafo dirigido acíclico.
Que, a su vez, es algo parecido a
que es un grafo (obviamente), dirigido (tiene flechas) y acíclico porque siguiéndolas no se llega nunca al punto de partida. Se puede construir modelos probabilísticos sobre ellos. Basta con definir para cada nodo $latex x$ la probabilidad condicional $latex P(x|A(x))$, donde $latex A(x)$ son sus padres directos. Con estas probabilidades condicionales (y un poco de esfuerzo) se puede construir la función de probabilidad completa, $latex P(x_1, \dots, x_n)$.
El INE está realizando una convocatoria para cubrir varias plazas en el Cuerpo Superior de Estadísticos del Estado.
Si quieres presentarte mira el temario sobre el que te examinarán. Si no has estado al tanto de lo que ha ocurrido en el mundo de la estadística en los últimos 30 o 40 años o no sabes programar, no te preocupes: no entra.
Eso sí, si tienes diez publicaciones estadísticas de alto nivel en los temas relevantes… no te valen para nada. Si estudiaste en Columbia con Gelman o en Cambridge con Spiegelhalter, tampoco te va a valer de mucho lo que aprendiste con ellos.
Hace unos días alguien me pasó una fórmula que tiene una pinta no muy distinta de
$$ p = \frac{p_1 p_2 \cdots p_N}{p_1 p_2 \cdots p_N + (1 - p_1)(1 - p_2) \cdots (1 - p_N)}$$
alegando que era una aplicación de métodos bayesianos (para estimar la probabilidad de algo combinando distintos indicios). Pero no está en mi libro (¿y en el tuyo?). El hilo (y varios correos) me condujeron a esto y de ahí, a través de referencias de referencias, a Combining Probabilities. Donde todo está muy bien explicado.
El autor de una entrada que casi fusilo hoy no pudo resistirse. Me ha parecido tan estupenda que yo tampoco.
Con una imagen simboliza el aspecto de un conjunto de datos antes y después de aplicar una técnica de reducción de la dimensionalidad (PCA, pero podría ser otra). Es esta:
A la izquierda, los datos originales. Con sus detalles y sus imperfecciones. A la derecha, los transformados, limpios de impurezas, con colores sólidos y trazos gruesos.
Voy a seguir poco a poco con este tema mío tan recurrente de las factorizaciones (aproximadas) positivas de matrices (también positivas). No escribo más porque, como casi todo lo que llamamos trabajo es, simplemente ruido, las cosas que llevan a otras nunca pasan por el asunto en cuestión.
Pero hay dos descomposiciones positivas de matrices positivas bien conocidas de todos. La primera es esta: $latex X=IX$, donde $latex X$ es una matriz de dimensión nxm e $latex I$ es la cosa más parecida a la matriz identidad de dicha dimensión. No aporta gran cosa. En particular, no compresión y no comprensión de la estructura de la matriz.
Hay gente que en lugar de escribir cosas debería invertir su tiempo en leer otras. Pero como
podemos hoy disfrutar de otro ejercicio más de ese añejo ritual de la búsqueda del numerito inferior a 0.05 que tiene por título Newborn Health and the Business Cycle: Is it Good to be Born in Bad Times? y que adornará a perpetuidad el currículo de sus ambas autoras.
Pido disculpas por usar birrieza, que no es una palabra que no existe. Si a alguien se le ocurre otro término mejor, que lo sugiera. Pero es que hay distribuciones de probabilidad que son una birria. Y de ellas me voy a ocupar hoy.
Pero antes, una digresión breve. Todas las distribuciones de probabilidad, en la práctica, están acotadas. Aunque sea por el número de átomos del universo. ¿Cuál es la importancia de dicha digresión? Que implica que no hay distribución que, en la práctica, se resista el teorema central del límite.
Un tipo me pasó el librito de Pearl, Causality, y se ha pasado varios días dando la vara con que si me había leído ya el epígrafe. Pues sí, lo he leído este finde. Y no solo lo he leído sino que voy a escribir sobre ello.
Había tratado de leer cosas de Pearl en el pasado. Pero las encontraba demasiado llenas de letras difíciles de comprender si no se entendían bien las fórmulas. Que, a su vez, eran difíciles de comprender sin tener una idea clara de qué indicaban los diagramas adjuntos. Para cuya comprensión había que hacerse bien con el texto. Vamos, que nunca había sacado nada en claro. Aunque, confieso, la coyuntura en la que suelo leer ese tipo de cosas (metros, trenes, autobuses) tampoco me ayuda.
Rescato aquí para mis lectores dos citas de un artículo de 1983, Computer Intensive Methods in Statistics, de Efron y Diaconis, por dos motivos: su valor intrínseco y que consideren leer el resto, particularmente el principio y el final.
La primera es (con mi traducción):
[…] el ordenador está cambiando la teoría de la estadística. Arriba hemos examinado nuevas teorías que han surgido a causa del ordenador. Otro cambio evidente es de los conjuntos de datos enormes que están disponibles a causa de la memoria de los ordenadores. Además, el ordenador permite usar métodos tradicionales para resolver problemas más grandes. El análisis de componentes principales es un buen ejemplo: fue inventado antes de que fuese realmente práctico.
Cuando tenía 18 años, pensaba, llegué a aprender todo lo que había que saber sobre factorización de matrices. Incluida la inutilidad de Jordan. El otro día, con un ciento y pico por ciento más de años, he descubierto una clase entera de factorizaciones que aquellos planes de estudios viejunos no contemplaban y que, ¡carajo!, aparte de útiles engarzan con otras ideas la mar de interesantes.
Se trata de factorizaciones positivas de matrices igualmente positivas.
Me gustaría no tener que hacer más t-tests en la vida, pero no va a ser el caso.
El problema al que me refiero le surgió a alguien en una galaxia lejana y, de alguna manera, me salpicó y me involucró. Es, simplificándolo mucho, el siguiente.
Tiene una muestra $latex X = x_1, \dots, x_n$ y quiere ver si la media es o no cero. ¿Solución de libro? El t-test. Pero le salen cosas raras e inesperadas. De ahí lo del salpicón.
Avisé en mi entrada del otro día: no me preguntéis por qué (imponer restricciones en un problema de mínimos cuadrados).
Pero cuanto más pienso sobre ello, menos claro lo tengo. ¿Por qué restricciones?
Primero, el contexto. O el casi contexto. Porque no es exactamente así. Pero sí parecido. Supongamos que queremos predecir algo y construimos, p.e., 4 modelos. Se nos ocurre (y hay buenas razones para ello) combinar los predictores.
Uno puede pensar en usar la media de las predicciones. O la mediana. O tratar de usar un peso revelado por los datos.