Estadística

Don't be loopy!

Don’t be loopy! es el título de una presentación realizada en el SAS Global Forum de 2007. Tiene que ver con el motivo que me hizo en mi día abandonar SAS y buscar —entonces aún no lo conocía— el cobijo de R: sus limitaciones para todo lo que tiene que ver con simulaciones, remuestreos, jackknifes, _bootstraps _y similares.

El artículo muestra lo que debería ser el estado del arte para realizar este tipo de programas con SAS. En el primero de los problemas que estudia, que denomina bootstrap simple, muestrea 1.000 veces un conjunto de datos de 50.000 observaciones y calcula el valor de la curtosis para cada una de ellas. Finalmente, proporciona un intervalo de confianza para dicho valor.

De la varianza en muestras pequeñas (y el problema del hospital)

En un artículo que enlacé hace un tiempo se planteó el que después recibiría el nombre del problema del hospital:

En una ciudad hay dos hospitales. En el grande, hay, en promedio, 45 partos al día; en el pequeño, 15. La probabilidad de que un recién nacido sea niño o niña se supone igual al 50 %. ¿En qué hospital es más probable que en un día dado la proporción de niñas exceda el 60%?

El juego de las matrículas y su precoda

Busca una matrícula que acabe en 000. Cuando la encuentres, una que acabe en 001. Luego, en 002, etc. Hasta llegar a 999. Si alcanzas ese hito, vuelve a empezar.

Si consigues dar vuelta y media a la serie en menos de 25 años, lo habrás hecho mejor que el personaje altamente singular que inventó el juego, uno de los más eminentes estadísticos vivos. Para saber más de él, te recomiendo que leas esta entrevista. Entre otras cosas igualmente jugosas, encontrarás en ella la solución al siguiente problema: ¿cuál es el número esperado de matrículas que necesitas mirar para completar el ciclo completo?

Clústering (III): sobresimplificación

¿Quién fue el segundo hombre en pisar la luna? ¿Y el tercero? Aunque a veces pareciese lo contrario, ¿sabe que hay futbolistas que no son ni Ronaldo ni Messi? ¿Y otros ciclistas además de Contador e Induráin? ¿Y que la Fórmula 1 no se reduce a un tal Alonso?

Diríase que por razones sicológicas, nuestro cerebro tiende a sobresimplificar, se siente cómodo con una representación escueta de la realidad, es reacio a los distingos y grises. Le pirran las etiquetas: dígame de qué partido político es Vd. y enseguida crearé mis propias certezas sobre su opinión acerca de la Guerra de Irak, la visita del Papa a Madrid y el bikini de Leire Pajín.

El borrador de Ley de transparencia, disponible

Hace unos días, el mismo en el que se anunciaron las elecciones anticipadas (en España) fue publicado el borrador de lo que podría llegar a convertirse en la futura Ley de transparencia.

Aunque el actual gobierno no será ya el encargado de tramitarlo (y a saber qué hará el que llegue), merece la pena echarle un vistazo. Tengo comentarios al respecto, muchos de hecho. Y en gran medida coinciden con los que se expresan en este otro blog.

Dos aplicaciones (¿sorprendentes?) del análisis de la correlación canónica

Cuando estudiaba en la primavera del 93 álgebra lineal para mis segundos examénes parciales, tenía en el temario —que no sé si denominar correctito— dos asuntos a los que nuestra profesora —y es difícil, ¿eh?, aunque admito que entonces no había internet— no supo sacar punta. Uno era el asunto entero de los valores propios. Recuerdo ahora que me sugerían constantemente la pregunta ¿para qué?

El otro, un pequeño desvío en el temario para tratar un asunto exótico y como metido con el calzador porque, tal vez, habíamos agotado el normal antes del fin del periodo lectivo: el problema de los valores propios generalizados. La pregunta que me obligaban a formularme era todavía más triste que la anterior. Era, simplemente, ¿qué?

Clústering (II): ¿es replicable?

Sólo conozco un estudio ?y lo digo bona fide; si alguno de mis lectores conoce otro, le ruego que me lo indique? en el que las técnicas de clústering hayan sido rectamente aplicadas. Se trata del artículo Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring de cuyo resumen extraigo y traduzco lo siguiente:

Un procedimiento de detección de clases automáticamente descubrió la distinción entre la leucemia mieloide aguda (AML) y la leucemia linfoblástica aguda (ALL) sin conocimiento previo de las clases. Después se construyó un predictor de clases…

Nassim Taleb y el problema de la inferencia

Según el DRAE, inferir consiste en s_acar una consecuencia o deducir algo de otra cosa_. Estadísticos, economistas, económetras y muchos otros lidian siempre con el llamado problema de la inferencia: ¿es posible generalizar a sucesos aún no observados los resultados que parecen deducirse de los datos recogidos?

Nassim Taleb, empiricista y escéptico, es un pensador y polemista que cuestiona la fe que muchos depositan en teorías y métodos. De lo mucho que podía hablarse de él, me limitaré a subrayar que gran parte de sus reflexiones están contenidas en el muy recomendable libro El cisne negro y que los faltos de tiempo podrán averiguar lo más de ellas en esta conferencia suya de apenas una hora.

La percepción del riesgo, en la BBC

La percepción del riesgo es el juicio subjetivo que hacen las personas sobre la relevancia o severidad de un riesgo. Esta percepción tiene una dimensión matemática por naturaleza y que tiene que ver con la habilidad del sujeto para manejarse con las cifras. Pero también tiene una dimensión no matemática: mucha gente, de hecho, reacciona de una manera que pudiera parecer incoherente con su visión racional de las probabilidades implicadas.

Clustering (I): una pesadilla que fue real

Comienzo hoy una serie de entradas en seis entregas sobre una muy utilizada técnica de análisis de datos de la que soy un profundo detractor. Reconozco que uno de los motivos, aunque menores, de esta postura estriba en que carece de un nombre castizo y reconocido en español. Aunque por ahí gusta agrupación o agrupamiento, yo siempre he preferido arracimamiento: aparte de su valor visual, descarga el término grupo, manifiestamente sobreutilizado en muchos ámbitos.

Miscelánea de citas

Creo que tengo que pedirle escusas a Sam Savage por utilizar citas recopiladas por él para esta entrada mía de hoy. Me atrevo sólo porque espero que contribuya a difundir el conocimiento de su libro. Son:

Todos los modelos son erróneos, pero algunos son útiles.

—George Box, estadístico

Mentir un poco está permitido, pero jamás engañar.

—Paul Halmos, matemático

Un modelo exitoso te cuenta cosas que no le habías pedido que te contase.

Google Refine para analizar, estudiar y limpiar los datos

En esta entrada de hoy, hija de la pereza, reproduzco un vídeo que el lector puede encontrar igualmente en Medialab Prado. Es una presentación de Javier de la Torre, de Vizzuality, una compañía que trabaja en un campo del que nos hemos venido ocupando en estas páginas: la visualización de la información. La presentación tuvo lugar el 15 de febrero de 2011 dentro del evento Barcamp: periodismo de datos. Trata sobre Google Refine.

Estadística "como Dios manda"

No sé si sería ésa la traducción más afortunada de straight statistics. Probablemente no. Pero tal vez recoge la idea. Y tampoco tengo esta noche tiempo ni cabeza para distingos y connotaciones.

Pero supongo que interesará a mis lectores conocer…

… una campaña promovida por periodistas y estadísticos para contribuir a mejorar la comprensión y el uso de la estadística por el gobierno, los políticos, las empresas, los anunciantes y los medios de comunicación. Denunciando las malas prácticas y premiando las buenas, esperamos contribuir a restaurar la confianza pública en la estadística.