Estadística

Nuestro mandato: ordenar y simplificar

Todo el mundo entiende que los médicos,solo por serlo, están sujetos a un mandato específico: luchar contra la enfermedad. Puede que otros gremios (como los maestros o los jueces) tengan otros tan escuetos como significativos. Yo, durante un tiempo, me pregunté cuál sería el de los matemáticos, los estadísticos, los que nos dedicamos al análisis de datos. Y creí dar con una fórmula que hice mía: ordenar y simplificar la información. ...

Siete consejos para expertos en análisis de datos

En mis deambulaciones por internet topé con una página interesante que bien merece ser comentada en este blog. Enumera siete técnicas (o secretos en su formulación primigenia) que habrían de hacer suyas los expertos en análisis de datos. Son: Usa una herramienta del tamaño adecuado SAS u Oracle no deberían considerarse las herramientas por defecto. Para procesar y depurar ficheros de texto de menos de mil líneas bastan herramientas como R, Google Refine, vi, Excel/OpenCalc,… ...

La Wikipedia te necesita

Hoy, procrastinando, me he dado un paseo por la Wikipedia en español. Y me he deprimido viendo el lamentable estado en que se encuentran la mayor parte de las páginas de las categorías a las que concierne esta bitácora como, por ejemplo, las de probabilidad, estadística y minería de datos. Quiero invitar a los lectores de este blog (a los que, por serlo, se les presupone un mínimo de interés y formación) a que participen en ese proyecto común que es la Wikipedia (y, en particular, la Wikipedia en español) para no tener que volver a sonrojarnos al comparar nuestras páginas con las correspondientes de otros idiomas. ...

Google Refine 2.0, una herramienta con muy buen aspecto

Le debo a Guillermo, un excompañero de SAS, la noticia que aquí publico: Google Refine. Acabo de ver y no he podido resistir la tentación de escribir algo al respecto. Tiene una pinta increíble y creo que el lunes a más no tardar podré contar mis impresiones personales sobre la herramienta. ¿Será que se me adelanta alguno de mis lectores?

La estadística en los sellos del siglo XX por cortesía del INE

Con motivo del Día Mundial de la Estadística, el INE publicó en su página de internet una muestra de sellos relacionados con la estadística catalogados por país, década y tema.

¡Qué mala suerte tengo con las anomalías!

El siempre muy benéfico Banco de Santander me ha proporcionado —onerosamente: veráse el porqué— un conjunto de datos con el que ilustrar a los lectores de este blog en el uso del paquete outliers de R. Los datos son los siguientes: dia <- 17:26 precio <- 10 + c( 22, 21, 39, 18, 24, 26, 26,26,29, 28 ) / 100 Los días son los discurridos desde que di una orden de adquisición de un fondo de inversión a través de dicha entidad financiera hasta que tuve constancia de que se había completado: el dinero se había adeudado de la cuenta corriente y las participaciones, aparecían listadas en la cuenta de valores. El precio contiene los valores liquidativos diarios del fondo durante tales días. He aquí su representación gráfica: ...

Una solución al problema de la separación perfecta con regresiones logísticas

Cuando el otro día planteé al mis lectores el problema de cómo representar de manera efectiva un conjunto de datos pequeños, no lo hice de manera enteramente ociosa. Eran datos reales de un cliente que tropezó con el llamado problema de la separación perfecta al intentar aplicar una regresión logística. Veamos de nuevo los datos: En la gráfica cada punto representa un individuo (posiblemente una persona). Los grupos los distinguen en dos clases (posiblemente, enfermos y sanos). La variable en el eje de la x mide el nivel de cierta proteína (supongo que en las células de algún tipo de tejido). Si se intenta realizar una regresión logística sobre este conjunto de datos sucede una catástrofe: el algoritmo diverge, aparecen mensajes de error en la pantalla, etc. ¡Es el problema de la separación perfecta! ...

Hoy me he enamorado en el metro

Hoy me he enamorado en el metro. Apenas comenzaba a leer mi articulillo cuando he tropezado con esta frase: GPL treats data as an accessory to viewing a graph. Y la siguiente era aún mejor: GPL is based on the mathematical definition of the graph of a function and uses that definition to organize data linked to the graph. Y más adelante: […] it is based on the assumption that statistical procedures serve graphics; graphics are not ancillary displays of statistical results, but are means of perceiving statistical relationships directly. ...

¡Feliz día de la estadística!

Hoy, 20 de octubre, se celebra el primer día de la estadística. Puede encontrarse más información en el suplemento económico de El País y en la página del INE. También se puede participar en las actividades programadas para el día. Quien esté en Papúa Nueva Guinea, podrá cantar en loor de la estadística; quien esté en Londres podrá, además, participar en estas actividades; los demás, siempre podemos entretenernos con las que nos sugiere Patrick Burns. ¡Felicidades!

¿Qué gráfico es mejor?

Los servidores del Parlamento Británico alojan (y ponen a disposición del público) una serie documentos agrupados por temas de los que hoy nos interesarán los relativos a política estadística y, dentro de ellos, un breve manual muy útil para elaborar gráficas que se atengan a los tres principios fundamentales de este esquivo arte: Veracidad: la gráfica debe reflejar verazmente los datos subyacentes Economía: la gráfica debe mostrar únicamente aquellos elementos necesarios para comprenderla Claridad: los elementos gráficos y textuales de la gráfica deben ser lo más claros posible para facilitar su comprensión por parte del lector. Ahí va un ejemplo de cómo puede este documento ayudar a mejorar las gráficas de quienes lo lean con el debido detenimiento. La de la izquierda es el tipo de gráfica a la que nos tienen acostumbrados los consultores bisoños; la de la derecha es la versión que propone el autor del documento. ...