Estadística

¿Por qué 0.05?

¿Por qué usamos p=0.05 como umbral de significancia? ¿Cuáles son los motivos históricos detrás de dicha decisión? ¿Tiene ventajas? ¿Inconvenientes? Quien quiera conocer en qué contexto dijo R.A. Fisher que […] pues, de hecho, ningún investigador científico tiene un nivel de significación fijo según el cual, año tras año y en cualquier circunstancia, rechace hipótesis; más bien, dedica su atención a cada caso particular a la luz de su evidencia y de sus ideas. Además, el cálculo se basa únicamente en una hipótesis que, a la luz de la evidencia, a menudo no se cree en absoluto que sea cierta, de modo que la probabilidad real de una decisión errónea —suponiendo que tal frase tenga algún sentido— puede ser mucho menor que la frecuencia que especifica el nivel de significación. ...

Algunos resultados de la Encuesta Trimestral de Coste Laboral

Voy a hacerlo. Aunque siento cierta repugnancia. Y es que promediar salarios de carretilleros y directores generales es algo que trato de evitar. Ni aun con el beneplácito del INE. No obstante, creo que el resultado final merece aún la pena y que de él se pueden extraer conclusiones no del todo irrelevantes. Lo que voy a hacer es mostrar un par de gráficos construidos sobre los datos (agregados: da la impresión de que el INE no proporciona los microdatos) de la última Encuesta Trimestral de Coste Laboral correspondiente al tercer trimestre de 2012. De entre todas las opciones, me he decantado por indagar sobre el coste laboral por hora efectiva y por divisiones de la CNAE-09. Lo resumo en el siguiente gráfico: ...

Los nueve artículos favoritos de Tibshirani

Rob Tibshirani ha seleccionado recientemente una lista de nueve artículos de estadística publicados desde 1970. Son estos: Regression models and life tables (with discussion) (Cox 1972). Según Tibshirani, David Cox merece el Nobel de Medicina por él. Generalized linear models (Nelder and Wedderburn 1972). Es la base del paquete glm de R. Maximum Likelihood from Incomplete Data via the {EM} Algorithm (with discussion) (Dempster, Laird, and Rubin 1977). Bootstrap methods: another look at the jackknife (Efron 1979). Classification and regression trees (Breiman, Friedman, Olshen and Stone 1984). How biased is the error rate of a prediction rule? (Efron 1986). Sampling based approaches to calculating marginal densities (Gelfand and Smith 1990). Controlling the false discovery rate: a practical and powerful approach to multiple testing (Benjamini and Hochberg 1995). A decision-theoretic generalization of online learning and an application to boosting (Freund and Schapire 1995).

Sanidad pública, sanidad privada

Lo siento. El título es engañoso. No voy a abundar en el tema de modelo sanitario. Aunque esté de moda. Traje a este debate ideas preconcebidas que se me han ido pegando durante años de andar sobre la faz de la tierra. Y mis esfuerzos me ha costado desprenderme cartesianamente de ellas para quedarme a la espera de que alguien me ilumine de manera clara y distinta. Solo sospecho que la respuesta no puede resumirse en un monosílabo, que es mixta y con ejércitos de demonios camuflados tras los detalles. Pero lo que opine es prácticamente irrelevante. ...

Sobre los límites de la minería de datos

Guardaba en la cartera un artículo que ya pronto cumple sus cinco años. Sirve de contrapunto a toda esa literatura que describe la minería de datos como una suerte de panacea, la cómoda senda hacia un futuro de armonía y color. Se trata de una entrevista a Peter Fader sobre a lo que la minería de datos alcanza y no alcanza. Los estadísticos se sienten relativamente cómodos ascendiendo de lo particular a lo general (por ejemplo, calculando una media). En contraposición, la promesa de la minería de datos consiste en la predicción del comportamiento de los individuos, de cada individuo, a partir de modelos construidos sobre repositorios de datos cada vez más extensos y perfiles más detallados de cada sujeto. ...

IPC de noviembre: al menos, una buena noticia

Se ha hablado mucho del dato del IPC de noviembre. En parte porque, se ve, es el usado para calcular la revalorización de las pensiones. Al parecer, el dato ha sido algo anómalo. Y tanto que ha conseguido algo inusitado: poner de acuerdo a la prensa de izquierdas con la de derechas. Dizque el gobierno ha orquestado una transferencia de renta de quienes reciben pensiones hacia quienes las financiamos (algo que, por otra parte, a nadie he visto subrayar: ¡como si el gobierno pagase las pensiones de su bolsillo!). ...

SAS Stats Wars: comparación de calificaciones por sexo

En el siguiente vídeo, Danny Modlin y Marc Huber, de SAS, entablan una guerra estadística para tratar de dirimir qué técnica estadística es mejor para comparar la nota en unos exámenes según el sexo.

Más sobre variaciones insignificantes en estadísticas públicas

Hemos talado cantidad de montes y destruido el ecosistema de miles de ardillas para fabricar el papel sobre el que discutir asuntos totalmente irrelevantes. Hablé un poco de eso hace unos días y más en ocasiones anteriores, como esta y alguna más que me da pereza ubicar. Ahora leo en Significance cómo protesta Mark Fransham: La BBC informó la semana pasada que “el número de desempleados descendió en 50.000 hasta los 2,53 millones en el trimestre anterior”. Me pareció un cambio pequeño en una estimación procedente de una encuesta. Así que, preguntándome por la significancia estadística, consulté la página de la Oficina Nacional de Estadística, (ONS). Que, de hecho, decía: “hay 2,53 millones de desempleados, 50.000 menos desde marzo a mayo de 2012 y desde la año anterior”. ...

Errores de las encuestas electorales en Cataluña: una hipótesis sugerente

Pedro Concejero sugirió ayer en la reunión del grupo de usuarios de R de Madrid una hipótesis muy sugerente para explicar parte del error cometido por las encuestas electorales publicadas en Cataluña. Voy a elaborarla en esta entrada pero subrayando antes de todo que desconozco el detalle del funcionamiento de recogida de datos y que lo que voy a contar aquí no pasa de ser una hipótesis que correspondería a otros tratar de verificar. ...

¿... coma cero dos por ciento? ¡Anda ya!

Hoy hablo en la reunión del grupo de usuarios de R de Madrid. Voy a reciclar la charla que di en las IV Jornadas de Usuarios de R sobre mi paquete MicroDatosEs y voy a aprovechar para criticar, en mi estilo, enunciados como El número de parados crece en 85.000 personas y alcanza la cifra de 5.778.100. La tasa de paro se incrementa 38 centésimas hasta el 25,02%. que pueden encontrarse en la nota de prensa del INE que resume los resultados de la última encuesta de población activa, la del tercer trimestre de 2012. ...