Estadística

Sobre la economía del lenguaje

De acuerdo con una observación de Zipf (y supongo que de muchos otros y que no hay que confundir con su ley), la longitud de las palabras más corrientes es menor que las que se usan menos frecuentemente. Un estudio reciente, Word lengths are optimized for efficient communication, matiza esa observación: la cantidad de información contenida en una palabra predice mejor la longitud de las palabras que la frecuencia de aparición pura. En una comparación entre diversos idiomas europeos, parece manifestarse que palabras que aportan poca información son breves; las que aportan mucha, más largas. ...

Don’t be loopy! (II)

Continúo en esta la primera de las entradas que hice sobre el artículo Don’t Be Loopy: Re-Sampling and Simulation the SAS® Way. Trata sobre lo siguiente: Construir un cojunto de datos simples (dos vectores, x e y). Hacer una regresión de y sobre x y capturar los residuos. Crear 1000 vectores y' distintos añadiendo a $\hat{y}$ (la predicción de y) en el modelo anterior una reordenación de los residuos. Crear los correspondientes 1000 modelos haciendo la regresión de cada $\hat{y}$ sobre x. Obtener el histograma del coeficiente de la regresión. Es un caso de _bootstrap _en el que no se muestrean directamente los valores iniciales sino los residuos del modelo. ...

Anonimidad y cantidad de información

Juguemos a un juego: pienso el nombre de uno de los 45M de ciudadanos españoles y tenéis que acertarlo. Me podéis hacer preguntas, pero solo de esas cuya respuesta es sí o no. ¿Cuántas preguntas deberíais hacerme? Pues unas 25 o 26 porque $log_2 4.5e7 = 25.42$. La demostración es sencilla: suponed que tenéis una lista con los nombres de todos los ciudadanos (a razón de 45 por hoja y 200 hojas por tomo, ocuparían 5000 de ellos). La primera pregunta podría ser: el individuo que has pensado, ¿está en los tomos 1-2500? Luego, dependiendo de la respuesta, ¿del 1250 al 2500? Y etc. con la búsqueda binaria. En total, 25 o 26 veces. ...

La ley de Benford, revisitada

Revisito mi artículo sobre la ley de Benford no tanto por hacer mención a las entradas una, dos y tres que hizo Gregorio Serrano en su bitácora ni al oportunísimo artículo de The Guardian al respecto. Ni siquiera para mencionar la existencia de este sesudo artículo sobre el tema. Lo hago porque me pliego a la demanda popular: voy a explicar con más detalle el código que dejé allí escrito y que, por referencia, es benford <- function( foo, ..., n = 100000 ){ tmp <- foo( n, ... ) tmp <- as.character( tmp[ tmp > 0] ) tmp <- strsplit( tmp, "" ) leading.digit <- function( x ) x[ ! x %in% c( "0", "." )][1] tmp <- unlist( lapply( tmp, leading.digit ) ) 100 * table( tmp ) / length( tmp ) } benford( rcauchy ) benford( rexp, rate = 2 ) benford( rexp, rate = 5 ) benford( rnorm, sd = 40 ) benford( rweibull, shape = 1 ) Puede llamar la atención que el primer argumento de la función benford sea, precisamente, otra función. Nada del otro mundo. El siguiente es un ejemplo en el que se muestra el uso aislado para una mejor comprensión: ...

Otra sobre polígrafos, terrorismo y periodistas anuméricos

Dice el diario El País que científicos británicos desarrollan un sistema que permite saber si alguien no está diciendo la verdad analizando su rostro. El aparato, según el artículo […] podría ser utilizado para cuestiones de seguridad, como, por ejemplo, en los aeropuertos para identificar a potenciales criminales o terroristas. Añade después que […] el sistema será capaz de coger al 90 % de los que mienten, porcentaje similar al obtenido por el polígrafo ...

La ley de Benford

El otro día me preguntó una compañera el motivo por el que un proceso (de transformación de datos) se ejecutaba tan lentamente. De oficio, siempre hago lo mismo —además, lo saben: ¿para qué seguirán preguntando?—: ejecutar el proceso solo sobre un porcentaje de los datos. Con los que el id acababa en 123, era inmediato; con 12, también; con 1, se eternizaba. Pero con 2, 3 y 4 volvía a ser muy rápido. ¡Había muchísimos registros con id acabado en 1! ...

La estadística del número tres

Una consulta que he recibido hoy me ha hecho recordar que tenía pendiente una entrada sobre la estadística del número tres, es decir, ¿qué hacer cuando tenemossolo tres casos? Hace tiempo publiqué en estas páginas un vídeo sobre este asunto. Lo que no sabía entonces es que existen (o existieron) estadísticos que estudiaron concienzudamente el problema. He aquí unas cuantas referencias: Youden, W. J., The Best Two out of Three?", J. Chem. Educ., diciembre de 1949, 673-674 Lieblein, J., Properties of Certain Statistics Involving the Closest Pair in a Sample of Three Observations, Journal of Research of the National Bureau of Standards, marzo de 1952 Youden, W.J., The fallacy of the best two out of three, NBS Technical News Bulletin 33, 77, julio de 1949 Youden, W. J., Sets of Three Measurements, Scienfic Monthly, 77, septiembre de 1953 … y otras que aparecen en las bibliografías de los anteriores o que los citan. En realidad, estos artículos tienen que ver, mucho más que con el caso que recoge el vídeo, con el de la medición de fenómenos en laboratorio y su fiabilidad. Se ve que es (o fue) habitual tomar tres medidas de un mismo experimento y dar por buena después la media de las dos más próximas. Los artículos anteriores discuten la conveniencia o no de esa práctica. ...

Visualización de la actualización bayesiana (y unas cuantas funciones de R)

Me ha llegado noticia de una entrada en un blog, Visualizing Bayesian Updating, en el que se muestra visualmente cómo se actualiza la distribución a posteriori conforme aumenta el número de ensayos en un problema bayesiano simple. Explica también los fundamentos estadísticos del asunto. Yo me limitaré a ofrecer una nueva versión del código —que no funcionaba copiando y pegando sin más— en el que he introducido ciertas modificaciones. Es el siguiente: ...

Un paseo por Google Fusion Tables

El siguiente vídeo contiene una entrevista con Alon Halevy, que dirige el Data Group en Google Research. Aunque confunda Suecia y Finlandia, merece la pena la presentación que hace de Google Fusion Tables, una plataforma para compartir, combinar, distribuir y representar gráficamente conjuntos de datos.

Diez pasos para construir indicadores compuestos

“[…] es difícil imaginar que el debate sobre el uso de indicadores agregados llegue algún día zanjarse […] los estadísticos desconfían de ellos puesto que gran parte del trabajo de recolección y análisis de datos se “desvirtúa” o “esconde” detrás de un único número de dudoso valor. Otros, por su parte, encuentran irresistiblemente tentadora la posibilidad de resumir procesos complejos y lábiles (por ejemplo, sostenibilidad, etc.) en una cifra con la que comparar el desempeño de los distintos países.” ...