Histogramas

Reconstrucción de una distribución a partir de un histograma

Un viejo amigo me escribe y me propone (simplificándolo) el siguiente problema: Tengo una normal de parámetros desconocidos. De ella solo dispongo de un histograma. ¿Cómo puedo reconstruir la normal original? Es decir, ¿cómo puedo estimar los $\mu$ y $\sigma$ originales? En el caso concreto, la normal tiene una media próxima a 255 y los valores del histograma proceden de una muestra suya redondeada al entero más próximo. Aquí va mi solución. ...

"Introducción a la probabilidad y la estadística para científicos de datos": segunda entrega

Acabo de subir: Modificaciones y correcciones a los dos primeros capítulos. Un tercer capítulo sobre distribuciones de probabilidad. Queda ampliar, organizar y razonar la biblografía correspondiente a ese tercer capítulo. Lo más original (con cuádruples comillas) de este capítulo es tal vez la construcción de la función de densidad a partir de histogramas obtenidos a partir de simulaciones de variables aleatorias. Algo sobre lo que creo que escribí en su día en el blog pero que no ubico. ...

De histogramas a distribuciones (usando la de Burr)

Tengo una entrada perpetuamente pendiente que se pospone, entre otras cosas, porque aún no he encontrado una manera satisfactoria para muestrear histogramas. Una de las vías sería dar con (y ajustar) una distribución subyacente que generase unos histogramas similares. Hoy voy a contar un ejemplo de cómo puede fallar tal estrategia. Por un lado he bajado datos de la distribución de renta en España del INE: Por otro, me he dejado convencer temporalmente de que la distribución de Burr podría ser conveniente para modelar la distribución de ingresos de los hogares (Wikipedia dixit!). ...

Los datos están histogramizados... ¿quién los deshisotogramizará?

Hace un tiempo quise hacer cosas malísimas con datos fiscales de España y Dinamarca. Pero los datos estaban histogramizados: Gracias a Freakonometrics di con binequality. Adaptando su código, escribo library(rvest) library(plyr) dk <- read_html("http://www.skm.dk/english/facts-and-figures/progression-in-the-income-tax-system") tmp <- html_nodes(dk, "table") tmp <- html_table(tmp[[2]]) header <- tmp[1,] tmp <- tmp[-c(1, 2),] colnames(tmp) <- header # elimino declaraciones negativas tmp <- tmp[-1,] # elimino el total tmp <- tmp[-(nrow(tmp)),] colnames(tmp) <- c("rango", "contribuyentes", "X1", "income", "tax1", "tax2", "pct") irpf_dk <- tmp[, c("rango", "contribuyentes", "income", "tax1", "tax2")] irpf_dk$contribuyentes <- as.numeric(irpf_dk$contribuyentes) irpf_dk$income <- as.numeric(irpf_dk$income) irpf_dk$tax1 <- as.numeric(irpf_dk$tax1) irpf_dk$tax2 <- as.numeric(irpf_dk$tax2) irpf_dk$tax <- irpf_dk$tax1 + irpf_dk$tax2 irpf_dk$tax1 <- irpf_dk$tax2 <- NULL irpf_dk$pct <- irpf_dk$tax / irpf_dk$income irpf_dk$desde <- c(0, 25, 50, 75, 100, 125, 150, 200, 250, 300, 350, 400, 500, 750, 1000) irpf_dk$hasta <- c(irpf_dk$desde[-1], Inf) irpf_dk$desde <- irpf_dk$desde / 7.44 irpf_dk$hasta <- irpf_dk$hasta / 7.44 irpf_dk$income <- irpf_dk$income / 7.44 irpf_dk$tax <- irpf_dk$tax / 7.44 irpf_dk$mean_income <- irpf_dk$income / irpf_dk$contribuyentes * 1000 irpf_dk$rango <- NULL para bajar y preprocesar los datos y después ...

Un problema: cómo muestrear histogramas con medias. La vía de los trapecios

Me refiero muy impropiamente con histogramas con medias a algo parecido a que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos. Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido. Por simplificar, supongamos que tenemos datos en el intervalo [0, 1] cuya media es $\mu$. ¿Cómo obtener un muestreo razonable de valores en dicho intervalo? ...

Estadística(s) y el dedo de Dios

He usado el vídeo en un curso de estadística básica para ilustrar a través de experimentos se construyen histogramas y estos convergen a y, en última instancia, justifican el uso de distribuciones de probabilidad. Es decir, experimentos -> histogramas -> funciones de distribución. Y de ahí, el resto. ...