Carlos J. Gil Bellosta

Análisis estadístico de respuestas ocultas en encuestas

A veces se hacen encuestas sobre temas sobre los que los encuestados son reticentes a revelar la verdad (p.e., ¿es Vd. un zombi?). Un procedimiento conocido para recabar tal tipo de información es el siguiente: Se le invita al encuestado a tirar al aire una moneda con las caras etiquetadas con sí y no; la moneda no es una moneda porque tiene una probabidad conocida (y distinta del 50%) de caer en sí. El encuestado responde sí si la respuesta a la pregunta y el resultado de la tirada de la moneda coinciden y no en caso contrario. A partir de la proporción de respuestas positivas y conocida la probabilidad del sí de la moneda, $q$, es posible estimar la proporción $\theta$ de respuestas positivas a la pregunta de subyacente de interés en la muestra. Efectivamente, los síes tienen una distribución binomial $B(p) = B(q\theta + (1-q)(1-\theta))$ y, una vez estimado (por máxima verosimilitud) $\hat{p}$, puede despejarse $\hat{p}$ de $\hat{p} = q\hat{\theta} + (1-q)(1-\hat{\theta})$ para obtener ...

¿A cuántos zombis conoces?

El artículo cuya lectura propongo hoy comienza así: La zombificación es un gran problema de salud y de seguridad pública muy difícil de estudiar usando los métodos tradicionales basados en encuestas. Se cree que la tasa de penetración del teléfono entre la población zombi es pequeña. Además, los zombis son reacios a identificarse como tales al ser encuestados. Las entrevistas personales suponen un riesgo elevado para quienes las realizan. Las esperanzas originalmente depositadas en las encuestas a través del ordenador se desvanecieron ante el riesgo de que los virus propagasen la infección zombi. ...

Por si os interesa el tema de la energía, las centrales, las emisiones, etc.

Esta entrada será del interés de a quien le atraigan dos temas bastante independientes entre sí: La energía, las centrales eléctricas, sus emisiones, etc. SPARQL Allá va el código library(SPARQL) library(ggplot2) queryString = "PREFIX a: <http://enipedia.tudelft.nl/wiki/> PREFIX prop: <http://enipedia.tudelft.nl/wiki/Property:> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> select ?plant ?name ?elec_capacity_MW ?lat ?lon ?operator where { ?plant prop:Country a:Spain . #get the name #?plant rdfs:label ?name . ?plant prop:Generation_capacity_electrical_MW ?elec_capacity_MW . #?plant prop:Operator ?operator . ?plant prop:Latitude ?lat . ?plant prop:Longitude ?lon . }" d <- SPARQL(url="http://enipedia.tudelft.nl/sparql", query=queryString, format='csv', extra='&format=text%2Fcsv') ggplot(d$results, aes(x = lon, y = lat, size = elec_capacity_MW)) + geom_point() y lo que genera, que es ...

El problema de las tres croquetas (o del cuñao [no] envenenao)

Estás comiendo donde tu suegra y te muestra un plato con tres croquetas. Tus espías en la cocina te han informado de que una de ellas contiene dosis letales de estricnina. Eliges una y no te la comes todavía porque ves pasar a tu cuñao, que no sabe nada de lo que pasa, y le invitas a coger una de las dos croquetas restantes. Él toma una, se la come y no se muere. ...

El problema de los tanques alemanes y de la máxima verosimilitud esquinada

El problema en cuestión, que se ve, surgió durante la II Guerra Mundial, es el siguiente: se capturan tanques del enemigo y se anotan los números de serie, supuestos sucesivos. ¿Cuál es la mejor estimación del número total de tanques fabricados por el enemigo? Si se capturan k, la distribución del máximo número observado, m, en función del número no observado (nuestro parámetro) de tanques es $$ f(N;m,k)=\frac{\binom{m-1}{k-1}}{\binom{N}{k}}$$ y como esta función es decreciente en $N$, la estimación por máxima verosimilitud es $\hat{N} = m$. ...

¿Vive la ciencia (y su prestigio) de las rentas del pasado?

Por su importancia, enlazo hoy El ocaso de la era científica, un artículo con el que Martín López Corredoira pondrá muy nerviosos a quienes me criticaron cuando escribí esto.

Construcción de prioris informativas a la de Finetti

Un banco tiene clientes. Los clientes usan la tarjeta de débito. La pueden usar de dos maneras: en cajero o para pagar (por productos y servicios). De cada cliente se tiene una secuencia de transacciones, etiquetadas como 1 o 0 según la use en cajero o no. Para cada cliente, la secuencia de transacciones (más o menos larga) puede considerarse una secuencia intercambiable y, de acuerdo con el teorema de representación de de Finetti, ...

¿En qué año era la el almacenamiento en disco tan caro como hoy en memoria?

La respuesta a sea pregunta, y siempre de acuerdo con los datos de John C. McCallum, la da que hace corresponder a cada año del eje horizontal el correspondiente (en el vertical) aquel en el que el almacenamiento en disco venía a costar lo mismo (euros por MB) que el memoria en el primero. Hoy vamos casi por 2000. Me llama la atención que el crecimiento se esté ralentizando. El código, por si alguien le encuentra alguna tara, es ...

¿Qué significa "vinculados de forma muy significativa"?

Diríase que dos fenómenos vinculados de forma muy significativa guardan una potente relación causal. Creo que eso es lo que entendería cualquiera. Traigo pues a colación dos fenómenos. El primero es Y el segundo, ¿Diríais que están vinculados de forma muy significativa? Pues si en lugar de fiaros de vuestros propios ojos, lo hacéis de Berta Rivera, Bruno Casal o Luis Currais, los autores de The economic crisis and death by suicide in Spain: Empirical evidence based on a data panel and the quantification of losses in labour productivity; o de David Lombao (que divulga el anterior aquí en El Diario), la respuesta es sí. ...

Prioris muy informativas y vagamente informativas: un ejemplo

Mi búsqueda de ejemplos de aplicaciones con prioris informativas me ha conducido a Physiological pharmacokinetic analysis using population modeling and informative prior distributions, un artículo en el que se plantea un modelo jerárquico con dos tipos de distribuciones a priori: Distribuciones muy informativas. Por ejemplo, el parámetro que representa la proporción del peso del hígado en un adulto, alrededor del 3.3% en promedio, que se modela con una distribución centrada en ese valor y una desviación estándar baja. ...