Gelmaneando

Hoy, gelmaneo así:

bar <- function(n, reps = 1e4){
  foo <- function(n){
    x <- rnorm(n)
    tmp <- t.test(x)
    c(tmp$p.value, abs(mean(x)))
  }

  res <- replicate(reps, foo(n))
  tmp <- t(res)
  tmp <- tmp[tmp[,1] < 0.05,]
  tmp[,2]
}

res <- lapply(c(3, 10, 20, 50, 100), bar)
sapply(res, mean)
#[1] 0.8662636 0.6583157 0.4934551 0.3240322 0.2337086

Resumo:

  • Fabrico un montón de errores de tipo I. Recuérdese: error de tipo I implica artículo publicado.
  • Hago variar el número de sujetos (3, 10, etc.), n.
  • Mido el tamaño (promedio) del efecto, E; el estudio de su distribución, ejercicio para el lector.

Y efectivamente, E es función decreciente de n.

¿Alguien sabe por qué es tan pequeño este número?

Hay una cifra que me intriga. Ya hablé sobre ella hace años.

Buscando el otro día (infructosísimamente) información sobre la renta (y su distribución) de los autónomos, volví a encontrármela actualizada:

En resumen: el en 2015, 3.5 millones de empresarios y autónomos declararon ingresos netos (descontando gastos) de poco más de 8000 euros por barba.

Hipótesis que barajo:

  • Que ese número no signifique lo que y pienso que significa.
  • Que en el denominador hay autónomos inactivos, autónomos a tiempo ultraparcial, autónomos que se dieron de alta un ratico para cobrar una factura pírrica, etc.
  • Que alguien que ni es autónomo ni lo ha sido; que ni ha creado un puesto de trabajo ni es probable que lo cree nunca (ni siquiera para sí mismo) escribirá un comentario que contenga la palabra fraude rodeado del habitual blablablá.

Estereotipos y estadística (II)

Hace tiempo escribí:

El porcentaje de mosquitos que pueden transmitir enfermedades es pequeño, muy pequeño. Sin embargo, decimos mosquitos transmiten enfermedades sin empacho.

Un porcentaje mucho mayor de los libros tienen tapas blandas. Sin embargo, no decimos que los libros tienen tapas blandas.

(Las frases anteriores no son estrictamente mías: en el enlace hay otros enlaces a sus fuentes y autores).

Hoy leo en el periódico un artículo que lleva por título ¿Por qué los hombres matan a las mujeres?

Micromapas

Vienen a ser la versión geo de las sparklines. Por ejemplo,

Notas:

  • El gráfico anterior no es mío. El código (y datos) con el que se generó tampoco. Son de Susana Huedo, exalumna.
  • Está basado (todo hay que decirlo) en código de terceros y debería acordarme de cuál de ellos. Pero no es el caso.

Syberia tiene muy buena pinta [pero...]

R

Echadle un vistazo a Syberia (y me contáis qué tal os va). Tiene muy buena pinta y puede ser útil para produccionalizar código.

[Esto es casi todo; lo que sigue es omitible.]

Sin embargo y sin que necesariamente haga desmerecer a Syberia como tal, en la página arriba enlazada se lee:

In the viewpoint of the author, R is syntactic sugar around LISP, which enables arbitrary computation; Syberia is an attempt to support this conjecture by allowing the construction of arbitrary software projects within the R programming language, thereby finally outgrowing its long-overdue misconception as a statistical tool.

Dudas ¿razonables? que me asaltan

Casi siempre que leo artículos como La pobreza severa baja en España pero la desigualdad no se corrige en que se habla de pobreza, renta, deciles y demás, me asaltan siempre las mismas dudas que no sé si razonables o no. Sobre todo cuando enfatizan la situación de los deciles más extremos.

Porque nací en un barrio popular, vivo en otro y tengo más conocidos en Entrevías que en Puerta de Hierro. Y sé de quienes viven de dar palos en camiones, de quienes trapichean con todo tipo de sustancias, de quienes compran aquí y venden allá al tacataca, de los que tienen beca pa’tó y, además, un patinete eléctrico para cada churrumbel, etc. Imagino que en algún sitio morarán los y las meretrices que pueblan la noche madrileña y, en definitiva, los beneficiarios de un buen pedazo de ese 20% de la economía que se estima sumergida.

¿Una perspectiva económica del lenguaje?

La gente cuyo campo de interés es el lenguaje lo ha hecho tradicionalmente de manera discursiva (blablablá, diríase), donde casi todo vale con tal de que esté escrito con un poco de gracia. Solo recientemente (hablamos de unas pocas décadas) han comenzado a usar herramientas computacionales.

Lo que se echa de menos y sobre lo que hay muchísimo menos escrito es de la relación entre el lenguaje y la economía. Una disciplina sobre la que los lingüistas que he conocido muestran y manifiestan tanto desdén como desconocimiento.

Hoy, como excepción, gritaré y justificaré: ¡Malditos logaritmos!

Dados unos números positivos hay que justificar por que no tomar logaritmos y no al revés. La carga de la prueba recae sobre quien no lo hace.

No obstante:

Tenía unos datos (para cada $latex t$) que siguen (me lo juran) un modelo teórico

$$ \log y \sim k \exp(-at)$$

Existen dos opciones para encontrar los parámetros deseados $latex k$ y $latex a$. El primero, tomando logaritmos y aplicando lm. El segundo, ajustando un modelo no lineal con, p.e., nls.