Error

Sobre el error de generalización (porque a veces se nos olvida)

Al construir modelos, queremos minimizar

$$ l(\theta) = \int L(y, f_\theta(x)) dP(x,y),$$

donde $L$ es una determinada función de pérdida (y no, no me refiero exclusivamente a la que tiene un numerillo 2). Pero como de $latex P(x,y)$ solo conocemos una muestra $latex (x_i, y_i)$ (dejadme aprovechar la ocasión para utilizar una de mis palabras favoritas: $latex P(x,y)$ es incognoscible), hacemos uso de la aproximación

$$ \int f(x) dP(x) \approx \frac{1}{N} \sum f(x_i)$$

La función de pérdida es una API entre los "stakeholders" de un análisis estadístico

El objeto único de la estadística es informar decisiones.

V.g, si conceder un préstamo, proceder a la quimio, construir una línea de AVE entre Calatayud y Soria o permitir aparcar mañana en el centro de Madrid a los de Móstoles.

Pero quienes toman decisiones y quienes analizan datos suelen ser personas distintas. Típicamente, ni se conocen. Lo cual es tanto pésimo como tema para otra entrada distinta de esta.

Lo fundamental es que estas personas se comunican a través de, metafóricamente, APIs. Unas de las más usadas son los p-valores. Que son tan pésismos como tema para otra entrada distinta de esta.

¿Cuántas veces habré metido la pata?

Ayer escribí

$$ N = \sum_i \frac{1}{p_i^2}$$

donde lo suyo era (ya está corregido)

$$ N = \frac{1}{\sum_i p_i^2}.$$

Eso me ha hecho replantearme cuántas veces habré metido la pata después de las 1300 entradas largas que llevo escritas. No me refiero a puntos de vista discutibles; tampoco a errores a veces excusables de concordancia; me refiero a cosas como las de ayer, las que sonrojan.

Una vez, recuerdo, escribí puya donde quería decir pulla. Otra vez leí mal esto. Así que ya no puedo decir que 3/n sería una buena estimación.

#NadieSinLuz

Está siendo tremending topic en Twitter según escribo. Uno de los trinos asociados al caudal es

que remite a un Observatorio Social de las Personas Mayores, el de 2015 específicamente. No vale el de 2016 o el de 2014 porque en ninguno de ellos hace referencia a tan abultada y, diríamos, significantísima cifra.

Aunque precedido y sucedido de silencio, el de 2015, como digo, sí. Cita como fuente otro estudio, Pobreza energética en España, Análisis de tendencias realizado por la Asociación de Ciencias Ambientales y que goza del patrocinio de la acción social del banco que es el mayor accionista de la empresa que cortó la luz por impago a la octogenaria de Reus que murió atufada por unas velas provocando con ello la indignación del tuiterío y, con ello, la salida a colación de las 7000 muertes prematuras causadas por la pobreza energética que recoge el Observatorio Social de las Personas Mayores de 2014 citando como referencia…

Pesadumbre e incertidumbre desencadenadas

Hoy escribo afectado por un derrame de pesadumbre. Pero esa es solo una opinión que igual no importa nadie.

Estas del 8 de noviembre han sido las elecciones en que menos y que más caso he hecho de las encuestas electorales. Cansado del cada vez más monótono ciclo de que

  • se publican encuestas electorales
  • llegan las elecciones y el resultado no se parece en nada a lo dibujado por ellas y
  • se reitera el mismo blablablá (en latín se dice excusatio non petita) que unos meses antes

he decidido esta vez dejar de prestar atención a algo que, se ha visto, no ha sido sino ruido. Les he hecho caso, sin embargo, al inclinarme a comprar con ánimo 100% especulativo unas accioncillas que hoy valen el 4% menos que ayer y el 2% menos que cuando las compré. ¡Contento me tienen los científicos de opinión pública y sus benditas batas blancas!

Lo que va del 4.4% al 70%

Dice El País transcribiéndonos (¡gracias!) la nota de prensa del INE sobre la encuesta trimestral de coste laboral (ETCL) del segundo trimestre de 2016:

Solo el 4,4% de las compañías señala que si no contrata es porque el coste es elevado

Lo cual es cierto (por más que el solo aporte un matiz opinativo como tal discutible).

Pero una comparación con el titular,

El 93,8% de las empresas españolas dice que no necesita más trabajadores

Encuestas, censos, elecciones

Hace unas semanas tuve un lapso de creatividad. Dejé de escribir durante un tiempo y me dediqué al sucedáneo: leer. Terminé, para variar, unos cuantos libros.

Uno de ellos es Proofiness, the Dark Arts of Mathematical Deception que está más o menos bien. En su mayor parte abunda sobre fenómenos conocidos, estudiados y sobradamente denunciados: que hay que recurre a argumentos basados en números, estadísticas o construcciones matemáticas más o menos sofisticadas para dar visos de verdad a mentiras flagrantes. Los ejemplos resultarán más afines culturalmente a quienes vivan en la orilla equivocada del Atlántico, aunque son los suficientemente conocidos para que sepamos de qué se habla y que el género es ensayo y no ficción.

Mejores mensajes de error con deparse + substitute

R
foo <- function(df, column.name){
    if (!column.name %in% colnames(df))
      stop("Column ", column.name, " not found in ", deparse(substitute(df)))

    mean(df$column.name)  # por ejemplo
  }

  foo(iris, "petal.area")

Lanza el error

Error in foo(iris, "petal.area") : Column petal.area not found in iris

mucho más informativo gracias a deparse + substitute.

Más sobre el error de medida

En el periódico del domingo nos regala Ángel Laborda un parrafito delicioso que abunda en el tema tratado en mi última entrada sobre el una error de medida.

Así dice:

Ahora bien, hay que tomar estos datos con muchas cautelas. Una vez más estamos delante de datos estadísticos de cierta complejidad a la hora de interpretarlos y de valorarlos. En primer lugar, se observa que la desestacionalización de los mismos que hacen, por un lado, el Ministerio de Economía y, por otro, el INE cuando los utiliza en el cálculo de la contabilidad nacional, difiere notablemente. En segundo lugar, los deflactores utilizados por ambos organismos para pasar de precios corrientes a constantes también vienen difiriendo significativamente (en el primer caso se utilizan los valores unitarios y en el segundo, los índices de precios de exportación e importación de productos industriales complementados con alguna otra información para los no industriales). Todo ello lleva a obtener tasas intertrimestrales bastante diferentes en un caso o en otro. Haciendo un cálculo aproximativo, hasta que en la próxima semana conozcamos las estimaciones del INE, llegamos a la conclusión de que la caída intertrimestral a precios constantes de las exportaciones ha sido algo mayor a la señalada anteriormente y, en cambio, la de las importaciones ha sido bastante menor, situándose incluso por debajo de las exportaciones, con lo que la aportación conjunta al crecimiento del PIB ha podido ser de nuevo negativa.

Error de medida

Por su interés y oportunidad, reproduzco aquí y en su idioma original (la parque que nos es más relevante de) un breve editorial de Simon Baptist, economista jefe de The Economist Intelligence Unit.

Así reza:

This week we had some apparent good news with [Indian] GDP growth at the end of 2014 revised upward to 7.5% but, looking closer, a large part of the good performance is due to changes in the way that GDP is calculated. These changes are welcome, as they better reflect the structure of the current Indian economy, but remind me that the mind-numbingly boring issues of price deflators and sectoral weights are actually much more important to economic statistics than issues of reform or central bank behaviour. Although it is less exciting, we economic commentators really should spend more time focusing on where our numbers come from rather than breathlessly extolling changes that are smaller than the likely measurement error. Either way, really understanding the context of data and forecasts is critical to making good business decisions.