error

Más sobre el "método delta": propagate

Por referencia y afán de completar dos entradas que hice hace un tiempo sobre el método delta, esta y esta, dejo constar mención al paquete propagate, que contiene métodos para la propagación de la incertidumbre. Para desavisados: si $latex x \sim N(5,1)$ e $latex y \sim N(10,1)$, ¿cómo sería la distribución de $latex x/y$? Etc.

Sobre los peligros del "Tukey biweight"

Sigo con ajustes robustos. Y cosas que como matemático, me ponen muy nervioso. Una de las maneras de hacer ajustes robustos es la de sustituir la función cuadrática por la biweight. Es decir, utilizar la función que aparece la derecha en en lugar de la de la izquierda. O, dicho de otra manera, en lugar de tratar de minimizar $$ \sum_i \rho(y_i - f_\alpha(x_i))$$ usando $latex \rho(x) = x^2$, que es la función que se representa a la izquierda y a la que estamos acostumbrados, usar la de la derecha.

A más gripe, ¿menos mortalidad? En determinados submundos frecuentistas, sí

Estos días he tenido que adaptar y ejecutar con datos españoles una serie de modelos para medir la virulencia de diversos subtipos de gripe. Y todo bien, salvo que para uno de ellos y determinados grupos de edad… a mayor prevalencia, menor mortalidad. ¡Estupendo! Todo sucede porque un coeficiente que debería haber sido necesariamente positivo fue estimado como negativo (además, significativamente). Y el coeficiente tenía el signo cambiado (¡error de tipo S!

Sobre el error de generalización (porque a veces se nos olvida)

Al construir modelos, queremos minimizar $$ l(\theta) = \int L(y, f_\theta(x)) dP(x,y),$$ donde $L$ es una determinada función de pérdida (y no, no me refiero exclusivamente a la que tiene un numerillo 2). Pero como de $latex P(x,y)$ solo conocemos una muestra $latex (x_i, y_i)$ (dejadme aprovechar la ocasión para utilizar una de mis palabras favoritas: $latex P(x,y)$ es incognoscible), hacemos uso de la aproximación $$ \int f(x) dP(x) \approx \frac{1}{N} \sum f(x_i)$$

La función de pérdida es una API entre los "stakeholders" de un análisis estadístico

El objeto único de la estadística es informar decisiones. V.g, si conceder un préstamo, proceder a la quimio, construir una línea de AVE entre Calatayud y Soria o permitir aparcar mañana en el centro de Madrid a los de Móstoles. Pero quienes toman decisiones y quienes analizan datos suelen ser personas distintas. Típicamente, ni se conocen. Lo cual es tanto pésimo como tema para otra entrada distinta de esta. Lo fundamental es que estas personas se comunican a través de, metafóricamente, APIs.

¿Cuántas veces habré metido la pata?

Ayer escribí $$ N = \sum_i \frac{1}{p_i^2}$$ donde lo suyo era (ya está corregido) $$ N = \frac{1}{\sum_i p_i^2}.$$ Eso me ha hecho replantearme cuántas veces habré metido la pata después de las 1300 entradas largas que llevo escritas. No me refiero a puntos de vista discutibles; tampoco a errores a veces excusables de concordancia; me refiero a cosas como las de ayer, las que sonrojan. Una vez, recuerdo, escribí puya donde quería decir pulla.

#NadieSinLuz

Está siendo tremending topic en Twitter según escribo. Uno de los trinos asociados al caudal es en realidad son 7000 ancianos y en total 10.000 https://t.co/caoiSBLHhY — negrita 💜💚 (@CuleFer) November 15, 2016 que remite a un Observatorio Social de las Personas Mayores, el de 2015 específicamente. No vale el de 2016 o el de 2014 porque en ninguno de ellos hace referencia a tan abultada y, diríamos, significantísima cifra.

Pesadumbre e incertidumbre desencadenadas

Hoy escribo afectado por un derrame de pesadumbre. Pero esa es solo una opinión que igual no importa nadie. Estas del 8 de noviembre han sido las elecciones en que menos y que más caso he hecho de las encuestas electorales. Cansado del cada vez más monótono ciclo de que se publican encuestas electorales llegan las elecciones y el resultado no se parece en nada a lo dibujado por ellas y se reitera el mismo blablablá (en latín se dice excusatio non petita) que unos meses antes he decidido esta vez dejar de prestar atención a algo que, se ha visto, no ha sido sino ruido.

Lo que va del 4.4% al 70%

Dice El País transcribiéndonos (¡gracias!) la nota de prensa del INE sobre la encuesta trimestral de coste laboral (ETCL) del segundo trimestre de 2016: Solo el 4,4% de las compañías señala que si no contrata es porque el coste es elevado Lo cual es cierto (por más que el solo aporte un matiz opinativo como tal discutible). Pero una comparación con el titular, El 93,8% de las empresas españolas dice que no necesita más trabajadores

Encuestas, censos, elecciones

Hace unas semanas tuve un lapso de creatividad. Dejé de escribir durante un tiempo y me dediqué al sucedáneo: leer. Terminé, para variar, unos cuantos libros. Uno de ellos es Proofiness, the Dark Arts of Mathematical Deception que está más o menos bien. En su mayor parte abunda sobre fenómenos conocidos, estudiados y sobradamente denunciados: que hay que recurre a argumentos basados en números, estadísticas o construcciones matemáticas más o menos sofisticadas para dar visos de verdad a mentiras flagrantes.

Más sobre el error de medida

En el periódico del domingo nos regala Ángel Laborda un parrafito delicioso que abunda en el tema tratado en mi última entrada sobre el una error de medida. Así dice: Ahora bien, hay que tomar estos datos con muchas cautelas. Una vez más estamos delante de datos estadísticos de cierta complejidad a la hora de interpretarlos y de valorarlos. En primer lugar, se observa que la desestacionalización de los mismos que hacen, por un lado, el Ministerio de Economía y, por otro, el INE cuando los utiliza en el cálculo de la contabilidad nacional, difiere notablemente.

Error de medida

Por su interés y oportunidad, reproduzco aquí y en su idioma original (la parque que nos es más relevante de) un breve editorial de Simon Baptist, economista jefe de The Economist Intelligence Unit. Así reza: This week we had some apparent good news with [Indian] GDP growth at the end of 2014 revised upward to 7.5% but, looking closer, a large part of the good performance is due to changes in the way that GDP is calculated.

Errores de tipo M y de tipo S

A los estadísticos se nos acusa en ocasiones de contestar preguntas tontas en las que nadie está interesado. (Nota: de alguna manera conseguí el artículo al que se refiere el enlace anterior; pero ahora no veo que exista ninguna copia libre por ahí. Si alguien la consigue, por el bien del resto de los lectores, que me avise o que lo haga saber en los comentarios). A lo que iba. Muchos estadísticos tienen el cerebro reprogramado para tratar de no cometer los llamados errores de tipo I y errores de tipo II (y para ello tratan de estimar una cosa de dudosa utilidad, $latex P(D|H)$, donde $latex D$ son los datos y $latex H$ es cierta hipótesis (que, generalmente, a nadie interesa y que es más difícil de plantear correctamente de lo que parecería).