¡Cuidado con las discontinuidades (subrepticias o no) en las escalas de color!

El tema de hoy es el mapa

distribuido de forma no irónica vía Twitter por algún desavisado al que no merece la pena apuntar con el dedo.

Podemos aceptar que, en primera aproximación, pasa el fitro. Existen desde hace un tiempo datos estadísticos ya no por regiones administrativas sino por rejillas de 1 km² y en este gráfico se han limitado a representar esos datos.

Uno de los problemas asociados a este tipo de datos (en rejillas) es que donde no vive nadie no hay una rejilla con el dato asociado pop = 0, sino que, directamente, no hay rejilla. Es decir, que donde falta rejilla, uno no sabe si hay un lago, el mar, o los Monegros. Para entender esto, merece la pena echar un vistazo al aspecto de las rejillas en la zona de Salzburgo:

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, y IV

[Esta es la cuarta y última (por el momento) de una serie de entradas sobre el tema que se anuncia en el título.]

En la tercera entrega de la serie se introdujo el frecuentismo como una particular manera de resolver el problema de minimización asociado a la expresión

$$L(\hat{\theta}) = \int_\theta \int_X L(\theta, \hat{\theta}) p(X | \theta) p(\theta) dX d\theta.$$

En esta entrada se introducirá el bayesianismo de manera análoga con el concurso del teorema de Fubini (que, recuérdese, permite conmutar las integrales):

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, III

[Esta es la tercera de una serie de cuatro o cinco entradas sobre el tema que se anuncia en el título.]

Terminó la segunda entrada de anunciando cómo la manera de operar con la expresión

$$L(\hat{\theta}) = \int_\theta \int_X L(\theta, \hat{\theta}) p(X | \theta) p(\theta) dX d\theta$$

determina las dos grandes corrientes dentro de la estadística. Para entender la primera, el frecuentismo, se debe reescribir la expresión anterior como

$$L(\hat{\theta}) = \int_\theta \left[\int_X L(\theta, \hat{\theta}) p(X | \theta) dX \right] p(\theta)d\theta$$

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, II

[Esta es la segunda de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.]

Terminó la primera entrada de la serie reconociendo que aún no se había entrado en materia estadística, que para ello habría que hablar de datos. Y, en efecto, la estadística principia cuando, por decirlo de manera sugerente aunque breve e imprecisa, $\theta$ genera unos datos $X$ que proporcionan pistas sobre su naturaleza.

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, I

[Esta es la primera de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.]

$\theta$ es un valor desconocido. Por algún motivo, necesitamos encontrar un valor $\hat{\theta}$ —que podríamos llamar de cualquier manera, pero que, por lo que sigue, será podemos convenir en denominar estimación de $\theta$— tal que minimicemos una determinada función de error

$$L(\theta, \hat{\theta}).$$

Por fijar ideas, un ejemplo: alguien nos puede haber dicho que ha pensado un número (entero) entre el 1 y el 10, $\theta$ y que nos dará un premio si lo acertamos, es decir, si proporcionamos un $\hat{\theta}$ y resulta que $\theta = \hat{\theta}$. Una función de error aplicable sería:

"Ensembles" meteorológicos: ¿probabilísticos o no?

Primero, una brevísima introducción al uso de ensembles en meteorología:

  1. Los metereólogos tienen modelos físicos deterministas que permiten proyectar a futuro el estado presente del tiempo (o de otros estados presentes hipotéticos).
  2. Sin embargo, esos modelos (tanto por su propia naturaleza como por las simplificaciones computacionales sin cuyo concurso las proyecciones serían materialmente inviables) son muy sensibles a las condiciones iniciales de partida (véase la gráfica anterior).
  3. Luego se realizan ensembles, i.e., proyecciones partiendo de pequeñas variaciones de las situaciones iniciales, que luego se agregan de cierta manera (para más detalles, consúltese el libro Física del caos en la predicción meteorológica y, en particular, el capítulo 27).

Y ahora, las preguntas son:

Uso y abuso de los "embeddings"

La variable feota por excelencia de nuestra profesión es el código postal: es categórica, tiene miles de niveles, muchos son infrecuentes, etc. Así que cuando se inventaron los embeddings, hace la tira, se me ocurrió crear uno por defecto. Es decir, una representación en baja dimensión de esa variable que pudiera aplicarse a una variedad de modelos. Y así fue hasta que al cabo de unos minutos se me ocurrió que ya existía una, muy natural, en dos dimensiones, que difícilmente iba a poder ser batida por un constructo ciego a la realidad: latitud y longitud.

Herramientas para ETLs en memoria

[Antes de nada, un aviso: léase la fecha de publicación de esta entrada. Es fácil estés visitándola en algún momento futuro en el que ya esté más que caduca.]

Soy muy partidario de las ETL en memoria. Cada vez es menos necesario utilizar herramientas específicas (SQL, servidores especializados, Spark, etc.) para preprocesar datos. Casi todo cabe ya en memoria y existen herramientas (hoy me concentraré en R y Python, que son las que conozco) que permiten realizar manipulaciones que hace 20 años habrían resultado impensables.

Perder ganando (o a la inversa)

Partes con un capital de 100 euros y te ofrecen un juego: se tira una moneda al aire y si sale cara, tu capital se multiplica por 1.5 (te dan 50 euros); pero si sale cruz, te quedas con el 60% de él (pierdes 40 euros).

El juego tiene un valor esperado de $5$ ($= .5 \times 50 - .5 \times 40$) por lo que, bajo cierto punto de vista, merece la pena apostar. (Bajo otros que involucran el principio de la aversión al riesgo, tal vez no, pero esa es otra historia).

Errores en cierto tipo de encuestas

En las encuestas a las que estamos acostumbrados se le pregunta a la gente cosas del tipo: ¿tiene Vd. perro? Luego, las respuestas se tabulan, etc. y se publican los resultados.

Pero en otras —por ejemplo, en la Encuesta de percepción de la ciencia y la tecnología en España— se preguntan cosas como: ¿vivieron los primeros humanos al mismo tiempo que los dinosaurios? Y allí no se trata de averiguar qué es lo que responde la gente sino, más bien, cuánta gente sabe la respuesta.

Un ejemplo de regresión con pérdidas asimétricas

En los libros de texto, imperan las funciones de pérdida simétricas, como el RMSE o el MAE. Pero hay casos —muchos, de hecho, en la práctica— en que las pérdidas son asimétricas: es más oneroso pasarse, p.e., que no llegar. En esta entrada voy a analizar un ejemplo motivado por el siguiente tuit:

El resumen de lo que sigue es el siguiente:

  • Voy a bajar datos de producción y consumo eléctrico de REE.
  • Voy a dejar en 0 el carbón, el gas y la nuclear.
  • Voy a ver por cuánto hay que multiplicar eólica y solar (dejando tal cual el resto de las renovables y cogeneraciones) para alcanzar un óptimo.

Obviamente, en el óptimo: