2.551879e+18 julios anuales

La entrada de hoy es un ejercicio intrascendente inspirado en cálculos similares, pero aplicados al RU, en el octavo capítulo del muy recomendable librito Sustainable Energy — without the hot air. En él se calcula cuál podría llegar a ser la potencia hidroeléctrica instalada máxima en RU bajo la hipótesis de que se aprovecha la totalidad de la energía potencial de cada gota de agua llovida en aquella desventurada tierra.

El número gordo correspondiente a España es ese con el que rotulo la entrada: 2.551879e+18 julios anuales. Que, como todo el mundo sabe, corresponde a la energía necesaria para iluminar un campo de fútbol en lo que cuesta pasar por agua todos los huevos puestos por gallina desde los tiempos de Nabucodonosor II.

¡Cuidado con las discontinuidades (subrepticias o no) en las escalas de color!

El tema de hoy es el mapa

distribuido de forma no irónica vía Twitter por algún desavisado al que no merece la pena apuntar con el dedo.

Podemos aceptar que, en primera aproximación, pasa el fitro. Existen desde hace un tiempo datos estadísticos ya no por regiones administrativas sino por rejillas de 1 km² y en este gráfico se han limitado a representar esos datos.

Uno de los problemas asociados a este tipo de datos (en rejillas) es que donde no vive nadie no hay una rejilla con el dato asociado pop = 0, sino que, directamente, no hay rejilla. Es decir, que donde falta rejilla, uno no sabe si hay un lago, el mar, o los Monegros. Para entender esto, merece la pena echar un vistazo al aspecto de las rejillas en la zona de Salzburgo:

Nuevo vídeo en YouTube: "¿Por qué nos volvemos bayesianos con la edad?"

El vídeo que anuncio hoy,

lleva ya un tiempo colgado. Pero se me ha interpuesto la serie sobre la explicación y justificación del bayesianismo y frecuentismo y he retrasado su noticia.

De todos modos, es oportuno porque en el vídeo hago referencia a cosas que, cuando se rodó, aún no estaban ni escritas ni publicadas pero que el lector interesado encontrará en esa serie.

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, y IV

[Esta es la cuarta y última (por el momento) de una serie de entradas sobre el tema que se anuncia en el título.]

En la tercera entrega de la serie se introdujo el frecuentismo como una particular manera de resolver el problema de minimización asociado a la expresión

$$L(\hat{\theta}) = \int_\theta \int_X L(\theta, \hat{\theta}) p(X | \theta) p(\theta) dX d\theta.$$

En esta entrada se introducirá el bayesianismo de manera análoga con el concurso del teorema de Fubini (que, recuérdese, permite conmutar las integrales):

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, III

[Esta es la tercera de una serie de cuatro o cinco entradas sobre el tema que se anuncia en el título.]

Terminó la segunda entrada de anunciando cómo la manera de operar con la expresión

$$L(\hat{\theta}) = \int_\theta \int_X L(\theta, \hat{\theta}) p(X | \theta) p(\theta) dX d\theta$$

determina las dos grandes corrientes dentro de la estadística. Para entender la primera, el frecuentismo, se debe reescribir la expresión anterior como

$$L(\hat{\theta}) = \int_\theta \left[\int_X L(\theta, \hat{\theta}) p(X | \theta) dX \right] p(\theta)d\theta$$

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, II

[Esta es la segunda de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.]

Terminó la primera entrada de la serie reconociendo que aún no se había entrado en materia estadística, que para ello habría que hablar de datos. Y, en efecto, la estadística principia cuando, por decirlo de manera sugerente aunque breve e imprecisa, $\theta$ genera unos datos $X$ que proporcionan pistas sobre su naturaleza.

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, I

[Esta es la primera de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.]

$\theta$ es un valor desconocido. Por algún motivo, necesitamos encontrar un valor $\hat{\theta}$ —que podríamos llamar de cualquier manera, pero que, por lo que sigue, será podemos convenir en denominar estimación de $\theta$— tal que minimicemos una determinada función de error

$$L(\theta, \hat{\theta}).$$

Por fijar ideas, un ejemplo: alguien nos puede haber dicho que ha pensado un número (entero) entre el 1 y el 10, $\theta$ y que nos dará un premio si lo acertamos, es decir, si proporcionamos un $\hat{\theta}$ y resulta que $\theta = \hat{\theta}$. Una función de error aplicable sería:

"Ensembles" meteorológicos: ¿probabilísticos o no?

Primero, una brevísima introducción al uso de ensembles en meteorología:

  1. Los metereólogos tienen modelos físicos deterministas que permiten proyectar a futuro el estado presente del tiempo (o de otros estados presentes hipotéticos).
  2. Sin embargo, esos modelos (tanto por su propia naturaleza como por las simplificaciones computacionales sin cuyo concurso las proyecciones serían materialmente inviables) son muy sensibles a las condiciones iniciales de partida (véase la gráfica anterior).
  3. Luego se realizan ensembles, i.e., proyecciones partiendo de pequeñas variaciones de las situaciones iniciales, que luego se agregan de cierta manera (para más detalles, consúltese el libro Física del caos en la predicción meteorológica y, en particular, el capítulo 27).

Y ahora, las preguntas son:

Uso y abuso de los "embeddings"

La variable feota por excelencia de nuestra profesión es el código postal: es categórica, tiene miles de niveles, muchos son infrecuentes, etc. Así que cuando se inventaron los embeddings, hace la tira, se me ocurrió crear uno por defecto. Es decir, una representación en baja dimensión de esa variable que pudiera aplicarse a una variedad de modelos. Y así fue hasta que al cabo de unos minutos se me ocurrió que ya existía una, muy natural, en dos dimensiones, que difícilmente iba a poder ser batida por un constructo ciego a la realidad: latitud y longitud.