¿Cuántos ancestros tenemos realmente? ¿De dónde vienen?

Es oportuno revisar la entrada Where did your genetic ancestors come from?, que discute la cuestión de cuántos ancestros tenemos realmente (respuesta breve: muchos menos de los que nos hace creer la cuenta que echamos en la servilleta), su diversidad geográfica (posiblemente, mucho menor de la esperada), etc.

El quid de la cuestión radica en la distinción entre ancestros genealógicos y genéticos. Todos tenemos $2^n$ ancestros genealógicos —supuesto que no haya solapamientos— en nuestra $n$-ésima generación precedente, pero solo son propiamente ancestros genéticos una pequeña fracción de ellos (cuando $n$ es lo suficientemente grande). En concreto,

Casi todo sobre el ACOS

Alguien vende cachivaches en internet por, p.e., Amazon. El cachivache se vende, digamos, por 10 y Amazon se queda, por ejemplo, con 1. Se ha dado en llamar ACOS a la fracción 1 / 10; de otra manera, al cacho que Amazon se queda de cada compra.

¿A través de qué mecanismo detrae Amazon el ACOS? La cosa es, en términos resumidos, así:

  • El vendedor entra en una puja. Puede decir algo así como que si alguien busca “cachivaches” en Amazon, está dispuesto a pagar hasta 20 céntimos para que Amazon muestre su producto.
  • Si un potencial cliente busca “cachivaches”, Amazon le muestra los productos de los proveedores que más hayan pujado por ese término.
  • Si el cliente clica en el anuncio, Amazon se autoingresa el importe de la puja (nota: realmente, es un tipo de puja que, se ve, se llama de Vickrey donde no se paga el precio de la puja sino el segundo mejor precio) haya o no venta posterior.
  • El cliente puede terminar comprando el producto o, en el caso más habitual, no haciéndolo.

Una de las preocupaciones de los vendedores es mantener el ACOS bajo control. Porque algunos que dejarán de existir pronto soportan ACOS de más del 100%. Lo sé porque lo he visto.

Chocolatada informacional

Supongamos que el vector $u$ codifica cierta información A y el vector $v$ (de la misma dimensión), la información B. Hay quien sostiene que, entonces, el vector $u + v$ codifica simultáneamente A y B. En esta entrada voy a demostrar que la afirmación anterior es falsa. Luego, también, que es cierta. Terminaré explicando por qué el asunto es relevante.

Que es falsa es obvio: si $u$ y $v$ tienen dimensión 1, $u = 2$ y $v = 3$, a partir de la suma $u + v = 5$ es imposible recomponer los vectores originales.

Organización de proyectos... ¿viejuna?

I.

Este blog tiene muchos años. Cuando comencé a escribir en él, la gestión de proyectos de ciencia de datos era un carajal. Muchos de los que se dedicaban a esto organizaban los proyectos en plan TFG: ficheros y tablas con nombres de andar por casa, desorden, código que viajaba en correos electrónicos,…

Muchos eran renuentes a utilizar herramientas de control de versiones. Por aquel entonces reinaba —cuando se utilizaba, que era la excepción más que la regla— subversion. Tanto git como Github eran todavía más promesas que otra cosa. Había forjas —¡se ve que todavía existe R-forge!—, que era lo mejorcito con lo que se podía contar para trabajar colaborativamente, pero solo con los cuatro friquis que estaban dispuestos a adoptar métodos de trabajo modernos. A los más les incomodaba tener que abandonar sus mal adquiridos hábitos.

¿Qué precio debería tener una hora de GPU?

Advertencia previa: esta entrada está plusquamcondicionada por la fecha de publicación. Quien aterrice en ella meses o años después, habrá de saber que lo que sigue únicamente tiene, tirando por alto, interés paleontológico.

Alguna vez, para mis experimentos, he alquilado una GPU —técnicamente, he contratado una instancia con GPUs—. Por razones que no vienen al caso, —y esto no es una recomendación de compra— mi proveedor habitual para estas cosas es OVH y los precios de las distintas opciones que ofrece pueden consultarse aquí.

Basta una línea para mejorar tus mapas; pero, ¿cuál?

R

A la vista de los mapas

pocos habrán que no prefieran el de la derecha. Los mapas están extraídos de la entrada Improve your maps in one line of code changing map projections, cuyo título ha sido elegido muy acertadamente en tanto que los mapas han sido construidos usando

gd_n2_main_laea <- gd_n2_main %>%
    st_transform(crs = 3035)

a <- gd_n2_main %>%
    ggplot() +
    geom_sf(fill = "#F48FB1", color = NA)+
    geom_sf(data = bord, color = "#C2185B", size = .5)+
    coord_sf(crs = 3857)

b <- gd_n2_main_laea %>%
    ggplot() +
    geom_sf(fill = "#DCE775", color = NA)+
    geom_sf(data = bord, color = "#AFB42B", size = .5)

library(patchwork)

a + b + plot_annotation(tag_levels = "A")

y, por lo tanto, solo difieren en la línea

Aprendizaje por refuerzo: ¿Q o no Q?

Esta entrada está motivada por mis cavilaciones alrededor de un potencial futuro proyecto de Circiter. Es posible que por primera vez tengamos que recurrir a técnicas de aprendizaje por refuerzo y quiero aprovechar para dejar por escrito algunas cuestiones al respecto. En particular, algunas potenciales simplificaciones con respecto a la teoría general que, afortunadamente, aplicarían a nuestro caso particular.

En lo que sigue voy a dar por sabidos conceptos básicos sobre el aprendizaje por refuerzo que casi nadie conoce pero que están a un click de distancia del cerebro de cualquiera.

¿Se encoge el cerebro de los hombres cuando tienen un su primer crío?

Si uno atiende a lo que dicen los medios, diríase que sí. El runrún mediático está motivado por la publicación del estudio First-time fathers show longitudinal gray matter cortical volume reductions: evidence from two international samples al que no tengo acceso ni siquiera oblicuamente (i.e., vía Sci-Hub), pero cuyo resumen traduce ChatGPT así:

Las evidencias emergentes señalan la transición a la paternidad como una ventana crítica para la plasticidad neural en adultos. Estudiar a los padres brinda una oportunidad única para explorar cómo la experiencia de la paternidad puede dar forma al cerebro humano cuando el embarazo no se experimenta directamente. Sin embargo, muy pocos estudios han examinado las adaptaciones neuroanatómicas de los hombres que pasan a la paternidad. El presente estudio informa sobre una colaboración internacional entre dos laboratorios, uno en España y otro en California (Estados Unidos), que han recopilado prospectivamente datos de neuroimagen estructural en 20 futuros padres antes y después del nacimiento de su primer hijo. La muestra española también incluyó un grupo de control de 17 hombres sin hijos. Probamos si la transición a la paternidad implicaba cambios anatómicos en el volumen, grosor y área cortical cerebral, y en los volúmenes subcorticales. Encontramos tendencias superpuestas de reducción del volumen cortical dentro de la red de modo predeterminado y las redes visuales, y la preservación de las estructuras subcorticales en ambas muestras de padres primerizos, lo cual persistió después de controlar la edad de los padres y los niños en la exploración postnatal. Este estudio proporciona evidencia convergente de cambios estructurales corticales en los padres, respaldando la posibilidad de que la transición a la paternidad pueda representar una ventana significativa de plasticidad neuroestructural inducida por la experiencia en los hombres.

En defensa del futuro del subjuntivo

Compárense las tres frases:

  1. Quien llegue primero a meta recibirá…
  2. Quien durante la carrera caiga al río…
  3. Quien durante la carrera cayere al río…

Las dos primeras son fácilmente comprensibles por el lector de hoy en día. Pero existe una sutil diferencia entre ambas:

  • En la primera, se da prácticamente por seguro que alguien llegará a meta. Debería suceder una catástrofe (¿que todos los participantes se precipitasen en el río?) para que ninguno llegue a meta.
  • En la segunda se atiende una circunstancia hipotética: puede que alguien caiga al río, pero es bastante probable que no le suceda a nadie.

Ese matiz —relacionadísimo con la incertidumbre— es el que recoge la tercera frase si se da por bueno lo que cuentan las gramáticas viejunas. Indica lo que habrá de suceder en el improbable y no necesario caso de que alguien caiga al río.

El "teorema" sobre las sumas de lognormales no es solo falso sino que, además, es innecesario (en muchos casos)

I.

Hace un tiempo, reproduje el enunciado del siguiente teorema:

La suma de lognormales (independientes y con parámetros similares) es lognormal.

El teorema no es cierto. No puede serlo tanto por motivos teóricos como meramente empíricos. Es fácil

  1. tomar 3000 muestras de una lognormal con parámetros cualesquiera,
  2. sumarlos por tríos para obtener 1000 muestras $x_i$ de su suma,
  3. ajustar la mejor lognormal que se ajusta a ellos (pista: si se usa MV, los parámetros ajustados son la media y la desviación estándar de $\log x_i$),
  4. comparar las dos muestras (p.e., vía qqplots).

II.

Pero sí que es cierto que:

Hoy, y sin que sirva de precedente, voy a hablar de economía y política

Aunque, por supuesto, en términos abstractos y con, a lo más, una muy tenue relación con hechos de la más rabiosa actualidad en la fecha en que esto se redacta.

Economía

En una sociedad limitada, las decisiones las tienen, en última instancia, los accionistas: la empresa hace lo que decide el +50% del capital social. Así que alguien puede crear una empresa con un capital de $3000 + \epsilon$ euros y usar sus recursos para adquirir una mayoría de control en una de un capital de $6000 + \epsilon / 2$ euros. Luego usar esta para controlar una de $12000 + \epsilon / 4$ euros, etc. y en cierto número de iteraciones, acabar cortando el bacalao en, digamos, Inditex.