Logaritmo

¿Qué números admiten la distribución de Benford?

[Esta entrada es casi una caracterización de lo que promete el título. Quitarle el casi sería prolijo. Pero creo que casi, casi, se adivina de lo que sigue.]

Siempre que hablamos de distribuciones de probabilidad, somos muy conscientes de los requisitos y condiciones bajo las que aplican. Con una excepción: al hablar del manido Benford. En tales casos se suele argumentar de una manera un tanto mística. Y doblemente mística, como consecuencia, cuando toca explicar por qué en ciertos datos concretos no aplica.

¡Eh! ¡Atención a la media geométrica!

El insomnio y la serendipia me han hecho transitar por unas líneas en las que se lee:

A plausible guess is to use their arithmetic mean, which is roughly 150 people per square mile. However, the right method is the geometric mean:

$$ \text{best guess} = \sqrt{\text{lower endpoint} \times \text{upper endpoint}}.$$

The geometric mean is the midpoint of the lower and upper bounds—but on a ratio or logarithmic scale, which is the scale built into our mental hardware. The geometric mean is the correct mean when combining quantities produced by our mental hardware.

¿Admitirá finalmente el DLE la acepción "algoritmo" de "logaritmo"?

Estaba ayer todavía en la cama a una hora muy aristocrática cuando en RNE invitaron a un presunto experto en big data a hablar de quién sabe qué. Aquel pobre hombre habló sobre los problemas que plantean, en particular, los logaritmos. Cuando quería decir, claro, algoritmos.

No es la primera vez que lo oigo. Aunque sí la primera en un medio formal. Al menos, oral. Pero cualquier día vemos la ignorancia plasmada en negro sobre blanco, recogida por un lexicógrafo y elevada a categoría en forma de definición del DLE. Con las cocretas y demás.

Hoy, como excepción, gritaré y justificaré: ¡Malditos logaritmos!

Dados unos números positivos hay que justificar por que no tomar logaritmos y no al revés. La carga de la prueba recae sobre quien no lo hace.

No obstante:

Tenía unos datos (para cada $latex t$) que siguen (me lo juran) un modelo teórico

$$ \log y \sim k \exp(-at)$$

Existen dos opciones para encontrar los parámetros deseados $latex k$ y $latex a$. El primero, tomando logaritmos y aplicando lm. El segundo, ajustando un modelo no lineal con, p.e., nls.

Así se calculan los logaritmos de Zaragoza, se ve (y una reflexión)

Estoy en Zaragoza. He bajado a la biblioteca pública que tengo delante de casa y la que le dieron el nombre de aquel chileno de las alamedas. He curioseado lo que tenían de matemáticas y de entre los menos de cien volúmenes de la cosa,

Efectivamente, el libro trataba de lo que su lomo decía: eran tablas y más tablas de logaritmos de números, con sus añejos distingos entre las mantisas y eso otro que ya no recuerdo cómo se llamaba.

Una transformación (y segmentación) novedosa de variables (lognormaloides)

– La variable gasto tiene una distribución muy fea que tiene un impacto en el modelo. He optado por transformarla. – ¿Qué has hecho? – Bueno, verás: no es lo mismo que alguien gaste menos de un euro o que gaste más de cien. A los que gastan entre cero y uno les he dado el valor 0. – Vale. – Entonces, a los que gastan, digamos, entre 1 y 10, 1; luego, a los que gastan entre 10 y 100, 2. Porque no es lo mismo gastar 9 que 90, ¿no? – Claro. – Y así sucesivamente… a los que gastan entre 100 y 1000 euros, les he puesto un 3… – Para, para, para… ¡has tomado el logaritmo! – Eh, bueno, en realidad… log10(x+1)

¿Escalas logarítimicas? Puede, pero...

Encontré el otro día una entrada en la bitácora de Bissantz, una empresa alemana de herramientas de visualización y minería de datos que trataba sobre las ventajas y desventajas del uso de escalas lineales y logarítmicas en cierto tipo de gráficos. Y los ilustraba con un ejemplo que me hizo pensar si no habría algo más.

El gráfico malo, en escala lineal, es

que representa la evolución del PIB y la deuda estadounidense durante las últimas décadas y tiene una serie de carencias con respecto al gráfico de los mismos datos en escala logarítmica,