Teruel, Orense, Palencia... y adenoidectomías

Quien haya recorrido Teruel, Orense, Palencia, la zona de Almadén y otras partes del interior de España abandonadas a su suerte desde hace siglos no habrá visto demasiado crío. Me acabo de enterar que a lo que se conoce como operar de vegetaciones recibe el nombre de adenoidectomía. Y he visto el mapa en Nada es Gratis. Me ha dado por pensar si los autores (del gráfico) estuvieron atentos a mi bitácora cuando escribí esto. ...

14 de junio de 2013 · Carlos J. Gil Bellosta

Vídeo de mi charla en el Taller InnovaData de periodismo de datos

Ayer, tal y como anuncié el otro día, participé en el Taller InnovaData de periodismo de datos. El vídeo de mi intervención (a partir del minuto 2:02:00 aproximadamente) puede verse en Las diapositivas de la charla (que en el vídeo, desgraciadamente, son, por así decirlo, asíncronas) pueden descargarse aquí.

29 de mayo de 2013 · Carlos J. Gil Bellosta

El error en las encuestas: cuentas en una servilleta

Bien escondidita en las encuestas que se publican, puede encontrarse a veces una ficha técnica. Y esta suele contener una frase de esta guisa: Partiendo de los criterios del muestreo aleatorio simple, para un nivel de confianza del 95 % (que es el habitualmente adoptado) y en la hipótesis más desfavorable de máxima indeterminación (p=q=0.5), el margen de error de los datos referidos al total de la muestra es de 3.2 puntos. ...

16 de mayo de 2013 · Carlos J. Gil Bellosta

Más sobre la ley de Benford (III): la "mágica" propiedad de los logaritmos decimales

Esta entrada tiene como prerrequisito las dos que la preceden: esta y esta. Si $x_1, \dots, x_n$ es una muestra de una distribución de probabilidad $X$ regular y extendida, entonces $\log_{10}x_1, \dots, \log_{10}x_n$ es una muestra de $\log_{10}X$, que es otra distribución de probabilidad regular (porque el logaritmo es una función creciente) y extendida (aunque hay que convenir que menos: el logaritmo achica los números grandes). Por lo tanto, cabe esperar que también la parte decimal de $\log_{10}x_1, \dots, \log_{10}x_n$ tenga una distribución uniforme sobre el intervalo [0,1). Luego cumple la Ley de Benford (véase la condición suficiente). Esto se debe a esa (¿contraintuitiva?) propiedad del logaritmo decimal: convertir el dígito más significativo de un número, el primero, en la parte menos significativa de su logaritmo, la que sigue a la coma. ...

10 de mayo de 2013 · Carlos J. Gil Bellosta

Más sobre la ley de Benford (II): la distribución de la parte fraccionaria

Continuamos hoy nuestra serie sobre la llamada ley de Benford discutiendo la distribución de la parte fraccionaria de las muestras de una distribución. La parte fraccionaria de un número es, para entendernos, lo que va detrás de la coma. Técnicamente, x - floor(x). ¿Le sorprendería a alguien la parte fraccionaria de una secuencia aleatoria de números no tenga una distribución uniforme sobre [0,1)? Obviamente, si los números son enteros no. ¿Pero si siguen la distribución normal? Se puede probar, de hecho, que si la serie sigue una distribución de probabilidad que sea ...

3 de mayo de 2013 · Carlos J. Gil Bellosta

Por qué no deberías compartir tu código: diez motivos

Fresco aún en nuestro recuerdo el fiasco de Excel del que nos ocupamos hace unos días, los partidarios de la reproducibilidad, el software subversivo y gratuito, los detractores de las herramientas propietarias y otras estirpes han agudizado su campaña en pro de lo que denominan una mayor transparencia en el proceso de creación científica. Como contrapeso a tanto despropósito, traigo a la consideración de mis lectores una visión alternativa que desnuda los desatinos de la caterva y recoge diez motivos incontestables por los que compartir código es una sinrazón. Es obra de Randall J. LeVeque que puede ser consultada como artículo o, para los impacientes, como presentación.

30 de abril de 2013 · Carlos J. Gil Bellosta

¿Leemos "Analyzing Linguistic Data" juntos?

Victor Peinado y yo estamos organizando un grupo de lectura. Junto con quienes se nos sumen, vamos a ir leyendo el libro Analyzing Linguistic Data: A practical introduction to Statistics, que trata de: R (instalación, gráficos, etc.) Métodos estadísticos con R (modelos lineales, clústering, clasificación, modelos mixtos) Lingüística (que es el contexto en el que se aplica lo anterior). La participación en este grupo está indicada para quienes tengan interés en las aplicaciones lingüísticas de la estadística (y de R, por supuesto). Y muy particularmente para esos lingüistas que se han encontrado con que su disciplina (o grandes partes de ella), cada vez más, está dejando de ser de letras. ...

24 de abril de 2013 · Carlos J. Gil Bellosta

Más sobre la ley de Benford (I): una condición suficiente

Las circunstancias —frente a las que soy dócil como el que más— me conducen a escribir de nuevo sobre la Ley de Benford. En concreto, voy a traer a la atención de mis lectores una condición suficiente para que se cumpla. Y de ella extraeremos conclusiones tal vez sorprendentes en sucesivas entradas de la serie que con esta inicio. Dado un número (p.e., 1234), lo podemos descomponer en dos: una potencia de 10 y otro entre 0 y 10: ...

16 de abril de 2013 · Carlos J. Gil Bellosta

"Tu tasa de paro" en Medialab Prado

El martes (2013-04-15 en formato ISO 8601) participaré en el II Barcamp de Periodismo de Datos en Medialab Prado de 5:00 a 8:00 de la tarde. Hablaré de Tu Tasa de Paro, proyecto del que ya hablé en otra ocasión. Y aprovecharé, claro está, para promocionar R y, en particular, el paquete MicroDatosEs. ¡Estáis invitados!

15 de abril de 2013 · Carlos J. Gil Bellosta

Un plan de acción para extender el ámbito de la estadística

Ya es un poco viejo: tiene 12 años. Pero su contenido es de lo más actual. Se trata de un artículo de Cleveland titulado Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics que se plantea extender el ámbito de acción de la estadística (tradicional) a nuevas áreas (emergentes entonces) y cuyo objetivo es definir un conjunto de contenidos que deberían conformar el bagaje del analista de datos (hoy lo llamaríamos científico de datos o data scientist). ...

9 de abril de 2013 · Carlos J. Gil Bellosta