Odds = probabilidades

El otro día medio participé en una conversación en Twitter sobre el significado de los odds. Recientemente leí una entrada en la bitácora de un holandés que se quejaba de lo difícil que resulta encontrar un equivalente de esa palabra a su idioma. Pasa lo mismo en español: no existe una traducción directa; no existe, siquiera, el concepto. Sugiero traducir odds, y lo haré así a lo largo de la entrada, como probabilidades. Al igual que una temperatura puede expresarse en distintas escalas y medidas (Kelvin, Celsius, Fahrenheit), una misma probabilidad puede expresarse de distintas maneras. Estamos acostumbrados a representarlas como fracciones de la unidad, p.e., 0.25; pero esa misma probabilidad puede expresarse también como 3:1. ...

1 de septiembre de 2015 · Carlos J. Gil Bellosta

Golpes de suerte

Rescato para el día de hoy los dos primeros párrafos de un artículo de Ignacio Vidal-Foch. Tiene más, pero menos interesante en nuestro contexto. Son: La vida —por lo que de ella he alcanzado a ver— es rigurosamente moral. Es como las fábulas, donde la hormiguita sumisa y laboriosa que aprovecha el buen tiempo para acarrear y almacenar comida, cuando llegue el invierno sobrevivirá, mientras que la cigarra despreocupada que se pasa el verano cantando y tocando el ukelele sucumbirá a la primera helada. La organización social es un complejo esfuerzo para pautar la vida y excluir de ella el azar; de ahí instituciones como las compañías de seguros, la policía, la sanidad pública y la jubilación, o la herencia, con la que los padres quieren proteger a sus vástagos de la incertidumbre y que estos suelen recibir como algo natural y merecido, y no como lo que es, una arbitrariedad que habría que ilegalizar en nombre del principio de la igualdad de oportunidades. ...

31 de agosto de 2015 · Carlos J. Gil Bellosta

Todos los errores son iguales, pero algunos son más iguales que otros

Por eso, en la práctica, el RMSE y similares son irrelevantes. Aunque eso, desgraciadamente, no quiere decir que no sean utilizados. Pero en muchas ocasiones no es el error medio la medida importante. A menudo, uno quiere detectar outliers: una variable de interés tiene un comportamiento normal la mayor parte del tiempo; pero en ocasiones, en raras ocasiones, cuando supera determinado umbral, produce catástrofes. Dejarse guiar por el RMSE (o similares) generaría una peligrosa sensación de seguridad: detectaría la normalidad; pero la la anormalidad, lo verdaderamente interesante, le resultaría inasequible. ...

28 de agosto de 2015 · Carlos J. Gil Bellosta

Tres monedas y un argumento falaz

Tiras tres monedas. ¿Cuál es la probabilidad de obtener tres valores (cara o cruz) iguales? Es, lo sabemos todos, 0.25: de las ocho opciones posibles, solo dos cumplen. Ahora, el argumento falaz —dizque de Francis Galton— que prueba que dicha probabilidad es de 0.5. Es así: de las tres monedas, dos tienen que coincidir necesariamente en valor; entonces la tercera, con probabilidad 0.5, coincidirá con los anteriores y con la misma discrepará. ...

27 de agosto de 2015 · Carlos J. Gil Bellosta

Estar en racha (y promediar promedios)

Suponemos que observamos rachas de longitud 2 + rpois(1, 10) de un juego en el que se tiene éxito (1) o se fracasa (0) con probabilidad 1/2. Nos interesa saber si existe eso de las rachas de suerte, es decir, si es más probable que a un éxito le suceda otro o lo contrario. El observador ve rachas y calcula el número de veces que a un éxito le sigue un éxito y el número de veces que a un éxito le sigue un fracaso así: ...

10 de agosto de 2015 · Carlos J. Gil Bellosta

Una paradoja que no me parece paradójica, la de Bertrand, y una pregunta

La paradoja de Bertrand se formula así: tómense una cuerda al azar en una circunferencia; ¿cuál es la probabilidad de que sea más larga que el lado del triángulo equilátero inscrito? Bertrand resolvió el problema de tres maneras distintas obteniendo tres resultados distintos: 1/2, 1/3 y 1/4. ¿Es eso una paradoja? La paradoja es consecuencia de que no existe una definición única de cuerda al azar, algunas de las cuales acaban dando más peso a cuerdas más largas y otras menos. En resumen, hay varias maneras razonables de muestrear cuerdas de circunferencias y los resultados pueden ser distintos. ...

7 de agosto de 2015 · Carlos J. Gil Bellosta

Dos análisis y una pregunta

El primero: Crece la productividad: Para el conjunto del año 2015 la economía crecerá cerca del 3,5%. Estos datos muestran que está aumentando la productividad, es decir, mientras la economía española crece a ritmos cercanos al 3,5% anual, el empleo lo está haciendo al 3%. Rafael Pampillón Olmedo. Expansión, 24 de julio de 2015 (enlace) El segundo: La productividad se estanca: Tal como publicó el INE este jueves en tasa anual durante el segundo trimestre de este año, la economía creció un 3,1%. Sin embargo, mientras la economía creció en los últimos doce meses un 3,1%, el empleo lo hizo en un 3%. ...

6 de agosto de 2015 · Carlos J. Gil Bellosta

"Quién es Quién del Big Data en España 2015" y yo

Me confiman que figuro en el Quién es Quién del Big Data en España 2015. Aprovecho para agradecer encarecida y públicamente la gentileza de los autores del estudio.

5 de agosto de 2015 · Carlos J. Gil Bellosta

¿Estamos todos anuméricos o qué?

Este es el número (por año) de condenados por provocar incendios forestales en España (según Civio): Según la misma página, en esos años ha habido 223.783 incendios forestales, de los cuales el 55% fueron intencionados. Pero a nadie se le ocurre criticar a Civio y acusarlo de [incluye aquí tu acusación de incorrección política favorita] por publicar esas cifras bajo la premisa de que solo pueden catalogarse como intencionados el 0.369% de ellos (número de condenados entre número total de incendios). ...

4 de agosto de 2015 · Carlos J. Gil Bellosta

Ajuste de probabilidades en regresiones logísticas bajo sobremuestreo ( y otros)

En ocasiones, el conjunto de datos sobre el que se ajusta una regresión logística está desequilibrado con respecto a la población subyacente. Por ejemplo, puede suceder que la tasa de casos positivos en los datos sea del 20% mientras que en la población general es del 5%. Esto puede suceder por varios motivos. El sobremuestreo es uno de ellos: se sobremuestrea cuando se toman, por ejemplo, todos los casos positivos y solo un subconjunto de los negativos. ...

3 de agosto de 2015 · Carlos J. Gil Bellosta