Estar en racha (y promediar promedios)

Suponemos que observamos rachas de longitud 2 + rpois(1, 10) de un juego en el que se tiene éxito (1) o se fracasa (0) con probabilidad 1/2. Nos interesa saber si existe eso de las rachas de suerte, es decir, si es más probable que a un éxito le suceda otro o lo contrario.

El observador ve rachas y calcula el número de veces que a un éxito le sigue un éxito y el número de veces que a un éxito le sigue un fracaso así:

Una paradoja que no me parece paradójica, la de Bertrand, y una pregunta

La paradoja de Bertrand se formula así: tómense una cuerda al azar en una circunferencia; ¿cuál es la probabilidad de que sea más larga que el lado del triángulo equilátero inscrito?

bertrand

Bertrand resolvió el problema de tres maneras distintas obteniendo tres resultados distintos: 1/2, 1/3 y 1/4. ¿Es eso una paradoja?

La paradoja es consecuencia de que no existe una definición única de cuerda al azar, algunas de las cuales acaban dando más peso a cuerdas más largas y otras menos. En resumen, hay varias maneras razonables de muestrear cuerdas de circunferencias y los resultados pueden ser distintos.

Dos análisis y una pregunta

El primero:

Crece la productividad: Para el conjunto del año 2015 la economía crecerá cerca del 3,5% Estos datos muestran que está aumentando la productividad, es decir, mientras la economía española crece a ritmos cercanos al 3,5% anual el empleo lo está haciendo al 3%.

Rafael Pampillón Olmedo. Expansión, 24 de julio de 2015 (enlace)

El segundo:

La productividad se estanca: Tal como publicó el INE este jueves en tasa anual durante el segundo trimestre de este año, la economía creció un 3,1%. Sin embargo, mientras la economía creció en los últimos doce meses un 3,1% el empleo lo hizo en un 3%.

¿Estamos todos anuméricos o qué?

Este es el número (por año) de condenados por provocar incendios forestales en España (según Civio):

condenados_incendios

Según la misma página, en esos años ha habido 223.783 incendios forestales, de los cuales el 55% fue intencionado.

Pero a nadie se le ocurre criticar a Civio y decirle que es [incluye aquí tu acusación de incorrección política favorita] por dar esas cifras y alegar que solo pueden catalogarse de intencionados el 0.369% de ellos (número de condenados entre número total de incendios).

Ajuste de probabilidades en regresiones logísticas bajo sobremuestreo ( y otros)

En ocasiones el conjunto de datos sobre el que se ajusta una regresión logística está desequilibrado con respecto a la población subyacente. Por ejemplo, puede suceder que la tasa de casos positivos en los datos sea del 20% mientras que en la población general es del 5%.

Esto puede suceder por varios motivos. El sobremuestreo uno de ellos: se sobremuestrea cuando se toman, por ejemplo, todos los casos positivos y solo un subconjunto de los negativos.

Aterrizando en Londres: una frase para meditar

Estaré aterrizando en Londres cuando se publique esta entrada. Circunstancia que me hace recordar una frase que leí hace un tiempo:

El empleo barato creado [en el RU] atrae a miles de parados del continente a un país con una legislación laboral flexible y sindicatos debilitados, que tolera abusos como los muy extendidos “contratos de cero horas”.

¿Soy solo yo al que le chirría? ¿Por qué querrán miles de parados del continente tomar tal vez el mismo EasyJet que yo para tener que tolerar abusos?

Explorando la desigualdad en Medialab-Prado

Hay una convocatoria abierta en Medialab-Prado para proponer (primero) y desarrollar (más tarde) proyectos que exploren la desigualdad.

Los detalles están en el enlace anterior pero traslado aquí los más urgentes:

  • Los talleres se desarrollarán del 23 al 25 de octubre y del 11 al 13 de diciembre de 2015.
  • La convocatoria está abierta del 15 de julio al 15 de septiembre.

Supongo que conocéis el chiste del estadístico y el pollo: que si una persona se come uno y otra ninguno, vendrá aquel y dirá que ambos comieron [en promedio] medio. Esta es una ocasión en que podemos reivindicar lo contrario y aportar nuestra experiencia al respecto.

Mis respuestas en una entrevista sobre "big data", periodismo de datos, etc.

Aunque no hay una definición exacta sobre la minería de datos… ¿cómo definiría usted Big Data?¿Qué herramientas utiliza usted para la búsqueda de datos? (públicas o privadas)

Dicen los marxistas –aunque el concepto es anterior– que un cambio cuantitativo, a partir de cierto umbral, desencadena un cambio cualitativo. Las empresas, las instituciones públicas, etc. siempre han almacenado y estudiado estadísticamente datos a nivel de subsidiaria, departamento, provincia, oficina, región, producto, etc. Solo recientemente han visto que es técnicamente posible estudiar sus datos a nivel de individuo (ciudadano, cliente, etc.). Eso ha implicado que el tamaño de los conjuntos de datos han crecido (ahí el cambio cuantitativo) en varios órdenes de magnitud (¿tres? ¿cuatro?). El cambio cualitativo concomitante es lo que llamamos big data.