Acabo de subir a Youtube mi último vídeo:
En él analizo este hilo de Twitter en el que su autor describe un proyecto muy particular —heterodoxo— de ciencia de datos cuyo objetivo consiste identificar y prevenir la fuga de clientes. El hilo ha circulado todo lo viralmente que permite el tema y me ha parecido interesante sacarle un poco de punta.
(Por referencia, el enlace).
Pues no se sabe bien. Además, habrá quién pudiéndola haber averiguado, prefirió dejarse llevar por la intuición y errar. Pero volvamos a los hechos. Dado
En un país hipotético, las familias tienen críos hasta que nace el primer varón. En un año, en promedio, nacen:
— Carlos Gil Bellosta (@gilbellosta) December 10, 2017 la pregunta urgente es: ¿cuántos podrían haber conocido la respuesta? Suponiendo que el conocimiento de la respuesta es algo binarizable (¿lo es?
Si un día faltan 21.63 euros en caja se cuenta y se recuenta. Se revisan los tiques, se comprueban los pagos con tarjeta, se vuelven a sumar los pagos a proveedores, etc. Hasta que, con suerte, alguien encuentra algo y la diferencia se reduce a, digamos, 3.92 euros. Pero cuando la diferencia es de 2.15… se da por buena sin más.
Cuando el t-test da un p-valor de .058, se revisan los números, se reestudia la carga y manipulación de datos, se replantea si el caso 194 es o no un outlier, etc.
Finalmente, la Comunidad R Hispano dispone de una cuenta oficial en Twitter.
El anuncio público lo realizó Emilio López Cano, miembro de la junta de la asociación y que va a coordinar la cuenta con ayuda de otros voluntarios.
Os animo a seguir esa cuenta para estar al tanto de las novedades de la asociación en la que, como dice Emilio (en el enlace anterior), hay y va a seguir habiendo movimiento.
No es mío, pero sí una pequeña joya que merece la pena dar a conocer. Además de tener aquí, en mi bitácora-vademécum para futura referencia. Es este tutorial para el análisis de datos de Twitter realizado por Gastón Sánchez.
Tal y como quedaron establecidos hace 80 años los parámetros para determinar si una hipótesis es o no plausible —por no calificarla de significativa o, más malévolamente, publicable— sólo una de cada veinte lo serían.
Es un hecho que contrasta con la habilidad de los consultores que se dedican a esa labor tan difícil de acotar y que va desde la estadística a la minería de datos tocando otras áreas más o menos afines.