Julia, un nuevo lenguaje para la programación científica

No sé si conocéis Julia, un lenguaje de programación orientado al cálculo científico. Os dejaré echarle un vistazo a su página. ¿Ya? Bueno, pues estoy un poco enfadado con ellos. Me pasa un poco como a los catalanes que se quejaban de que en las fotos de ABC siempre sacaban a Jordi Pujol (todavía más) feo (de lo que por sí era): en las comparaciones no le hacen excesiva justicia a R. Me he tomado la molestia de reescribir el código para una de las comparaciones que realizan, pi_sum, utilizando código vectorizado. ...

28 de febrero de 2012 · Carlos J. Gil Bellosta

Desconfianza en la estadística pública Argentina

Pasé recientemente unas semanas en Argentina. Abundan las razones para que todos hiciesen eso alguna vez en la vida. Aproveché para descansar de muchas cosas. Y muy especialmente de ese leísmo rampante y agotador que viene últimamente caracterizando al español peninsular. Tuve ocasión de hablar de política. De la de acá y de la de allá. Me preguntaron por mi opinión por la K, es decir, el matrimonio Kirchner que controla la política nacional desde hace casi diez años. Honestamente, encuentro los modos de los políticos argentinos —y muy especialmente los de su presidenta— demasiado teatrales, dramáticos, conmovedores. Y no es mi estilo, aunque reconozco que es una mera cuestión de formas. ...

27 de febrero de 2012 · Carlos J. Gil Bellosta

Estoy muy de acuerdo con la CEOE...

… cuando dice que hay que ver qué pasa y analizar las estadísticas. En lo demás, no lo sé (ni lo pienso decir aquí). Pero traigo el asunto a colación porque hace un par de días hablé, un tanto extemporáneamente, sobre desempleo y subsidios. Y uno de mis lectores hizo un comentario del que extraigo No me gusta, no me gusta que se insinúe siempre que “España está llena de listos, que agotan el paro porque les sale mejor que trabajar”. ...

24 de febrero de 2012 · Carlos J. Gil Bellosta

Higiene numérica para periodistas

De la bitácora de Getstats y a través de un enlace publicado por Alberto Cairo en su cuenta de Twitter, he llegado a lo que los periodistas deberían saber (para informar correctamente cuando el asunto tiene tintes cuantitativos). Proporciona un enlace a un documento que me tomo la libertad de traducir aquí. Se trata de una lista con los siguientes doce consejos: Si tropiezas con un número en una historia o comunicado de prensa, ten cuidado. Antes de darlo por bueno, pregúntate quién lo proporciona, cuáles son sus credenciales, si puede estar tratando de venderte algo. ¿Con qué otra evidencia se cuenta? ¿Cuáles son los números que no se muestran? ¿Por qué ese número precisamente ahora? Si el número procede de un estudio o de una investigación, ¿cuenta con visto bueno de algún experto de garantía? Husmea. ¿El número se refiere a una muestra? ¿A la población entera? En el primer caso, ¿la muestra se ha extraído adecuadamente? ¿Es representativa de la población? Profundiza. ¿Qué fue lo que se preguntó exactamente? La manera en que se formula una pregunta influye enormemente en la respuesta. Lo que se entiende por “tener trabajo” o “crimen violento” varía de persona a persona. Lo que la gente entiende puede no ser lo mismo que pensaba quien diseñó la encuesta. Para compendiar resultados pueden utilizarse distintos criterios. Por ejemplo, la media, que es altamente sensible a los valores extremos (la fortuna de Amancio Ortega incrementa el patrimonio _medio _de los españoles en unos 400 euros), pero también la mediana o la moda, con efectos distintos. La incertidumbre existe. Tenemos que estar seguros de la cifra obtenida no es efecto de la casualidad. Si se trata de una muestra, comprueba el margen de error, el ±3% que generalmente indican las compañías más serias. Si se dice en tal caso que el 52% de la muestra apoya X, el valor verdadero podría ser igualmente del 49%. Desconfía de los rankings, excepto los deportivos: el Real Madrid está por encima del Real Zaragoza por un buen motivo: ha obtenido más puntos en la liga. Pero la comparación de escuelas u hospitales es problemática y una escala simple podría no ser el instrumento adecuado: por ejemplo, un determinado hospital puede parecer peor, pero que suceda así porque recibe enfermos más graves. La comparación entre universidades o fuerzas policiales puede resultar no significativa si la diferencia entre puntuaciones es menor que el margen de error: si A obtiene 500 puntos y B 555, con un margen del error ±3% no puede decirse que A sea peor que B. Puede que los números indiquen una variación. Sin embargo, un solo cambio no significa una tendencia. Los saltos suceden a menudo. De suceder, podemos preguntarnos si obedecen a una recuperación o vuelta a la normalidad después de un salto en previo en la dirección opuesta (lo que algunos llaman regresión a la media). Si los números proceden de una encuesta, ¿excede el cambio el margen de error? De no realizarse un experimento controlado, (como los ensayos clínicos para estudiar el efecto de los nuevos medicamentos), es muy difícil poder afirmar que A causa B : los números pueden mostrar una asociación (una correlación) entre dos cosas como, por ejemplo, entre la obesidad y el cáncer. Pueden aparecer conexiones espurias debidas a un tercer factor no observado. El que los niños que usan teléfonos móviles presenten ciertos trastornos de conducta puede deberse a sus padres, cuyo comportamiento afecta a ambas cosas. Si los números sugieren una asociación, lo importante es evaluar su plausibilidad utilizando información adicional. El encontrar una posible causa puede estimular la investigación pero no debería ser utilizado para impulsar determinado tipo de políticas, por ejemplo. Tampoco se deben realizar recomendaciones sobre el consumo de ciertos alimentos basadas en presuntas asociaciones entre ellos y determinadas dolencias. Una pregunta clave es “¿de cuántos?”. Algunos sucesos son inusuales, como la muerte de un niño, y por eso son noticia. Pero tienen que considerarse en su contexto. La improbabilidad de un suceso es una medida de su relevancia como noticia. Pero es necesario distinguir lo que resulta importante para una determinada familia de lo que afecta al interés general. Los millones y los miles de millones son cifras difíciles de comprender si no se humanizan comparándolas, por ejemplo, con el país entero o mostrando su efecto sobre cada persona. Ciertas descripciones pueden ayudar a comprender el riesgo: es tan peligroso hacer un viaje de 100 km en moto como operarse con anestesia general. Una buena información debe ofrecer una visión equilibrada entre las cifras a las que se refiere. Es mejor centrarse en el número más probable que en los más extremos. Por ejemplo, en las historias sobre los efectos de una epidemia de gripe, en lugar de fórmulas como podría llegar a alcanzar valores tan altos como… son preferibles las del tipo _es improbable que exceda… _. Como los números pueden ser malinterpretados, es preferible eliminar el sesgo. El riesgo es arriesgado. Por ejemplo, la frase comer panceta diariamente aumenta el riesgo de llegar a padecer cáncer de intestino en un 20% viene a decir lo mismo que de cada 100 personas que comen panceta diariamente, una más acabará sufriendo cáncer en el intestino. Pero la primera es alarmista e inexacta. De estar disponible, es conveniente expresar la información en términos del número de afectados por cada cien o cien mil personas. Los medios digitales permiten mostrar datos de manera más dinámica e imaginativa. En cualquier caso, siempre hay que preguntarse: ¿son claros los gráficos? ¿Cuentan la misma historia que el texto?

23 de febrero de 2012 · Carlos J. Gil Bellosta

Desempleo, incentivos y geometría

En un país hipotético, E, tienen un mecanismo de protección social que garantiza a los desempleados un subsidio consistente en nueve mensualidades de 100 euros (por simplificar). En este país viven cuatro ciudadanos, A, B, C y D: A pierde su trabajo pero es diligente y capaz y encuentra otro al cabo de 5 meses. Recibe 500 euros de subsidio. B pierde su trabajo y tarda 15 meses en encontrar otro. Recibe 900 euros de subsidio. C pierde su trabajo y decide no buscar otro hasta agotar la prestación: con su guitarra y algunas chapuzas que le salen, vive. Recibe 900 euros. D trabaja y tiene envidia de C. Piensa que por 150 euros haría lo mismo que él. Pero no por 100. Al gobierno de E se le ocurre lo siguiente: pagar un subsidio de 180 euros el primer mes, 160 el segundo y 200 - 20 * n, el enésimo, es decir, ...

22 de febrero de 2012 · Carlos J. Gil Bellosta

Artículos interesantes en la bitácora de un colega

Me envía Guillermo Córdoba, de Unica360, una selección de entradas de su bitácora que, creo, serán también del interés de mis lectores: Análisis RFM en retail. Empezando a segmentar clientes (I) Micromarketing y predicción de demanda ¿cuánto gastan en libros? Buzoneo segmentado, analizando el retorno de la campaña Cuadro de mando geográfico. BI y geomarketing en un click ¡Buena lectura!

21 de febrero de 2012 · Carlos J. Gil Bellosta

Entrevista con los promotores de RUGBCN

La serendipia me llevó a toparme con el RUGBCN, es decir, el grupo de usuarios de R de Barcelona. Me puse en contacto con ellos y Lluis Ramon ha tenido la gentileza de ofrecerse a responder una serie de preguntas mías que espero que, por un lado, animen a los usuarios de R de BCN a acercarse a las reuniones y, por otro, sirvan de estímulo para la creación de grupos de usuarios similares en otros lugares. ...

20 de febrero de 2012 · Carlos J. Gil Bellosta

Estrenos con ecos estadísticos (I): Moneyball

Mi extemporáneo periodo vacacional me ha dado, entre otras cosas, para ver dos películas en las que resuenan claros ecos relacionados con la estadística. La primera de ellas es Moneyball, basada en el libro homónimo. Cuenta la historia de un equipo de béisbol con escasos recursos que utiliza técnicas estadísticas —desafiando así los inveterados procedimientos subjetivos de los ojeadores— para identificar y fichar a los jugadores adecuados para alcanzar el objetivo último del deporte: ganar. ...

17 de febrero de 2012 · Carlos J. Gil Bellosta

Virguería con R

A la pregunta, tal vez con una formulación mejorable de un usuario de la lista de R, sobre cómo representar una distribución normal bivariada con correlación 0.5 en 3D di ayer esta solución: library(mvtnorm ) x <- y <- -20:20 / 10 z <- matrix(0, length(x ), length(y ) ) m <- c(0,0) sigma <- matrix(c(1, 0.5, 0.5, 1 ), 2 ) for(i in 1: length(x ) ) for(j in 1:length(y ) ) z[i,j] <- dmvnorm(c(x[i], y[j] ), c(0,0), sigma ) persp(x, y, z ) No obstante, la solución alternativa de Carlos Ortega es toda una virguería que merece ser reproducida en estas páginas: library(fMultivar) library(rgl) x = (-40:40)/10 X = grid2d(x) z = dnorm2d(X$x, X$y, rho = 0.5) Z = list(x = x, y = x, z = matrix(z, ncol = length(x))) open3d() bg3d("white") material3d(col="black") persp3d(Z$x, Z$y, Z$z, aspect=c(1, 1, 0.5), col = "lightblue", xlab = "X", ylab = "Y", zlab = "Z") play3d(spin3d(axis=c(0,0,1), rpm=5), duration=20) ¿Os gusta?

16 de febrero de 2012 · Carlos J. Gil Bellosta

Curso de Estadística Aplicada a la Investigación Biomédica con R en el CNIO

Me acaba de llegar la noticia de que el Centro Nacional de Investigaciones Oncológicas (CNIO) va a organizar en Madrid los días 25, 26 y 27 de Abril de 2012 el curso Estadística Aplicada a la Investigación Biomédica con R. El objetivo del curso es cubrir las técnicas más utilizadas en la aplicación de la estadística a las ciencias de la salud, a la práctica clínica y epidemiológica y a la investigación biomédica en general. El desarrollo del curso se basa en la explicación y aplicación de los conceptos estadísticos desde un punto de vista práctico y en el uso de R. R ha sido elegido, según los organizadores, debido a la gran importancia que está tomando como software estadístico de referencia en muchos centros de investigación por su versatilidad.

15 de febrero de 2012 · Carlos J. Gil Bellosta