Protección de los datos de los muertos

Me toca lidiar con datos relativos a muertos. No de muertos hace mil años, o quinientos, o de las guerras carlistas, sino, casi, casi con muertos de cadáver caliente y viuda con mocos. He aquí la (¿aparente?) aporía. Por un lado, sábese que la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos (en adelante, LOPD), no es de aplicación a las personas fallecidas. Pero, por otro: La Agencia Tributaria ni ha publicado ni es fácil que publique las declaraciones de la renta del finado Sr. Botín. Gmail no deja meter la nariz en los correos de finados. El INE anonimiza los microdatos públicos de defunciones y excluye la causa de muerte. El registro civil no publica las actas de nacimiento, matrimonio, defunción, etc. de los fallecidos. Etc. A lo más, la actual LOPD (veamos qué nos trae la siguiente) permite que los herederos comuniquen (pero en plan solicitud, no en plan ejercicio de un derecho) su interés en la eliminación de registros de sus familiares difuntos que obren en poder de empresas y organismos. ...

16 de abril de 2018 · Carlos J. Gil Bellosta

Un problema: cómo muestrear histogramas con medias. La vía de los trapecios

Me refiero muy impropiamente con histogramas con medias a algo parecido a que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos. Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido. Por simplificar, supongamos que tenemos datos en el intervalo [0, 1] cuya media es $\mu$. ¿Cómo obtener un muestreo razonable de valores en dicho intervalo? ...

13 de abril de 2018 · Carlos J. Gil Bellosta

España, Platón, Madrid

En 1871-1872 se publicó la primera edición de las obras completas de Platón traducidas al español. Hubo 500 suscriptores en toda España (que entonces incluía, recuérdese, Cuba, Puerto Rico y quién sabe si algún desafortunado lugar más). Y uno más de Uruguay, que solicitó dos copias. En total, 11 volúmenes de 250-350 páginas de texto no demasiado prieto. La distribución provincial de suscriptores fue: Ciertamente curiosa. Más información (incluida la lista de los suscriptores, tanto institucionales como privados), aquí.

12 de abril de 2018 · Carlos J. Gil Bellosta

Modelos con inflación de ceros y separación perfecta

Al estudiar problemas de conteos, la llamada inflación de ceros ocurre frecuentemente: los datos contienen más ceros de los que ocurrirían según las distribuciones habituales (Poisson, binomial negativa). Un modelo con inflación de ceros es una mezcla (mixtura) de un modelo de conteos y una distribución de Dirac (en cero). Las técnicas habituales para resolverlos involucran (explícita o implícitamente) una estructura jerárquica de modelos: primero, uno (similar a una logística), separa las observaciones que corresponderían a la Dirac del resto. Un segundo modelo de conteos trata de ajustar el segundo. ...

11 de abril de 2018 · Carlos J. Gil Bellosta

Estimar la demanda es como ponerle el cascabel al gato

Alborozábanse los ratones al oír de sus líderes la solución definitiva al problema de aquel gato que los diezmaba inmisericordemente: ¡colóquesele un cascabel! El problema gordiano del pricing, el cascabel que hay que ponerle a ese gato, es el de la estimación de la curva de demanda. Ahi radica el quid. Unos lo resuelven con simulaciones que quedan estupendas sobre el papel. ¡Qué fácil es ponerle un cascabel a un gato de madera! ...

10 de abril de 2018 · Carlos J. Gil Bellosta

La intrahistoria de mi libro de R

Una de las preguntas más fértiles que pueden formularse frente a algo es la del motivo de su existencia: ¿por qué existe en lugar de, simplemente, no existir? El otro día anuncié públicamente la existencia de mi libro de R. No es el mejor ni el peor. Es hijo de las circunstancias que lo hicieron nacer. Que describo a continuación. I Corría el 2014. Yo tecleaba entonces en las oficinas de eBay en Zúrich. La oficina estaba escindida en dos: SAS y Python. No había apenas R por minúsculo problema técnico: no había (aparentemente) drivers para Teradata. La conexión entre R y Teradata estaba rota. Pero en una tarde y con unas cuantas líneas de Java, fabriqué un paquete de R que daba conexión ODBC con Teradata y más (lo típico: queries parametrizadas, etc.). Fue para mi uso personal, luego se popularizó (sí, me llegó una oferta para trabajar en Accenture de EE.UU. por parte de un grupo de usuarios agradecidos que no conocía); ahora no sé qué será de él. ...

9 de abril de 2018 · Carlos J. Gil Bellosta

Un libro de R: mi libro de R

No quería hacerlo público aún pero alguien se ve que lo estaba leyendo por ahí. No sé si Google habrá levantado ya la pájara. Tampoco es que fuese un secreto: lo he usado para varios cursos y me consta que ha sido usado por terceros para tal fin. Pero ya está, es oficial: mi libro de introducción a R (inacabado) está colgado (aquí). Y no voy a añadir nada más al respecto porque está todo en la introducción. ...

5 de abril de 2018 · Carlos J. Gil Bellosta

Causalidad: malo lo uno, pero tampoco bueno lo otro

Leo en Las causalidades en Economía a Manuel Alejandro Hidalgo dignándose a dar réplica al panfletillo Curva de Laffer: Montoro bajó por fin el IRPF… y recaudó un 6% más. El último no cuenta apenas más que lo que anuncia en su titulo. El primero quiere enmendarle la plana, pero al hacerlo escribe frases tan chirriantes como: Insinuar que gracias a la bajada del IRPF por Cristóbal Montoro los ingresos por este tributo se incrementaron en un 6,5% exige, cuando menos, un Trabajo Fin de Máster y de los buenos. Exige muchas semanas de trabajo y mucha econometría, por no decir que exige de un modelo de tu economía que te ayude a manejar de un modo ordenado las ideas, las relaciones causales. ...

3 de abril de 2018 · Carlos J. Gil Bellosta

Sobre lo de Cambridge Analytica

Ni de lejos mi tema favorito. De todo este tinglado de la práctica comercial de la ciencia de datos, lo que tiene como sujetos a sujetos de carne y hueso es lo que menos me atrae. No quiero saber nada sobre escarbar en Twitter, Facebook o Linkedin. Me aburre soberanamente todo lo relativo a las leyes de protección de datos y trato en la medida de lo posible mantenerme al margen de discusiones sobre privacidad, big data y similares, que son puros contrastes de ocurrencias. ...

2 de abril de 2018 · Carlos J. Gil Bellosta

¿Qué más se supo de la correlación del s. XXI?

No os acordáis porque pasó en 2011. Yo tampoco me acordaba hasta que me volvió a la cabeza no sé bien por qué motivo. Pero durante un par de semanas hubo revuelo porque unos tipos habían descubierto una medida de correlación mucho mejor que la correlación, etc. Creo que hasta salió publicado en prensa. Yo escribí al respecto, claro está. Ocho años después, nada. Y lo mismo, supongo, con tantas, tantas y tantas cosas.

27 de marzo de 2018 · Carlos J. Gil Bellosta