Carlos J. Gil Bellosta

El malabarista de Amiga, con R (y rgl)

Un exalumno mío de unos cursos de R, Guillermo Luijk, ha creado usando R (y el paquete rgl). Toda la información relevante, (incluyendo la historia, el código, las ecuaciones, etc.) aquí. Infinitamente recomendable. (La recomendación se extiende encarecidamente al resto de las entradas de su blog).

No son los picos, son los rangos

Me reencuentro con tiempo después (fuente). Llaman la atención sobremanera los picos. Que no tienen otra razón de ser que un cambio en los rangos del eje horizontal. Ahora la pregunta, de ejercicio: ¿cómo harías para representar esos datos para evitar esos artefactos (asumiendo escala lineal en el eje horizontal)?

¿Es racional (aparte de aburrido) nadar contra el efecto Lindy?

¿Cuántas veces se habrá escrito este artículo ya? Su renovada manifestación trae la entradilla Los expertos critican la inacción de las autoridades y avisan: “Se nos viene encima algo muy grave” y luego, en el cuerpo, abunda en el perpetuo y aburridor argumento contra las terapias alternativas y la homeopatía en particular. A cuenta de lo cual me he echado unas risas porque tenía aún fresco el parrafito The homeopathists, for instance, shall be, if any one so think, as wrong as St. John Long; but an organized opposition, supported by the efforts of many acting in concert, appealing to common arguments and experience, with perpetual succession and a common seal, as the Queen says in the charter, is, be the merit of the schism what it may, a thing wholly different from the case of the isolated opponent in the mode of opposition to it which reason points out. ...

De España a Dinamarca en dos pasos

De acuerdo con Eurostat, el IRPF recauda en España aproximadamente el 7.5% del PIB nacional; en Dinamarca, como el 25%. Los tipos impositivos en Dinamarca, son más altos que los españoles, pero tampoco puede decirse que estén desaforadamente por encima. En cualquier caso, ese salto (del 7.5% al 25%), puede descomponerse en dos partes. La primera, efecto de cambiar los tipos impositivos en España (sobre la actual distribución de la renta). La segunda, efecto de cambiar la distribución de la renta a otra que representase la danesa. O, por otra vía, aplicando primero los tipos españoles a una distribución de renta como la danesa. ...

Protección de los datos de los muertos

Me toca lidiar con datos relativos a muertos. No de muertos hace mil años, o quinientos, o de las guerras carlistas, sino, casi, casi con muertos de cadáver caliente y viuda con mocos. He aquí la (¿aparente?) aporía. Por un lado, sábese que la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos (en adelante, LOPD), no es de aplicación a las personas fallecidas. Pero, por otro: La Agencia Tributaria ni ha publicado ni es fácil que publique las declaraciones de la renta del finado Sr. Botín. Gmail no deja meter la nariz en los correos de finados. El INE anonimiza los microdatos públicos de defunciones y excluye la causa de muerte. El registro civil no publica las actas de nacimiento, matrimonio, defunción, etc. de los fallecidos. Etc. A lo más, la actual LOPD (veamos qué nos trae la siguiente) permite que los herederos comuniquen (pero en plan solicitud, no en plan ejercicio de un derecho) su interés en la eliminación de registros de sus familiares difuntos que obren en poder de empresas y organismos. ...

Un problema: cómo muestrear histogramas con medias. La vía de los trapecios

Me refiero muy impropiamente con histogramas con medias a algo parecido a que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos. Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido. Por simplificar, supongamos que tenemos datos en el intervalo [0, 1] cuya media es $\mu$. ¿Cómo obtener un muestreo razonable de valores en dicho intervalo? ...

España, Platón, Madrid

En 1871-1872 se publicó la primera edición de las obras completas de Platón traducidas al español. Hubo 500 suscriptores en toda España (que entonces incluía, recuérdese, Cuba, Puerto Rico y quién sabe si algún desafortunado lugar más). Y uno más de Uruguay, que solicitó dos copias. En total, 11 volúmenes de 250-350 páginas de texto no demasiado prieto. La distribución provincial de suscriptores fue: Ciertamente curiosa. Más información (incluida la lista de los suscriptores, tanto institucionales como privados), aquí.

Modelos con inflación de ceros y separación perfecta

Al estudiar problemas de conteos, la llamada inflación de ceros ocurre frecuentemente: los datos contienen más ceros de los que ocurrirían según las distribuciones habituales (Poisson, binomial negativa). Un modelo con inflación de ceros es una mezcla (mixtura) de un modelo de conteos y una distribución de Dirac (en cero). Las técnicas habituales para resolverlos involucran (explícita o implícitamente) una estructura jerárquica de modelos: primero, uno (similar a una logística), separa las observaciones que corresponderían a la Dirac del resto. Un segundo modelo de conteos trata de ajustar el segundo. ...

Estimar la demanda es como ponerle el cascabel al gato

Alborozábanse los ratones al oír de sus líderes la solución definitiva al problema de aquel gato que los diezmaba inmisericordemente: ¡colóquesele un cascabel! El problema gordiano del pricing, el cascabel que hay que ponerle a ese gato, es el de la estimación de la curva de demanda. Ahi radica el quid. Unos lo resuelven con simulaciones que quedan estupendas sobre el papel. ¡Qué fácil es ponerle un cascabel a un gato de madera! ...

La intrahistoria de mi libro de R

Una de las preguntas más fértiles que pueden formularse frente a algo es la del motivo de su existencia: ¿por qué existe en lugar de, simplemente, no existir? El otro día anuncié públicamente la existencia de mi libro de R. No es el mejor ni el peor. Es hijo de las circunstancias que lo hicieron nacer. Que describo a continuación. I Corría el 2014. Yo tecleaba entonces en las oficinas de eBay en Zúrich. La oficina estaba escindida en dos: SAS y Python. No había apenas R por minúsculo problema técnico: no había (aparentemente) drivers para Teradata. La conexión entre R y Teradata estaba rota. Pero en una tarde y con unas cuantas líneas de Java, fabriqué un paquete de R que daba conexión ODBC con Teradata y más (lo típico: queries parametrizadas, etc.). Fue para mi uso personal, luego se popularizó (sí, me llegó una oferta para trabajar en Accenture de EE.UU. por parte de un grupo de usuarios agradecidos que no conocía); ahora no sé qué será de él. ...