Un resultado probabilístico contraintuitivo (parte I)

A elige dos números con una distribución de probabilidad cualquiera, generador <- function() rlnorm(2, 3, 4) y los guarda ocultos. A B le deja ver uno al azar (sin pérdida de generalidad, el primero). Y B tiene que decidir si el que ve es el más alto de los dos (en cuyo caso, gana un premio, etc.). Veamos a B actuar de manera naive: estrategia.naive <- function(observed) { sample(1:2, 1) } Dejemos a A y B jugar repetidamente a este juego: ...

10 de octubre de 2018 · Carlos J. Gil Bellosta

La ética, como un problema de aproximación funcional

Hoy, las notas primero. Nota: Ética y moral son la misma palabra en sus idiomas de origen. En español se usan de diversas maneras y hay opiniones diversas al respecto. Las emplearé en el sentido de que la moral es la ética aplicada y la ética la teoría de la moral, defendida por algunos. Ética, entonces, es el producto intelectual de una gente que se dedica profesional o semiprofesionalmente a cavilar sobre el comportamiento humano. ...

9 de octubre de 2018 · Carlos J. Gil Bellosta

Extingámonos con dignidad: generaciones actuales y futuras, no incurramos en los errores de las anteriores

Participé el otro día en una cena con gente friqui. Constaté con cierto desasosiego cómo han virado los sujetos pasivos de nuestra indignación profesional a lo largo de los años. Antaño, fueron los viejos que seguían apegados a la paleoinformática. Hogaño, los primíparos que usan Python y desdeñan R. Tengo sentimientos encontrados y no sé qué más añadir.

8 de octubre de 2018 · Carlos J. Gil Bellosta

Licitaciones por insaculación ponderada

Hace unos años, cuando aún no me había avivado en estos temas, recibí una llamada que me puso muy contento: en un ayuntamiento de nosedónde reconocían mis muchos méritos estadísticos y computacionales y me invitaban a participar en una licitación a vaya Vd. a saber qué cosa. Pero, vamos, lo que pasaba, como tantísimas veces, es que tenían ya escogido a un proveedor y necesitaban a dos comparsas para salvar el trámite burocrático de contar con tres propuestas. ...

5 de octubre de 2018 · Carlos J. Gil Bellosta

"Embeddings" y análisis del carrito de la compra

Escribiendo la entrada del otro día sobre embeddings, no se me pasó por alto que la fórmula $$ \frac{P(W_i,C_i)}{P(W_i)P(C_i)}$$ que escribí en ella es análoga al llamado lift (¿es el lift?) del llamado análisis del carrito de la compra, i.e., el estudio de productos que tienden a comprarse juntos (véase, por ejemplo, esto). Lo cual me lleva a sugerir mas no escribir una entrada en la que se rehagan este tipo de análisis usando embeddings: los ítems como palabras, los carritos como textos, etc. Si alguien tiene tiempo y le sale algo potable, que avise y lo enlazo aquí. ...

4 de octubre de 2018 · Carlos J. Gil Bellosta

¿De qué matriz son los "embeddings" una factorización?

Hoy, embeddings. Esto va de reducir la dimensionalidad de un espacio generado por palabras (procedentes de textos). Si a cada palabra le asignamos un vector índice (todo ceros y un uno donde le corresponde), la dimensión del espacio de palabras es excesiva. La ocurrencia de algunos es asociar a cada palabra, $W_i$, un vector $w_i$ corto (p.e., 100) con entradas $w_{ij}$ a determinar de la manera que se explica a continuación. ...

3 de octubre de 2018 · Carlos J. Gil Bellosta

Planes de búsqueda y rescate con R

Existe un paquete muy curioso en CRAN, rSARP para diseñar, optimizar y comunicar la evolución de planes de búsqueda y/o rescate (p.e., de un niño desaparecido en un monte). Es particularmente interesante porque este tipo de problemas lo tienen todo: desde distribuciones a priori (sobre dónde es más probable encontrar lo que se busca) hasta la decisión final (explórese tanto aquí y tanto allá) teniendo en cuenta restricciones de tiempo y recursos. ...

2 de octubre de 2018 · Carlos J. Gil Bellosta

Acerca del CIS y la cocina

Escribo hoy acerca del CIS y la cocina de la intención de voto. Lo hago desde la ignorancia informada en esos temas y sin pretensión alguna de ser o parecer más listo que otros. El CIS realiza unas encuestas (con un muestreo amplio y bien diseñado, cuentan), de las que obtiene, entre otras cosas, una serie de datos, $x$ que incluyen simpatía, recuerdo de voto, etc. Existe por otra parte un valor enteléquico, $y$, no siempre observable, que conocemos por resultados electorales si se votase hoy o algo parecido. La llamada cocina es simplemente una función $f$ tal que $\hat{y} = f(x)$ es próxima a $y$. Esta función se construye gracias a que históricamente, cada vez que se convocan elecciones, se han observado parejas $(x, y)$. ...

1 de octubre de 2018 · Carlos J. Gil Bellosta

Hoy he asistido a un "evento" sobre ciencia de datos en Cabify: dos partes y una reflexión

La primera parte Métodos sofisticados (técnica, metodológicamente) para hacer más eficiente la movilidad urbana. Nowcasts en lugar de forecasts (¡genial!), técnicas de NPL aplicadas en otros contextos (¡bien!), vector embeding) (hummmm…),… y, en general un derroche de talento para conseguir hacer más con menos (y, por el camino, ganar algo de dinero, por supuesto). La segunda parte Con pizza y cerveza y en petit comité, cómo todo eso puede desaparecer de un plumazo de los que se publican en el BOE por obra y gracia de la caverna. Que bien podría pasar que Cabify tuviese en el futuro que dejar de operar en el país que lo vio nacer, España, si al regulador le da por ahí. ...

28 de septiembre de 2018 · Carlos J. Gil Bellosta

Recordatorio: ideas para futuros TFMs de "ciencia de datos"

Todos los años me toca proponer potenciales TFMs para mis alumnos de donde quiera que sean. Para no olvidarme, anoto aquí esta: bajar el histórico de barómetros del CIS (¿será posible?) y las preguntas que entran a la cocina de la intención de voto. Con ellas, crear un modelo que lo prediga. Bonus: identificar un cambio estructural tras la entrada de Tezanos al CIS.

27 de septiembre de 2018 · Carlos J. Gil Bellosta