Mariposa

Quieres saber dónde está el escorpión, Ni ayer ni antes vos sos corona dorada. Ya os ves más tal cual tortuga pintada, A él nos gusta andar con cola marrón. Ella es quién son las alas de algún gorrión. Si al fin podés ver tu imagen manchada, O hoy vas bajo un cielo azul plateada, Por qué estás tan lejos del aguijón. No hay luz que al sol se enreda en tus palmera. ...

20 de marzo de 2019 · Carlos J. Gil Bellosta

Si das la regla por buena, enhorabuena, estás usando el sistema d'Hondt

En una circunscripción, un partido obtiene $N$ votos. Si manda al congreso $n$ diputados, cada uno de ellos representaría a $N/n$ votantes. En una circunscripción, una serie de partidos obtienen $N_i$ votos. Los primeros $j$ diputados del partido $i$ representarían a $N_i / j$ votantes. Si la circunscripción manda al parlamento a $n$ diputados, tiene sentido enviar a aquellos que representan a más votantes. Si das la regla por buena, ¡enhorabuena, estás usando el sistema d’Hondt! ...

19 de marzo de 2019 · Carlos J. Gil Bellosta

Las decisiones son lo primario; la estadística es subsidiaria

En Circiter estamos negociando con unos clientes potenciales acerca de, tal como nos dijeron inicialmente, construir un modelo. Todo bien. En la última reunión surgió la pregunta (¡qué vergüenza por mi parte no haberla planteado mucho antes!): ¿cómo habría que usarlo para dar soporte al negocio? La discusión subsiguiente dejó claro que habría que cambiar sustancialmente la aproximación al modelo. Por ejemplo: Era tanto o más importante la discriminación intra-sujetos que la entre-sujetos (es decir, importaba más lo que el modelo pudiera decir de los ítems de cada sujeto que las diferencias que pudiera mostrar entre sujetos). La capacidad predictiva del modelo, aun siendo importante, se volvía una medida subsidiaria. Cobraba una particular relevancia el problema del cold-start. En definitiva, la necesidad de uso cambiaba la estrategia de modelación de arriba a abajo. ...

18 de marzo de 2019 · Carlos J. Gil Bellosta

Si los prejuicios son prioris, entonces...

Esto es muy bueno. Elabora sobre la conclusión lógica de algo que ya he discutido antes por aquí: que los prejuicios (justos o no: la justicia es una categoría de otro orden) son prioris con las que operamos a falta de más información. Ergo…

15 de marzo de 2019 · Carlos J. Gil Bellosta

Lo que las diferencias de medias evocan

Si a uno le dicen que la diferencia de medias de determinado atributo entre sujetos de tipo A y sujetos de tipo B es 5, uno tiende a pensar (o, más bien, tengo esa sensación) que la diferencia de dicho atributo entre un representante al azar de A y uno al azar de B será alrededor de 5. Tal vez sea porque nos han educado mostrándonos imágenes no muy distintas de ...

14 de marzo de 2019 · Carlos J. Gil Bellosta

Mezclas y regularización

Cuando mezclas agua y tierra obtienes barro, una sustancia que comparte propiedades de sus ingredientes. Eso lo tenía muy claro de pequeño. Lo que en esa época me sorprendió mucho es que el agua fuese una mezcla de oxígeno e hidrógeno: ¡era muy distinta de sus componentes! Porque no era una mezcla, obviamente. Era una combinación. En una combinación emergen propiedades inesperadas. Las mezclas, sin embargo, son más previsibles. Pensaba en esto mientras escribía sobre la regularización de modelos (ridge, lasso y todas esas cosas). La regularización puede interpretarse como una mezcla de dos modelos: el original y el nulo (con todos los coeficientes iguales a cero). El modelo original tiene poco sesgo y mucha varianza; el nulo, prácticamente nada de varianza y muchísimo sesgo. El regularizado queda a medio camino. El original tiene varios, tal vez muchos, grados de libertad mientras que el nulo, ninguno (¿o uno?); puede considerarse que el número de grados de libertad del regularizado queda a medio camino. ...

13 de marzo de 2019 · Carlos J. Gil Bellosta

La simplicísima mas no por ello menos útil distribución de Dirac

Ayer alguien desconocía la distribución de probabilidad de Dirac. No sé ni si se llama así y no aparece en prácticamente ninguno de los manuales al uso. Es una distribución de probabilidad no aleatoria (o degenerada): concentra toda su masa en un punto determinado. Por ejemplo, en el nueve: Y es útil por: Ser límite de cosas. Porque las distribuciones discretas (de la Bernoulli en adelante) son mezclas de variables aleatorias de Dirac. Porque los modelos con inflación de ceros (o de aquello de lo que estén inflados) son mezclas con variables aleatorias de Dirac. …

12 de marzo de 2019 · Carlos J. Gil Bellosta

Charla (mía) el día de pi (de 2019) en Elche

Los detalles logísticos, en Hablaré de lo de casi siempre: que pese a los cantos de sirena que se oyen en la profesión (predecir por encima de todo, xgbost es el único dios y caret su profeta, etc.) existen muchos problemas reales (de los que dan de comer) donde es necesario modelar la estructura subyacente de los datos con mucho mimo. Eso, más la descripción detallada de un proyecto bastante sofisticado en el que ando metido. ...

11 de marzo de 2019 · Carlos J. Gil Bellosta

Aviso para navegadores

Ayer estuvimos pensando de dónde se podían obtener ejemplos de búsquedas de usuarios (sí, lo que la gente escribe en, p.e., Google cuando busca algo). Y parece que hay empresas que venden ese tipo de datos. Pregunta: ¿de dónde los sacan? Alguien que conoce el negocio la respondió en Quora. Parece que existen tres fuentes. Una de ellas es la de los llamados click stream data. Parece que Jumpshot es una de las empresas que las recolectan. Sobre sí misma dice: ...

8 de marzo de 2019 · Carlos J. Gil Bellosta

Pesos de los componentes del QualityScore en Google Ads

El llamado QualityScore tiene su relevancia en Google Ads. Es un indicador con valores entre 1 y 10 asignado por Google que se basa en tres variables que están descritas por ahí: PostClickQualityScore SearchPredictedCtr CreativeQualityScore Se trata de variables categóricas con tres niveles: en / por encima de / por debajo de la media. Haciendo modelo <- lm(QualityScore ~ PostClickQualityScore + SearchPredictedCtr + CreativeQualityScore, data = tmp) summary(modelo) se obtiene Call: lm(formula = QualityScore ~ PostClickQualityScore + SearchPredictedCtr + CreativeQualityScore, data = tmp) Residuals: Min 1Q Median 3Q Max -0.25003 -0.07395 0.00775 0.06344 0.86470 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.079603 0.008688 124.3 <2e-16 *** PostClickQualityScoreAVERAGE 2.114012 0.009037 233.9 <2e-16 *** PostClickQualityScoreABOVE_AVERAGE 3.856228 0.008448 456.5 <2e-16 *** SearchPredictedCtrAVERAGE 1.137396 0.003284 346.4 <2e-16 *** SearchPredictedCtrABOVE_AVERAGE 3.055694 0.004707 649.2 <2e-16 *** CreativeQualityScoreAVERAGE 0.999580 0.004274 233.9 <2e-16 *** CreativeQualityScoreABOVE_AVERAGE 2.000725 0.003862 518.1 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.1574 on 11426 degrees of freedom Multiple R-squared: 0.9915, Adjusted R-squared: 0.9915 F-statistic: 2.212e+05 on 6 and 11426 DF, p-value: < 2.2e-16 Que no merece mayor explicación. Creo.

7 de marzo de 2019 · Carlos J. Gil Bellosta