EM (duro) a mano (y para humanos)

Dada una configuración de puntos tal como puede pensarse que existen dos grupos (clústers los llaman casi todos menos el neotroll de estas páginas y algún otro purista) de puntos organizados alrededor de unas rectas que se adivinan. Nos planteamos el problema de identificarlas y de asignar los puntos a su respectiva. Una posible estrategia consiste en construir la verosimilitud asociada al problema y maximizarla. Esa verosimilitud dependería de muchos parámetros: ...

20 de marzo de 2017 · Carlos J. Gil Bellosta

Disponibles las diapositivas de mi charla en el EL BetaBeers Madrid (especial opendata)

El anuncio de la charla es este y las diapositivas de lo que titulé ¿Son suficientes los datos abiertos? están disponibles aquí. Como viene siendo tradicional (más que original) en mis charlas, las diapositivas consisten esencialmente en fotos. Así que son de poca utilidad sin el texto que no las acompaña. Igual saco rato la semana que entra y lo resumo por aquí.

17 de marzo de 2017 · Carlos J. Gil Bellosta

Todo lo que sucede en R es una llamada a una función

En serio, es así. ¿También if? Pues también. De hecho, `if`(1 == 3, print("a"), print("b")) Y eso permite, por ejemplo, que funcionen expresiones tales como a <- if (1 == 3) 4 else 5 tan útiles como poco empleadas en general. También son funciones (, { y otras que aparecen en la sección .Internal vs .Primitive del documento R Internals.

16 de marzo de 2017 · Carlos J. Gil Bellosta

qgraph para representar grafos que son correlaciones que son vinos

Me vais a permitir que escriba una entrada sin mayores pretensiones, inspirada en y adaptada de aquí y que sirva solo de que para representar correlaciones entre variables podemos recurrir a los grafos como en library(qgraph) wine.quality <- read.csv("https://goo.gl/0Fz1S8", sep = ";") qgraph(cor(wine.quality), shape= "circle", posCol = "darkgreen", negCol= "darkred", layout = "groups", vsize=13) que pinta mostrando resumidamente cómo se relacionan entre sí determinadas características de los vinos y cómo en última instancia influyen en su calidad (qlt).

15 de marzo de 2017 · Carlos J. Gil Bellosta

He visto que eran de la Rey Juan Carlos y hasta ahí he podido leer

Hojeando la prensa no he podido sustraerme al discreto encanto del titular El ‘pucherazo’ del 36. El texto que encabeza habla, parece, de un libro homónimo en el que se da cuenta del presunto fraude en las elecciones generales de 1936. Los autores, según la entradilla, son [d]os historiadores, [que] tras cinco años de investigación, aportan las cifras y las pruebas del desvío de votos. Todo bien, más o menos interesante mientras no puedo hacer otras cosas más enjundiosas, hasta que llego al párrafo, tercero, en el que me entero de que los dos autores son de la Universidad Rey Juan Carlos. Y dos cosas me han sucedido automáticamente. La primera, es que he dejado de leer con un gesto entre el asco y el disgusto, como el de que encuentra un pelo en los macarrones. ...

14 de marzo de 2017 · Carlos J. Gil Bellosta

Calibración de probabilidades vía apuestas

Después de la remontada del F.C. Barcelona es muy de agradecer ver la publicación de artículos como Cómo de improbable era la remontada del Barcelona de Kiko Llaneras. En la misma entradilla, indica que [u]n modelo estadístico y las apuestas le daban el 7% de opciones. Un 7% viene a ser más o menos, dice correctamente, como sacar un 11 o un 12 en una tirada de dos dados. La pregunta que podemos hacernos, de todos modos, es si las probabilidades estimadas por esos modelos estadísticos o las casas de apuestas están o no bien calibradas. Es decir, si, por ejemplo, el número de aciertos para eventos con una probabilidad asignada del alrededor del 0.25 es o no próximo al 25%. ...

13 de marzo de 2017 · Carlos J. Gil Bellosta

Daré una charla en el Betabeers Madrid (especial OpenData)

Es el 16 de marzo (de 2017), es decir, el jueves que viene y estaré muy bien acompañado, como puede comprobarse en el programa. Aunque aún no indique ahí de qué hablaré, tengo la presentación hecha a falta, únicamente del título. Adelanto únicamente que el contenido está muy condicionado por lo que rematará la reunión, una mesa redonda sobre los datos abiertos en Madrid.

10 de marzo de 2017 · Carlos J. Gil Bellosta

Un párrafo afortunadísimo sobre las "nuevas aptitudes"

Traduzco: Las nuevas aptitudes que tanto atraen la atención de los medios no sirven para resolver más eficazmente el problema de la inferencia; son puras técnicas de supervivencia para gestionar los artefactos inducidos por la computación distribuida a gran escala. Lidian con las enormes restricciones que impone el mundo de los sistemas multiproceso y distribuidos sobre los algoritmos. En este mundo tan constreñido, el elenco de algoritmos utilizables es tan limitado si se lo compara con el disponible en el de un único procesador, que es inevitable adoptar técnicas estadísticas que hubieran sido tachadas de rudimentarias, si no de inadecuadas, en otros tiempos. Estos problemas consumen nuestro tiempo y energía, deforman nuestro criterio sobre lo que resulta adecuado y nos desvían de las estrategias de análisis de datos que habríamos aplicado de oficio en otras circunstancias. ...

9 de marzo de 2017 · Carlos J. Gil Bellosta

Reducción de la dimensionalidad con t-SNE

Voy a explicar aquí lo que he aprendido recientemente sobre t-SNE, una técnica para reducir la dimensionalidad de conjuntos de datos. Es una alternativa moderna a MDS o PCA. Partimos de puntos $x_1, \dots, x_n$ y buscamos otros $y_1, \dots, y_n$ en un espacio de menor dimensión. Para ello construiremos primero $n$ distribuciones de probabilidad, $p_i$ sobre los enteros $1, \dots, n$ de forma que $$ p_i(j) \propto d_x(x_i, x_j),$$ donde $d_x$ es una determinada distancia entre puntos en el espacio original. De la misma manera, construimos sendas distribuciones de probabilidad, $q_i$, ...

8 de marzo de 2017 · Carlos J. Gil Bellosta

En contra del estado "de derecho"

Nos engañaron malamente. Nos prometieron que estudiar matemáticas nos abriría la puerta de los misterios más sutiles del conocimiento y ahora no hacemos otra cosa que celebrar como gilipollas el día de $\pi$ a golpe de retuiteo. Nos dijeron que aprendiendo ingeniería conoceríamos el funcionamiento de las cosas y acabamos usando ordenadores armados con pegamento. Con la estadística seríamos capaces de estudiar y entender los movimientos y cambios sociales, el funcionamiento de los mercados financieros, etc., y nunca pasamos de los k-vecinos. ...

7 de marzo de 2017 · Carlos J. Gil Bellosta