Curso de ASPgems: Descubre Spark en 8 semanas

En el Meetup de hoy me he enterado de que mis colegas de ASPgems están organizando un curso de Spark. Y no por colegas sino por competentes, lo divulgo por aquí.

La información al respecto, aquí.

Advertencia: El curso no es gratuito y ASPgems me ha invitado a dos cervezas a la salida del Meetup de hoy. Pero, tranquilos, mi precio no es ese.

¿Cómo contar el número de elementos distintos de una lista?

El problema es sencillo: se cuentan y ya.

Pero hay quienes tienen cantidades ingentes de elementos que contar. Tantos que por razones de memoria, etc., es inviable hacer lo obvio, es decir, guardar una lista de claves (elementos distintos) y valores (el número de ocurrencias) sumando uno a los últimos cada vez que ocurra una de las primeras.

Por ese motivo, existen algoritmos que aproximan el número de elementos distintos de una lista. Existe, de hecho, toda una industria dedicada a crear tal tipo de algoritmos.

Las humanidades, ¿socialmente útiles?

Sí, supongo. Pero, ¿y si se tiene en cuenta el coste de oportunidad? Porque si haces A, desatiendes B. Y así parece haberlo visto el gobierno japonés, que ha ordenado cerrar o reducir su oferta en dichas áreas a las universidades públicas. A la vez que las invita a concentrarse en aquellas disciplinas alineadas con los intereses de la sociedad.

Se puede leer más sobre el asunto y su contexto aquí.

Que cada cual opine lo que quiera. Yo no digo ni pío.

Un problema "sencillo": posiciones y ruido

Voy a describir la solución un problema sencillo. Se trata de un objeto que se mueve a una velocidad no necesariamente constante en línea recta. Este objeto emite su posición y velocidad periódicamente (p.e., cada segundo). Por centrar ideas, su posición y velocidad reales en esos momentos es

n <- 100
v.real <- rnorm(n, 1, 0.2)
x.real <- cumsum(v.real)

(Perdóneseme lo gañán de la física que aplico para calcular las posiciones: prometo que se puede y que sé hacerlo mejor; pero para el presente caso, vale).

Así no (o los sesgos de las encuestas de respuesta voluntaria)

Suscribo enteramente unas declaraciones de la alcaldesa de Madrid en las que se mostraba perpleja ante el hecho de que en la motivación de las sucesivas reformas del código penal se hablase de cómo el anterior no había funcionado o cómo el actual venía a subsanar deficiencias del anterior pero que no se acompañasen de una memoria bien fundada en la que se detallasen y cuantificasen esos problemas.

Suscribo enteramente declaraciones suyas en las que reclama un seguimiento de las leyes para ver en qué medida son eficaces en su ámbito de aplicación.

Varianza y cuantiles (del capitalismo de baja calidad en España)

Uno de los argumentos más habitualmente esgrimidos en contra del capitalismo es su caracter cíclico. Cuando dicen cíclico, entiendo, quieren decir aleatorio (¿quién sabe predecir los ciclos?). Eso no sé si lo hace, en la terminología de Taleb, frágil o antifrágil. En cualquier caso, uno de los objetivos de quienes llevan las riendas de la política económica es embridar la aleatoriedad con, por ejemplo, medidas anticíclicas.

Pero no todas las aleatoridades son iguales. En Capital Allocation and Productivity in South Europe, sus autores descubren varianzas desiguales en la producitividad del capital en distintos países: alta en los países del sur de Europa, baja en los del norte. ¿Diríase que la asignación de recursos es más desigual en los primeros? ¿Será causa —o efecto, o ambas cosas, o será la misma cosa— de la crisis que hemos padecido también desigualmente?

NMF: una técnica mergente de análisis no supervisado

[N]NMF (se encuentra con una o dos enes) es una técnica de análisis no supervisado emergente. Se cuenta entre mis favoritas.

[N]NMF significa non negative matrix factorization y, como SVD, descompone una matriz M como UDV'. Solo que, en este caso, las entradas de M son todas positivas. Y la descomposición es UV', donde las entradas de ambas matrices son también positivas.

¿Qué tipo de matrices tienen entradas estrictamente positivas?

  • Las resultantes de cuestionarios donde sujetos (filas) valoran (de 0 a 10) objetos, propuestas, etc. (columnas).
  • Las que respresentan clientes (filas) que compran (un determinado número >= 0) de productos (columnas).

Y acabo con un instrumento (el paquete NMF de R) y el análisis de una encuesta realizado con dicha técnica para que la veáis en acción.

Correlaciones insospechadas: de la geometría moderna al catalán Hernán Cortés

Hace muchos, muchos años, era yo un fan de la Geometría Moderna de Dubrovin, Fomenko y Novikov.

geometria_moderna

Fomenko, además de matemático de talento, es un chalado. Su chaladura se llama Nueva Cronología, una seudoteoría según la cual la historia de la humanidad es mucho más breve de lo que recoge la historia oficial y que las historias que conocemos de tiempos muy remotos (p.e., hace 2000 años) no son sino reformulaciones deformadas de historias mucho más recientes.

Ayer me puse el sombrero negro

Ayer tuve una visita: un amigo me pidió que le echara una mano a otro que andaba muy perdido con su tesis de máster. No era estadístico pero estaba construyendo regresiones y pruebas de hipótesis y no entendía los resultados. Como a veces pasa, había comenzado por las conclusiones (tal vez razonables) con la esperanza de que los datos acabasen dándole la razón.

Y se la daban… salvo por un pequeño detalle: aunque significativo, el coeficiente de la corrupción tenía el signo contrario.