Posts

Entre lo fofo y lo hierático,modelos loglineales

El contexto, por fijar ideas, el problema de taguear fechas en textos.

La estrategia gomosa, fofa (ñof, ñof, ñof), y en la que parecen parecer creer algunos, embeddings más TensorFlow.

La estrategia hierática, inflexible y reminiscente de robots de pelis de serie B, expresiones regulares encadenadas con ORs.

En la mitad donde mora la virtud, extracción de features (principalmente con expresiones regulares) y luego, esto.

Nota: esta entrada es un recordatorio para mí mismo y por si retorna cierto asunto que dejé postergado hace un par de días.

Sobre el agregador de noticias sobre R en español

Aprovecho que acabo de actualizar mi agregador de noticias sobre R en español para escribir este recordatorio.

La cosa es que hace ya un tiempo (¡lo anuncié en 2010!) creé una programita que rastrea una serie de blogs que publican cosas sobre R, extrae los corresondientes RSS, selecciona las entradas que tratan sobre R y:

  • Crea un RSS combinado que guarda aquí (para los que aún uséis RSS, claro).
  • Publica esas entradas en una cuenta específica de Twitter, @noticiasSobreR.

¿Para qué, pues, este recordatorio? Para dos cosas:

Homo politicus < IQ < homo economicus

Lo del homo economicus ya no está de moda. Ahora pega más fuerte lo del homo politicus (y otros homos caracterizados por actuar como quien no completó el bachillerato con aprovechamiento).

No obstante, parece no todos los homos son iguales: unos se parecen más al economicus; otros, al politicus. Y ahora parece que el coeficiente intelectual tendría algo que ver con eso.

Nota: encuentro ridículas las críticas a la economía (particularmente, a la microeconomía) basadas en su acreditada incapacidad para predecir el comportamiento humano por su tendencia a alejarse del esperado en un homo economicus. No, no va de eso. No va de predecir el comportamiento humano. Para eso ya tenemos otras disciplinas ad hoc. Va de cómo un agente racional descubre en otro que lo es menos un imbécil al que separarlo de su dinero.

Modelos log-lineales y GLMs con regularización

Hace años tomé el curso de NLP de M. Collings en Coursera (¡muy recomendable!), uno de cuyos capítulos trataba de los llamados modelos loglineales. En esto, Collings sigue una nomenclatura un tanto personal porque la mayor parte de la gente se refiere con ese nombre a algo que no es exactamente lo mismo (y dentro del mundo de las tablas de contingencia).

El otro día, sin embargo, me pensé que los modelos loglineales à la Collings me serían muy útiles para un problema de clasificación en el que estamos trabajando. Y repasándolos… me di cuenta de que eran versiones de algo ya conocido: GLMs multinomiales con regularización. Sí, como estos.

Los resultados preliminares del experimento finlandés de la renta básica apestan a...

Por si alguien acaba de despertar después de un coma de tres o más años de duración, lo del experimento finlandés de la renta básica y un somero análisis (junto con una serie de conclusiones extravagantes) está descrito aquí.

En resumen, el experimento terminó y se ha redactado un informe preliminar de los resultados (que avisa por todos los lados de que no sirven para nada y que hay que esperar a los definitivos) basados en entrevistas telefónicas (con una tasa de respuesta muy baja) a los beneficiarios del plan (y a unos cuantos que no lo son y que conforman un grupo de control).

Charlatanes y regulación

Así resumen sus autores Regulation of Charlatans in High-Skill Professions:

We study a market for a skill that is in short supply and high demand, where the presence of charlatans (professionals who sell a service that they do not deliver on) is an equilibrium outcome. We use this model to evaluate the standards and disclosure requirements that exist in these markets. We show that reducing the number of charlatans through regulation decreases consumer surplus. Although both standards and disclosure drive charlatans out of the market, consumers are worse off because of the resulting reduction in competition amongst producers. Producers, on the other hand, strictly benefit from the regulation, implying that the regulation we observe in these markets likely derives from producer interests. Using these insights, we study the factors that drive the cross-sectional variation in charlatans across professions. Professions with weak trade groups, skills in larger supply, shorter training periods and less informative signals regarding the professional’s skill, are more likely to feature charlatans.

vecpart: modelización de moderadores con árboles

En un GLM (aún más generalizado que la G de las siglas) puede haber coeficientes moderados. Usando una terminología muy ad hoc, en el modelo pueden entrar predictores y moderadores. Lo cual quiere decir que la parte lineal puede ser de la forma

$$\sum_i X_i \beta_i(Z_i),$$

donde las $latex X_i$ son los predictores propiamente dichos y las variables $latex Z_i$ son moderadoras, es decir, que modifican el efecto de los predictores a través de una función arbitraria $latex \beta_i$.

Modas y fotogenia del código secuencial

R

Este tipo de programación se puso de moda en los noventa:

Y yo decía: ¿dónde están mis bucles? ¿Y mis bifurcaciones?

Este tipo de programación está de moda últimamente:

hourly_delay <- flights %>%
  filter(!is.na(dep_delay)) %>%
  group_by(date, hour) %>%
  summarise(
    delay = mean(dep_delay),
    n = n() ) %>%
  filter(n > 10)

Y todo bien, sí, pero sigo sin tener bucles o bifurcaciones.

Tal vez no hagan falta. Al menos, para cosas de andar por casa. Pero, lo confieso, el código de verdad que escribo está lleno de casos especiales, comprobaciones de todo tipo de contingencias, reglas que aplican a unas columnas sí y otras no, objetos complejos (p.e., listas), que se van rellenando de una u otra manera dependiendo de las opciones del usuario y otras enojosas coyunturas muy reñidas con la elegancia.

Una cosa buena, una cosa mala

Que son la misma: esta.

Comienzo por lo malo: ¿realmente necesitamos 17+1 INEs publicando la vistas de la misma información a través de 17+1 APIs, 17+1 paquetes de R y (17+1)*N mantenedores y desarrolladores?

Lo bueno: tiene buena pinta y es encomiable tanto el esfuerzo de los autores como su vocación de servicio público.

Nota: Espero que no enfaden demasiado el 50% de los juicios que he emitido a quien me ha enviado el enlace para su evaluación y posible difusión. Sepa que lo tengo en grande estima y que me consta responsable de mucho de la parte buena y casi nada de la mala.