Más sobre el consumo alimentario mensual en los hogares españoles en R

He actualizado el repositorio que anuncié aquí, es decir, este, con una función adicional cuya razón de ser es la siguiente:

  • El ministerio de la cosa hace una encuesta sobre hábitos de compra y consumo de alimentos en España.
  • Luego proporciona dos vistas sobre los mismos datos:
  • Una, en forma de ficheros .xls con más profundidad histórica, datos más recientes y menos variables.
  • Otra, a través de un formulario web que devuelve páginas con tablas html que tiene menos profundidad histórica, tiene un retraso mayor de publicación pero alguna variable más (p.e., la penetración).

No preguntéis por qué. El bienestar de todos, que es la aspiración máxima de las instituciones públicas, se escribe derecho pero con renglones torcidos.

Muestreo, sensibilidad y especificidad

El bloque de código

n_pop <- 47e6
prev <- .02
n_muestra <- 60e3

real_sensitivity <- .8
real_specificity <- .995

estimated_sensitivity <- .81
estimated_specificity <- .99

anuncia que vamos a hablar de:

  • un país con una población no muy distinta de la de España
  • que sufre una pandemia con una prevalencia del 2%
  • en el que se realiza una selección de unos 60k sujetos
  • para aplicárseles unas pruebas con una sensibilidad y especificidad que pueden o no ser las que anuncia su prospecto,

supongo que para que dentro de unos años, cuando ya a nadie le importe, se publiquen unos datos que han guardado celosamente unos señores que mucho antes nos habrán regalado unos artículos científicos sobre el tema — necesariamente mediocres y que nos tendremos que creer— cuya publicación está garantizada por el mero hecho de que solo ellos tienen los CSVs mientras que la gente verdaderamente capaz, no.

¿Por qué fluye el tiempo de izquierda a derecha?

Lo que más me ha llamado la atención de

es que hayan pretendido que el tiempo fluya de derecha a izquierda y no, como estamos hiperacostumbrados, de izquierda a derecha. Pero, ¿por qué sucede así y no al revés? ¿Por qué sucede así en todos los sitios menos en Izquierda Unida?

Defunciones: INE vs MoMo

[Fe de errores: en varias secciones de lo que sigue se hace referencia a 2018 como año completo. En realidad, solo se están usando los datos de los trimestres 2, 3 y 4 de 2018, que es en los que hay solapamiento entre los datos del INE y de MoMo.]

Es un error tomar las cifras de MoMo literalmente. Está explicado por doquier: MoMo no es el INE sino un sistema de alerta temprana por mortalidad. MoMo es el mejor sistema rápido que existe. El INE es lento (a día de hoy, solo tiene disponibles resultados provisionales de mortalidad del la primera mitad de 2019).

Activa Madrid: el laboratorio de ideas

Reproduzco de aquí:

El Ayuntamiento de Madrid, a través del Área Delegada de Innovación y Emprendimiento, pondrá en marcha el hackaton ‘Reactiva Madrid’ para diseñar estrategias y actuaciones para fomentar el espíritu emprendedor del ciudadano madrileño y apoyar las ideas que puedan derivar en la generación de empleo y de nuevas actividades económicas. […]

Ante la situación de incertidumbre que viven muchas empresas, ‘Reactiva Madrid’ presenta tres desafíos a las start-ups y pymes innovadoras madrileñas: afrontar la realidad económica tras la pandemia, redefinir el concepto de las ciudades ante la necesidad de nuevos modelos de relación interpersonal y buscar soluciones para aquellos colectivos con necesidades especiales o que dependen de terceras personas para el normal desarrollo de su vida.

Cosas que ocurrirán sin lugar a dudas tras el coronavirus

Hay mucha incertidumbre sobre cómo será el mundo post-coronavirus. Pero una cosa es segura: tendremos gráficas tales como

hasta en la sopa. La buena noticia para quienes son ellos y su ideología, es que hay tantos grados de libertad, i.e., la posibilidad de elegir muy cuidadosamente

  • las variables que colocar en el eje x, las fuentes, los años de los datos, etc.,
  • los indicadores que colocar en el eje y,
  • los países, provincias, regiones, etc., que incluir o excluir en la gráfica,

que, ¡enhorabuena!, van poder esgrimir en las redes sociales la pendiente que más le convenga.

Consensus clustering

No hay nada tan corrosivo para la fe en el clústering que probar una y otra vez k-medias (por ejemplo) sobre los mismos datos y ver cómo los resultados cambian drásticamente de ejecución en ejecución.

Pero eso viene a ser, esencialmente, lo que hay detrás del consensus clústering (CC), una técnica que puede ser usada, entre otros fines, para determinar el número óptimo de grupos.

La idea fundamental de la cosa es que observaciones que merezcan ser agrupadas juntas lo serán muy frecuentemente aunque cambien ligeramente las condiciones iniciales (por ejemplo, se tome una submuestra de los datos o cambien las condiciones iniciales de k-medias, por ejemplo). Si uno altera esas condiciones iniciales repetidas veces puede contar la proporción de las veces que las observaciones i y j fueron emparejadas juntas y crear la correspondiente matriz (simétrica, para más señas) $latex C(i,j)$.

Regresión tradicional vs multinivel

Ayer se leía en Twitter que

Cabe preguntarse qué pasa si se analizan los mismos datos usando ambas técnicas. Obviamente, hay muchos tipos de datos y supongo que los resultados variarán según qué variante se utilice. Aquí voy a centrarme en unos donde hay medidas repetidas de un factor aleatorio. También voy a situarme en un contexto académico, en el que interesan más las estimaciones de los efectos fijos, que en uno más próximo a mi mundo, la consultoría, donde son más relevantes las estimaciones regularizadas de los efectos aleatorios.

Tengo cuenta en Hypermind

Acaban de notificarme que han aprobado mi cuenta en Hypermind. Hypermind es un mercado de predicciones cuyo funcionamiento está descrito aquí y aquí mejor que yo pudiera hacerlo.

Ya iré contando. En tanto, una imagen extraída de uno de los enlaces anteriores que vale por mil palabras:

¿Deberían publicarse datos "en beta"?

Cuando vivía en Tailandia solía decir sobre la cultura corporativa de ese país que daba igual que las cosas se hiciesen bien o mal con tal de que se hiciesen tarde.

INE, CIS, ISCIII, etc., son un poco mejores: da igual que los datos se publiquen cuando ya no hacen falta con tal de que sean perfectos.

La pregunta es: ¿deberían publicarse datos imperfectos y con caveats pronto?

Nota: Eso ya se hace con indicadores importantes (véase esto).