Evidencialidad

Por afición y, últimamente, por motivos laborales también, me ha preocupado cómo se refleja la incertidumbre en el lenguaje y cómo este sirve para transmitir aquella (véase, por ejemplo, esto).

En el español tenemos algunos recursos para manifestar grados de certidumbre (el condicional, el subjuntivo, etc.). Véanse por ejemplo (esta es la referencia) a los 570 sufridos hablantes del tuyuca que no pueden decir simplemente “él jugaba al fútbol”, sino que tienen que elegir obligatoriamente entre los diferentes sufijos verbales que (además de indicar la persona y el tiempo) indican el modo por el cual el hablante obtuvo el conocimiento que afirma en el enunciado:

Clases sociales y clústering

El clústering (o análisis de conglomerados, o como se le quiera llamar) es un atajo intelectual. En lugar de estudiar individuos (no necesariamente personas), estos se agrupan de manera más o menos cuestionable, se eligen representantes en cada uno de ellos, cuyas características se atribuyen a continuación a todos sus miembros.

No puedo evitar escribir párrafos como el anterior sin que me venga a la nariz ese olor a naftalina de cuando era crío y abría los armarios de mi abuela.

Energía solar: instalaciones industriales vs paneles en tejados

Llegó a mis manos un documento sobre los costes relativos de las distintas tecnologías e implementaciones para generar energía eléctrica del que rescato este subgráfico:

precio_energia_solar

Muestra el precio del MWh en dólares y sirve para comparar, por ejemplo, el coste de los paneles que la gente instala en sus tejados (184-300) con el de instalaciones industriales (50-70).

Las conclusiones, de nuevo, de cada cual.

¿Cómo seleccionar un cubo al azar?

Podemos hacerlo seleccionando aleatoriamente (uniformemente)

  • la longitud de la arista (p.e., entre 3 y 5 cm)
  • la superficie de la cara (p.e., entre 9 y 25 cm²)
  • su volumen (p.e., entre 27 y 125 cm³)

Obviamente, los tres mecanismos anteriores generarán distribuciones de muestreo diferentes (¿cuáles?).

Una trivialidad, tal vez, que tiene que ver con esto y con esto.

Visualización de datos de salud con nihil obstat científico

Investigando para las clases del máster de visualización de datos de Unidad Editorial (que arranca hoy mismo), di con Vizhealth, una guía de estilo para la representación de datos relativos a la salud de los individuos con el nihil obstat de un equipo multidisciplinar de médicos, diseñadores, sicólogos, etc.

vizhealth

Id, que ellos lo cuentan mejor que yo, y visitad la galería de ejemplos.

storr: como Redis, pero con R

R

Probablemente no habéis utilizado nunca Redis. Redis es un sistema de almacenamiento basado en parejas clave-valor. Es similar a un diccionario de Python o a un entorno en R. Salvo que el almacenamiento es externo al proceso: los datos se guardan en un sistema distribuido y potencialmente ilimitado en cuanto a capacidad.

Si queréis probar algo parecido, además de los diccionarios y los entornos, podéis probar con storr , un paquete reciente de R. Aquí tenéis una minisesión de ejemplo:

rstan y rstanarm en Medialab-Prado este jueves

Este jueves (2016-02-11), a las 19:00, hablaré de rstan y de rstanarm en Medialab-Prado dentro de la reunión de usuarios de R de Madrid. Con el concurso de estos paquetes, replantearé tres problemas estadísticos conocidos desde una óptica bayesiana:

  • Pruebas de hipótesis
  • Regresión lineal
  • Modelos estructurales de series temporales

Si quieres asistir, reserva tu plaza aquí.

Probablemente, discutiré todos esos modelos en estas páginas en los próximos días, además de colgar las diapositivas y sus fuentes.

Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga

¡Olé!

Con la frase que titula esta entrada se cierra este artículo tan torero de eldiario.es.

El resto de lo que se publica me viene de perillas para ilustrar a mis alumnos del máster de ciencia de datos de KSchool eso de la dependencia e independencia condicional.

Lo que el artículo argumenta, y que nadie pone en duda, es que altas concentraciones de óxidos de nitrógeno (A) y picos de hospitalizaciones por enfermedades respiratiorias (B), no son eventos independientes. Es decir, que $latex P(A \cap B) \neq P(A)P(B)$. En otros términos, que nuestro conocimiento de A nos permite refinar nuestra estimación de B. Todo correcto.

Y termino con lo de los intervalos

Y termino con lo de los intervalos. Me refiero a esto y esto.

Nunca me habría atrevido a escribir sobre el tema, y exponerme, de paso, a la muy razonadas explicaciones de quienes tuvieron a bien comentarlas, si no hubiese sido por un tema personal: el recuerdo de la frustración que me supuso hacerme en su día con la teoría subyacente tanto a las pruebas de hipótesis como a la construcción de intervalos de confianza.