La respuesta es: "Yo no"
La pregunta, a propósito, es esta.
La pregunta, a propósito, es esta.
La búsqueda de la causa más probable de un efecto tiene un nombre: razonamiento abductivo. Que el visitante al enlace anterior aprenderá distinto del deductivo y el inductivo.
Y que los viejos de estas páginas reconocerán en esta entrada que la formaliza y cuantifica en un caso concreto.
Sabemos y se sabe desde hace mucho que un sistema lineal de n ecuaciones con m incógnitas, cuando n > m (y especialmente cuando n » m), muy probablemente no tenga solución. No obstante, sistemas así ocurren naturalmente: ahí está el modelo lineal.
En tiempos, al cálculo de los mejores coeficientes para ajustar un conjunto de datos, cuando el número de observaciones excedía el de coeficientes se lo llamó combinación de observaciones. Desde muy pronto se observó que más observaciones conducían a mejores estimaciones. Pero se tardó mucho en establecer cómo.
Aparentemente, porque así lo establece el protocolo de actuación, del ayuntamiento de la villa. Lo resume la imagen
que bajé de Twitter y que me llamó la atención sobremanera. Algún gobierno municipal decidió en su día que estaba fuera de lugar tanto prevenir como estimar.
Me preocupa que dicho gobierno municipal estuviese reñido con el refranero en lo concerniente a la prevención. Pero no es el asunto, entiendo, por el que mis lectores me visitan.
Esta entrada es la continuación de otra casi homónima, El curioso caso de los suicidios en Madrid. Los datos de aquella ocasión eran dos cosas: raros y provinciales. Los de esta son otras dos: mucho más raros y muncipales. En efecto,
¡Ni jarto de vino!
Y, ahora, las notas:
La estadística cualitativa es una disciplina que, creo, no existe. Igual, simplemente, no existe porque no tiene razón de ser. No he buscado aún sistemáticamente, pero mi memoria no da con algo que se le parezca.
No es Statistics for Dummies: en la misma portada del libro dice que te quiere enseñar los cálculos y fórmulas esenciales. Como diré más abajo, no van por ahí los tiros.
Tampoco es la estadística descriptiva, que es lo menos estadístico que existe. Al menos, la que yo he visto, que tiende a ignorar, entre otras cosas, la variabilidad. La estadística descriptiva (insisto, la que yo conozco, como yo la he visto) es una rama de la aritmética, no de la estadística.
La primera es la factorización positiva de matrices positivas. La otra, como bien titula la entrada, los procesos de Poisson autoexcitados.
Por eso no podía dejar de traer a la atención de mis lectores seismic
. Aunque lo de Twitter ya huela.
Traigo hoy dos artículos interesantes sobre un mismo tema: la ciencia de datos reescribiendo de manera interesada resultados estadísticos más o menos conocidos, presentando como nuevos los que no lo son del todo y omitiendo interesadamente referecias bibliográficas.
Son este y este (aunque el segundo trata de más temas).
Es muy interesante el concepto de plagio inteligente en oposición al de plagio literal que denuncia el primer enlace.
Una de las cosas que menos me canso de repetir es que R no es (solo) un lenguaje de programación. R es un entorno para el análisis de datos. Los informáticos se horrorizan con él: no entienden por qué es como es. Pero, fundamentalmente, su problema es que no conciben que pueda haber sido diseñado para el REPL y no (solamente) para crear programas.
Casi todo el tiempo que paso con R abierto lo consumo trabajando interactivamente, no programando. R está pensado para facilitar ese tipo de trabajo, no para crear programas complejos. Está optimizado para el usuario, no para la máquina. De ahí se sigue una cascada de corolarios que no ha lugar plantear aquí.
Hoy he dado una charla en la Carlos III. En la comida me han preguntado, algo extrañados, por un ejemplo que había enseñado en el que ajustaba un modelo usando GAMs.
El motivo era que quienes preguntaban —que trabajan con ese tipo de modelos— encuentran muy difícil, se ve, convencer a otros usuarios de los métodos estadísticos (economistas, etc.) de adoptarlos. Yo he contestado que hace unos pocos días a unos primíparos que acababan de ajustar sus tres primeros lms
con R les invité a probar GAMs con sus datos. ¿Por qué no?
Hace unas semanas tuve un lapso de creatividad. Dejé de escribir durante un tiempo y me dediqué al sucedáneo: leer. Terminé, para variar, unos cuantos libros.
Uno de ellos es Proofiness, the Dark Arts of Mathematical Deception que está más o menos bien. En su mayor parte abunda sobre fenómenos conocidos, estudiados y sobradamente denunciados: que hay que recurre a argumentos basados en números, estadísticas o construcciones matemáticas más o menos sofisticadas para dar visos de verdad a mentiras flagrantes. Los ejemplos resultarán más afines culturalmente a quienes vivan en la orilla equivocada del Atlántico, aunque son los suficientemente conocidos para que sepamos de qué se habla y que el género es ensayo y no ficción.
De la manera geométrica. No sé si fue Spinoza o si se le adelantó alguno el que trató de explicar la filosofía y la ética como hacían los geómetras con sus puntos, rectas y arcos. Es cosa del XVIII y del XIX, si mal no recuerdo, el pretender trasladar esa manera de pensar científica y racional que tantos avances había proporcionado en física, química, etc. a las ciencias humanas.
Ayer viví una reedición. Acudí a las charlas de Machine Learning Spain. Una de ellas fue muy buena: ingenieros aeronáuticos explicando métodos que utilizaban para optimizar estudios de aerodinámica combinando resultados de simulaciones matemáticas con mediciones en túneles de viento.
Hace unos días recibí una consulta de una vieja amiga lingüista. Ella trabaja en algo que creo que se llama cocolocación: el estudio de palabras que aparecen o que tiendan a aparecer juntas en textos. Digamos que es algo así como una correlación o una regla de asociación.
Los lingüistas están muy interesados en ese tipo de fenómenos. Tradicionalmente (cada gremio tiene su librillo) usan la información mutua. Pero, al final, lo que tienen es una tabla de contingencia: situaciones en que aparece una, la otra, ambas o ninguna de las palabras.