Capítulo 4 Introducción a la estadística

Como se ha indicado en los capítulos anteriores, la teoría de la probabilidad es deductiva: o conocemos las probabilidades asociadas a los eventos son o podemos calcularlas aplicando ciertas reglas. La estadística trata de recorrer el camino inverso inductivamente: a partir de la observación de ciertos fenómenos aleatorios trata de revelar el mecanismo aleatorio subyacente. En la frase anterior, la expresión revelar el mecanismo aleatorio subyacente significa concretamente poder llegar a decir, por ejemplo, que los datos siguen una distribución normal con media próxima a 1.7 y desviación estándar de alrededor de 0.4; no obstante, hay que tener en cuenta que no siempre interesa describir el mecanismo aleatorio completo: puede bastarnos con, por ejemplo, dar una estimación de la media de esa distribución normal..

4.1 Universo, muestra y big data

Los conceptos de universo y muestra permiten ilustrar la diferencia fundamental entre la teoría de la probabilidad y la estadística. En probabilidad se conoce (o se hace como que se conoce) el universo. Por ejemplo, puede saberse que en un país de 47 millones de habitantes hay 4 millones de ellos en paro. A partir de esos datos, puede deducirse la probabilidad de que en una muestra de cinco mil de ellos haya un determinado número de parados: se puede aproximar por una distribución binomial con una probabilidad de éxito conocida.

La estadística, sin embargo, se plantea un problema más real y de verdadera importancia práctica: a partir del número de parados en una muestra, estimar el de los existentes en la población total, en el universo.

Los universos no se extienden únicamente a través de poblaciones. Los términos universo y muestra forman parte de una nomenclatura con raíces históricas, perteneciente a la época en la que la estadística se ocupaba esencialmente del estudio de censos y enumeraciones. Los universos, tal como los entendemos hoy, también se extienden —y esto es importante— en el tiempo y sobre lo contingente, lo que tal vez no ocurra nunca: cuando un probabilista asigna una probabilidad de 0.7 al evento de que un determinado futbolista marque un penalti, está refiriéndose implícitamente a un universo que incluye tanto los penaltis tirados como los aún no tirados por dicho futbolista. Lo mismo ocurre cuando se habla de la probabilidad de que un cliente convierta (donde se incluyen a los clientes del día de mañana) o a la de obtener cara en un lanzamiento de moneda (aun cuando no se realice ninguno).

Sin embargo, las muestras son concretas: los penaltis lanzados durante las últimas tres temporadas, el histórico de visitas y conversiones durante los últimos meses o el número de caras obtenidas en quinientos lanzamientos de una determinada moneda.

El big data ha replanteado la distinción entre universo y muestra. Si tienes todos los datos, si tu muestra es igual al universo, ¿cabe aún distinguir entre la una y el otro? ¿Tiene eso impacto sobre la inferencia, i.e., el proceso de razonar desde lo concreto a lo general? Así, David Hand argumenta (Hand 1999):

Sin embargo, los problemas de minería de datos disponen frecuentemente de la población completa: los detalles de todos los empleados de la empresa, de todos los clientes de la base de datos o de todas las transacciones realizadas el año anterior. En tales casos, la noción de los tests de significancia pierden su razón de ser: el valor observado del estadístico (el valor medio de todas las transacciones del año anterior, por ejemplo) es el valor del parámetro.

En el caso del país y el paro descrito más arriba, esa discusión podría ser relevante. Podría pensarse en un sistema que automática y fidedignamente pudiese proporcionar el número de parados (o el número de fumadores de marihuana) en un país en tiempo real. Sin embargo, en muchos otros casos de interés, el universo no cabe en el big data: no podría existir un registro de fenómenos jamás observados, como el efecto de una bajada de precios de un producto en sus ventas; o como las noticias que más pudieran interesar mañana a un lector determinado de un periódico; o, incluso, qué enfermedad puede tener un paciente que muestra un determinado cuadro clínico (antes de realizar pruebas adicionales). Porque el universo incluye eventos futuros, potenciales o nunca observados como el efecto de una intervención potencial o un comportamiento futuro. Además, frecuentemente, disponer de toda la información puede ser prohibitivamente caro: piénsese en pruebas médicas.

Por eso, siempre tendremos que tomar decisiones bajo incertidumbre, es decir, teniendo una visión parcial del universo. Lo cual constituye esencialmente el objeto de la estadística.

4.2 El objeto de la estadística

Aunque existen precedentes previos de censos y otras operaciones estadísticas, la estadística (e incluso, su propio nombre: Statistik) nació en Alemania a mediados del s. XVIII y estaba relacionada con la recogida sistemática de información económica, demográfica, etc. por parte del estado. Existe una diferencia importante entre estas colecciones de datos y otras previas: por su propia estructura, formato y presentación estaban preparadas para la comparación. Típicamente, la información se resumía en tablas que permitían la comparación de variables climáticas, agropecuarias, económicas, demográficas, etc. entre las distintas unidades territoriales.

Esta aritmética política, como se la conoció también en cierto momento histórico, se convirtió en aritmética social en el siglo XIX tanto en Inglaterra como en Francia. En ambos países, aunque desde perspectivas y con intereses distintos, comenzaron a acumularse datos de interés social: censos, causas de muerte, impuestos, etc. Estos primeros estadísticos comenzaron a apreciar regularidades sorprendentes en los datos; por ejemplo, en la tasa de suicidios, que tendía a mantenerse tozudamente constante a través del tiempo. Estas regularidades y su estudio dieron lugar a disciplinas como la sociología. Pero también a un incipiente desarrollo de los aspectos matemáticos de la estadística.

La estadística clásica, la que se enseña en los cursos de iniciación, sin embargo, es un invento británico del periodo que aproximadamente va de 1880 a 1940 y está muy relacionada con los estudios agrícolas, aplicaciones industriales, etc. que planteaban problemas de otra naturaleza: ¿es este tratamiento efectivo?, ¿son los rendimientos de estas semillas significativamente diferentes?, etc. Es en ese contexto que nacieron conceptos fundamentales como las pruebas de hipótesis, los p-valores, el análisis de la varianza, etc.

La estadística moderna, muy reciente, es la que construye sobre la estadística clásica pero, a diferencia de aquella, usa ordenadores. La estadística clásica y la moderna comparten problemas y objetivos, pero se diferencian en la forma. Muchos de los aspectos más abstrusos de la estadística clásica que colean todavía en textos modernos se deben a una causa tremendamente pedestre: la falta de capacidad de cálculo en la época que los vio nacer, que obligó a los primeros estadísticos clásicos a ingeniar y proponer aproximaciones analíticas complejas por no poder aplicar otras más naturales y directas pero que habrían requerido los ordenadores que entonces no existían. Frecuentemente, esas técnicas resuelven un problema que hoy hemos aprendido a resolver de otra manera.

La emergencia de los ordenadores ha permitido actualmente establecer una relación muy fructífera con otra disciplina que a veces se quiere ver confrontada a ella: la del aprendizaje automático (machine learning; antes data mining). Y también la del redescubrimiento de los métodos bayesianos, muy exigentes computacionalmente, pero que están adquiriendo una importancia fundamental hoy en día.

En cualquier caso, el hilo conductor de la estadística moderna, del s. XVIII hasta nuestros días, es el del desarrollo de técnicas para lograr dos objetivos fundamentales:

  • Comparar
  • Tomar decisiones

Estos objetivos están en conflicto con una visión reduccionista de la estadística (o, más propiamente, del análisis estadístico de datos) que es la que prevalece en libros y programas académicos. Para poder alcanzar los objetivos anteriores, esta visión debería trascenderse para incluir desde la adecuada recolección de datos hasta la discusión en términos económicos, sociales o políticos de sus resultados de cara a la toma de las decisiones últimas.

4.3 Bibliografía razonada

La anterior caracterización de la estadística es solo una de las muchas que se han ensayado; en (Fienberg 2014) se trata de mostrar una panorámica de otras caracterizaciones, presentes e históricas, proporcionadas por una variedad de autores.

Los interesados en la historia de la estadística pueden consultar obras como (Cohen 2005), (Desrosières 2004) o (Stigler 1986), que dan cuenta de los desarrollos de la estadística antes de su periodo clásico, hasta 1900. Una historia muy atípica de la estadística a partir de 1900 la proporciona (Efron and Hastie 2016), un libro técnico que categoriza problemas y técnicas de la estadística atendiendo al periodo al que corresponden y que distingue la estadística clásica de los métodos de los inicios de la época de los ordenadores y estos a su vez de los que son de interés en el siglo actual.

Al paso de lo concreto, la muestra, a lo general, la población, se lo ha denominado arriba inferencia. Es un concepto relacionado con el llamado problema de la inducción (Henderson 2020), discutido en su forma moderna durante los últimos 300 años por los filósofos desde Hume.

Referencias

Cohen, I.B. 2005. El Triunfo de Los Números. Alianza Editorial.

Desrosières, A. 2004. La Política de Los Grandes Números. Editorial Melusina.

Efron, B., and T. Hastie. 2016. Computer Age Statistical Inference: Algorithms, Evidence, and Data Science. https://doi.org/10.1017/CBO9781316576533.

Fienberg, Stephen E. 2014. “What Is Statistics?” Annual Review of Statistics and Its Application 1 (1): 1–9. https://doi.org/10.1146/annurev-statistics-022513-115703.

Hand, David J. 1999. “Statistics and Data Mining: Intersecting Disciplines.” SIGKDD Explorations 1: 16–19.

Henderson, Leah. 2020. “The Problem of Induction.” In The Stanford Encyclopedia of Philosophy, edited by Edward N. Zalta, Spring 2020. https://plato.stanford.edu/archives/spr2020/entries/induction-problem/; Metaphysics Research Lab, Stanford University.

Stigler, Stephen. 1986. The History of Statistics: The Measurement of Uncertainty Before 1900.