Capítulo 5 Estadística descriptiva

La estadística descriptiva es la parte sine qua non de la estadística; podría considerarse incluso no como una parte de la estadística sino como una vía de entrada a ella, la estadística primera. No hay proyecto estadístico sin una dimensión descriptiva; más aún, muchos proyectos estadísticos se agotan en ella, es decir, son meramente descriptivos. Piénsese, por ejemplo, en los portales de información sobre la evolución del covid-19: muchos de ellos no dejan de ser colecciones de tablas, gráficos y mapas. De hecho, gran parte de los proyectos que se exponen en congresos y conferencias de big data, inteligencia artificial y similares son de carácter exclusivamente descriptivo.

La estadística descriptiva comprende un conjunto de técnicas para un análisis preliminar de los datos que tiene un doble objetivo. El primero consiste en familiarizarse con ellos y descubrir y describir sus principales características mediante operaciones de índole esencialmente exploratorio y, frecuentemente, de carácter efímero. En ese sentido, la estadística descriptiva está muy relacionada con una disciplina que lleva emergiendo demasiado tiempo, el EDA (exploratory data analysis), que extiende la exploración gráfica de los datos hasta incluir en ella prácticamente la fase de análisis.

El segundo de los objetivos es el de transmitir eficazmente el conocimiento adquirido sobre los datos a terceros, lo que exige prestar atención a las cuestiones editoriales —es decir, la selección de aquello que es relevante mostrar sin incurrir en excesos— y de diseño y forma.

5.1 Resúmenes numéricos

Aunque menos útiles de lo que suele considerarse y de la importancia que se les otorga, los resúmenes numéricos son rápidos y sirven para detectar fenómenos gruesos en los datos antes de un análisis más pormenorizado. Dados unos datos nuevos, en R, se pueden obtener resúmenes de interés usando, por ejemplo y entre otras, las funciones:

  • mean, la media, que es un estadístico sobrevalorado y que puede verse muy severamente afectado por la presencia de outliers.
  • var, la varianza o sd, la desviación estándar. Son más importantes cuando los datos son normales (o aproximadamente normales); en otros casos, su importancia como medida de la dispersión es relativa y más difícil de interpretar. Además, como la media —o incluso más que ella— se ven afectadas por los outliers.
  • quantile, para los cuantiles, que son resúmenes más interesantes y que permiten capturar más información de los datos; de entre ellos, el más importante es la mediana, median, una medida de centralidad en general mucho más útil y robusta que la media.
  • Relacionada con la anterior, fivenum proporciona los cinco números de Tukey, un resumen de un vector numérico que incluye el máximo, el mínimo, la mediana y los cuartiles. Es muy interesante porque el máximo y el mínimo, en ocasiones, de no ser razonables, pueden apuntar a problemas serios en los datos. Los cuartiles, por su parte, acotan la masa de la distribución, la región donde es más probable encontrar observaciones.
  • summary, que para vectores numéricos proporciona los cinco números de Tukey más la media. Tiene la ventaja de que puede aplicarse directamente a tablas y que para columnas categóricas ofrece también la frecuencia de las clases más comunes.

Existen muchas más funciones de ese tipo, pero se resumen en dos tipos según el tipo de información que proporcionen: información sobre la centralidad de la distribución o información sobre su dispersión. Las medidas de centralidad tratan de ofrecer un resumen de una distribución basado en un único valor, que frecuentemente se interpreta (casi siempre de manera errónea o engañosa) como el sujeto representativo. Las medidas de centralidad más habituales son la media, la mediana y la moda (el valor más frecuente), aunque hay otras como las llamadas medias winsorizadas, que son las medias de los valores restantes después de haber eliminado un determinado porcentaje de los más alejados. Para distribuciones simétricas y unimodales (como la normal), todas estas medidas de centralidad coinciden y tienen una interpretación muy natural.

En la gráfica anterior se han mostrado dos muestras de datos procedentes de dos distribuciones distintas y se han representado la media (en rojo) y la mediana (en azul) de los mismos. Para una distribución simétrica y unimodal como la normal, ambos valores coinciden y asumen un valor notable de la distribución (aunque, nótese, no es representativo de los valores). En el segundo caso, la situación es distinta y media y mediana difieren sensiblemente. En distribuciones como ella, que tienen una cola larga, la media suele ser superior a la mediana y ninguno de los dos valores puede calificarse de notable dentro de la distribución.

Una medida de centralidad es una descripción mínima de una distribución de probabilidad. Interesa, además, conocer la distribución de los datos alrededor del valor central. Los valores máximo y mínimo, los cuantiles (que pueden considerarse versiones menos ruidosas de los anteriores), la varianza y la desviación estándar y muchos otros tratan de dar una idea de como se distribuyen los valores de la muestra o población alrededor del valor central.

Es típico en estadística caracterizar una distribución por su media y su varianza (o desviación estándar). Este tipo de caracterización tiene sentido únicamente cuando los datos tienen una distribución normal —recuérdese cómo la distribución normal está perfectamente caracterizada cuando se conocen su media y su varianza— pero puede ser engañosa para otras. Además, esa caracterización en términos de la media y la varianza es antinatural: estamos acostumbrados en nuestra actividad diaria a describir la variabilidad mediante rangos de valores; si alguien nos pregunta, por ejemplo, cuánto vale una botella de vino en determinado restaurante, nunca contestaríamos con el valor medio y su desviación estándar; es mucho más natural e informativo ofrecer una horquilla de valores: lo normal es que cueste entre tal y tal precio. Hay que advertir que, en todo caso, en la práctica, aunque muchos convengan en el carácter antinatural del binomio media-desviación estándar, la tradición tiene un peso notable y cabe esperar que en muchas circunstancias lo esperen y prefieran a otras caracterizaciones de los datos más adecuadas.

De hecho, si hubiese una ley prohibiendo el uso de más de una cifra para describir distribuciones de muestras de números, la recomendación sería usar una medida de centralidad (preferiblemente, la mediana); y, si se permitiesen dos, un rango de valores típicos. Antiguamente, con las limitaciones de ancho de banda de las tecnologías de intercambio de información –por ejemplo, la carta manuscrita—, era imperativo usar ese tipo de resúmenes. Sin embargo, hoy en día, es posible y preferible mostrar la distribución (prácticamente) completa usando las técnicas de representación gráfica que se discutirán en las siguientes secciones.

5.2 Tablas de datos

Es frecuente mostrar resúmenes de datos en forma tabular. Las tablas de datos son frecuentemente alternativas válidas (y recomendadas) a ciertos gráficos, entre los que se cuentan muchos diagramas de barras o las coropletas, i.e, mapas donde los valores asociados a los distintos territorios se codifican con colores. Crear tablas efectivas es un arte que pocas veces se ejerce con el dominio que requiere. Aunque abundar sobre las características deseables de una buena tabla queda al margen del alcance de estas páginas, en las referencias se incluyen enlaces a algunos manuales valiosos.

5.3 Visualización de datos

La estadística descriptiva es inseparable de la visualización de datos, casi una disciplina en sí misma, pero que a menudo los mismos estadísticos marginan y que no se suele tratar con la profundidad que merece en la mayor parte de los textos y programas formativos en la materia. El famoso Cuarteto de Anscombe (Anscombe’s quartet 2020) —cuatro configuraciones de datos manifiestamente distintos entre sí pero que comparten los mismos estadísticos habituales (medias, correlaciones, etc.)— pone de manifiesto la necesidad de no volar con instrumentos en lo que a la estadística descriptiva se refiere.

En esta sección vamos a repasar algunas técnicas clásicas y otras menos habituales de visualización de información cuantitativa. En primer lugar y como evolución de los resúmenes estadísticos básicos de la sección anterior, presentaremos los histogramas. Los histogramas describen la forma de una distribución y dan cuenta no solo de sus valores centrales (i.e., los que indicarían la media o la mediana) o su dispersión (a través de la varianza o la desviación estándar) sino, además, su forma, el aspecto de sus colas y sus valores máximo y mínimo.

Es, casi indubitablemente, el primer resumen estadístico —previo incluso a los cuantitativos de la sección anterior— que realizar sobre un vector de datos de interés. Además, en R, prácticamente con el mismo esfuerzo —medido, si se quiere, en términos del número de teclas que es necesario pulsar—, se obtiene un resumen mucho más informativo.

En el gráfico que aparece a continuación se representa el histograma de una muestra de la distribución gamma y se le superpone la gráfica de la función de densidad correspondiente.

Los histogramas, en el fondo, son herencia de una época en que la capacidad computacional no era la misma que hoy en día: son representaciones sencillas de realizar incluso a mano. Una alternativa a ellos son las representaciones directas de la curva de densidad empírica estimada usando la función density:

Las dos técnicas anteriores permiten visualizar vectores numéricos. Para información categórica, la representación más habitual es la de los diagramas de barras, que pueden representar ya sea el número de ocurrencias de cada categoría o su proporción (o porcentaje) en la muestra.

En estas páginas omitiremos la discusión sobre la conveniencia o no de ordenar las barras por tamaño o la de de apilar o adjuntar barras para realizar comparaciones más complejas en que intervienen más variables. Sí que recogeremos, sin embargo, el parecer de quienes opinan que las barras son representaciones excesivamente aparatosas para la escasa información que proporcionan: en el gráfico anterior, apenas 4 números y sus correspondientes etiquetas; una tabla de frecuencias sería tanto o más efectiva.

Como alternativa a ellas, algunos autores sugieren los gráficos de puntos en que se reemplaza la barra completa por un único punto.

Una diferencia notable entre las barras y los puntos es que las primeras, para una correcta interpretación de los datos, exigen que estén basadas en el nivel 0. Subrayan, por tanto, las medidas absolutas. En cambio, para los diagramas de puntos esa restricción se suaviza y pueden representar mejor las variaciones relativas (p.e., entre medidas muy parecidas, con variaciones del orden del 1% entre ellas, que serían inapreciables con barras basadas en cero).

Los gráficos anteriores sirven para representar una única variable aleatoria, sea continua o categórica. En ocasiones hay que comparar dos de ellas. Si son numéricas, el gráfico por excelencia es el de dispersión:

Sin embargo, a veces solo interesa comparar las distribuciones de dos variables. Para eso son útiles los gráficos de cuantiles (o qq), como el siguiente:

En él se comparan los cuantiles de dos muestras: una normal estándar y una distribución t con 3 grados de libertad. En la zona central la gráfica es casi una recta, lo que significa que las distribuciones son muy parecidas (salvo en la escala: los cuantiles que para la normal recorren los valores entre -2 y 2, cubren el intervalo entre -5 y 5 para la distribución t). La gran diferencia se observa en las colas: las de la t son más gruesas y eso se refleja en la característica curvatura en los extremos de la gráfica: los cuantiles de la distribución t crecen más rápidamente que los de la normal y eso curva la gráfica.

El gráfico siguiente muestra otro ejemplo en el que se comparan las distribuciones gamma y lognormal. Se aprecia cómo la cola de la segunda es más pesada que la de la primera, tiene una mayor dispersión.

Estos diagramas pueden servirnos también para comprobar informalmente si unos datos proceden o no de una determinada distribución. Por ejemplo, puede darse el caso de que dispongamos de una muestra de datos x y sospechemos que proceden de una distribución \(\Gamma(3,4)\). Si el correspondiente qqplot(x, gamma(length(x), 3, 4)) es esencialmente una recta, será razonable suponer que, efectivamente, siguen esa o una distribución muy similar; y se puede concluir lo contrario, en cambio, el correspondiente gráfico tiene un aspecto similar a los mostrados más arriba.

En cualquier caso, hay que tener cuidado con extraer conclusiones acerca de las colas de distribuciones con este tipo de representaciones gráficas porque, por definición, en las colas hay pocas observaciones, y, como consecuencia, la inestabilidad de la representación en los extremos puede ser grande.

La representación gráfica estándar para representar conjuntamente un vector continuo y otro categórico son los diagramas de caja:

Los diagramas de caja están íntimamente relacionados con los cinco números de Tukey; de hecho, fue Tukey el inventor de este tipo de diagramas. Muestran la distribución de la variable continua a través de los distintos niveles de la categórica resumiendo su distribución y disponiéndola en paralelo al resto. Así se pueden comparar fácilmente sus valores relativos.

Las cajas son representaciones sucintas de la distribución de la variable continua. Reflejan su rango intercuartílico (límites de la caja), donde se acumula la masa de la distribución, su mediana (trazo horizontal grueso) y unos indicadores, los bigotes, que indican hasta donde se extienden los valores no considerados anómalos. Estos, de ocurrir, se representan como puntos aislados.

De hecho, en la gráfica anterior aparece un valor anómalo (>10) para la categoría D. Ese valor no parece atípico dentro de la distribución agregada de los datos: es parecido a muchas observaciones de las categorías A, B y F; pero destaca cuando se lo compara únicamente con los de su propio grupo. Lo mismo puede decirse de la observación anómala (>5) de la categoría C.

Características adicionales de la distribución (como la bimodalidad, de existir) quedan desdibujados por esta representación tan sencilla como efectiva. Por eso, en algunas circunstancias, son preferibles los gráficos de violín —que pueden considerarse un reemplazo de los diagramas de cajas— o la superposición de las densidades —relativamente frecuente aunque menos recomendable, salvo tal vez cuando el número de grupos es pequeño—, como en los ejemplos que se muestran a continuación:

Cuando ambas variables son categóricas, pueden usarse barras (sean apiladas o yuxtapuestas) o los llamados gráficos de mosaico, una de cuyas variantes más básicas es:

En el gráfico anterior puede apreciarse, por ejemplo, cómo predominan los ojos marrones entre los sujetos con pelo negro. Existen alternativas que usan gradientes de color para indicar excesos o defectos relativos de conteos con respecto a los esperados, algo sobre lo que se abundará más adelante, al tratar los datos tabulares.

Todos los anteriores son gráficos excesivamente simples: muestran a las variables una a una o por parejas. Sin embargo, en el estudio de fenómenos reales, muy frecuentemente, es conveniente examinar el efecto simultáneo de varias variables. Existen técnicas para mostrar ese tipo de relaciones más complejas, como la siguiente, donde se utilizan otros elementos gráficos, como el color o el tamaño de los puntos, para codificar variables adicionales:

En el gráfico anterior se muestran cuatro variables simultáneamente; eso permite apreciar, por ejemplo, cómo la especie setosa está claramente separada de las otras dos y cómo pétalos y sépalos de las setosas son claramente más pequeños que los de las otras.

Una de las maneras más eficaces de incluir variables adicionales en un gráfico es usando la técnica conocida como de los pequeños múltiplos. Esta técnica consiste en dividir el lienzo en varios paneles dispuestos en una retícula y ordenados de una determinada manera para poder apreciar los cambios en una representación gráfica básica a través de los niveles de otra u otras variables.

En el ejemplo que aparece a continuación se muestran los histogramas de muestras de una distribución gamma a lo largo de diversos valores de uno de sus parámetros.

Los pequeños múltiplos son alternativas tanto a la superposición de figuras como, en algunos casos, a las animaciones. El principal problema de estas últimas, a pesar de su creciente popularidad en un mundo cada vez más audiovisual, es que ordenan las vistas a los datos en el tiempo y no en el espacio, lo que dificulta las comparaciones.

Frecuentemente, antes de representar unos datos, sean estos continuos o categóricos, es conveniente —aunque en determinadas circunstancias, prácticamente obligatorio— realizar transformaciones en ellos. Es muy típico tener que tomar logaritmos en datos continuos, sobre todo si se extienden a lo largo de varios órdenes de magnitud —como puede ocurrir, por ejemplo, con datos de ingresos—; también el agrupar las categorías menos frecuentes en datos categóricos cuando tienen muchas.

Para terminar, un área que está cobrando gran importancia hoy en día es el de los gráficos interactivos. Permiten tanto la incorporación de muchas variables simultáneamente como la exploración de la información por parte del usuario. Tienen ciertas ventajas sobre los gráficos estáticos, frecuentemente infravalorados, pero resultan muy eficaces en determinados contextos. A pesar de su interés, en estas páginas no discutiremos este tipo de gráficos, que exigirían una monografía específica. Eso sí, se invita al lector a explorar y familiarizarse con esas técnicas y las herramientas necesarias.

5.4 Análisis exploratorio de datos (EDA)

El análisis exploratorio de datos (o EDA, de exploratory data analysis) es un conjunto de técnicas para explorar e incluso modelar datos usando fundamentalmente técnicas gráficas de manera interactiva. Muchas de estas técnicas se basan en la representación simultánea de los mismos datos desde distintas perspectivas con herramientas específicas. Estas herramientas permiten realizar, entre otras, dos operaciones muy potentes y relacionadas que permiten acotar y poner en relieve los patrones relevantes que emergen en la visualización metódica y antenta de los datos.

La primera es la del enlazado de datos (linked data), que ilustra la siguiente captura de pantalla de una sesión de trabajo con Mondrian ((Theus, n.d.)):

En ella aparecen distintas ventanas, cinco en total, cada una de las cuales muestra una perspectiva distinta de los mismos datos. En particular, se muestran cuatro diagramas de barras correspondientes a cuatro variables categóricas y un mosaico que representa una visión conjunta de tres variables simultáneamente. En uno de los gráficos de barras se ha seleccionado una de las barras (marcada en verde) y esta selección se ha propagado automáticamente al resto de las perspectivas enlazando las observaciones correspondientes y mostrándolas también en el mismo tono de verde. Así se puede ver cómo se distribuyen las observaciones que corresponden a un nivel de satisfacción high a través del resto de las variables. Ni que decir tiene que el enlazado opera también en los gráficos de dispersión (permitiendo seleccionar observaciones dentro de recuadros marcados con el ratón) y otras de las disponibles en Mondrian.

Por su parte, la figura

ilustra la otra operación antes anunciada, el brushing. Ahora se ha optado por utilizar el brushing en la perspectiva inferior derecha, el gráfico de barras, para colorear cada una de las barras y esos colores se han propagado también al resto de las perspectivas. Podría decirse que el brushing es un enlazado en bloque.

Existen otras técnicas relacionadas, como las que permiten seleccionar solo segmentos de datos, realizar queries visuales, y otras disponibles en diversas herramientas interactivas sobre las que no se dirá nada más aquí.

5.5 Modelos como herramientas descriptivas

Los modelos estadísticos de los que tratan las siguientes secciones pueden interpretarse como resúmenes —aunque de una forma muy particular— de conjuntos de datos. En concreto, nos muestran cómo son y cómo interactúan las variables contenidas en dichos datos y nos permiten describirlos y entenderlos. Bajo esa perspectiva, la modelización de datos tiene el mismo objetivo que la estadística descriptiva tal como se ha descrito en este capítulo.

De hecho, indicadores simples como la media no son otra cosa —como se verá más adelante— que el coeficiente de una regresión lineal trivial o vacía, es decir, sin regresores. De la misma manera, muchos de los indicadores mencionados arriba pueden reinterpretarse como elementos de modelos también triviales. Esta observación es útil como criterio para trascender las limitaciones de esos indicadores simples: una vez interpretados como subproducto de modelos hipersimples, es posible construir otros más complejos que los maticen y superen.

Algunos procedimientos estadísticos que típicamente se incluyen dentro de capítulos dedicados a la modelización estadística se utilizan mucho más a menudo, sin embargo, con fines descriptivos. En esta sección vamos a considerar dos de ellos. El primero es el de la regresión local (o lowess), que permite añadir a gráficos de dispersión una curva que de alguna manera resume el efecto de una variable sobre la otra, sea o no esta lineal. En R, es posible añadir regresiones locales a gráficos de dispersión usando, por ejemplo, la función geom_smooth del paquete ggplot2:

La curva que muestra el gráfico es la predicción de un modelo que, técnicamente, es más complejo que muchos que los que tratan los capítulos siguientes. Sin embargo, la regresión local no fue ideada (véase (Cleveland 1979)) con los mismos objetivos que dichos modelos sino, más bien, de servir de apoyo y enriquecer la información que muestran los diagramas de dispersión.

Obviamente, también se podría haber utilizado en este caso —y de hecho, lo haremos posteriormente— un modelo lineal estándar para representar la correspondiente recta de regresión sobre el gráfico de dispersión; sin embargo, la regresión local es más general y aplica tanto cuando la relación entre las variables es razonablemente lineal como en muchas otras en las que no.

El segundo de los procedimientos estadísticos de vocación descriptiva que cabe mencionar es el de los árboles de regresión (o clasificación, según el contexto). Por ejemplo, el conjunto de datos olive, usado en el siguiente bloque de código, contiene información sobre la composición química de diversas muestras de aceite italiano además de las etiquetas de la región de la que proceden. Haciendo

se construye primero un árbol de decisión y posteriormente se representa para obtener la gráfica

Esta gráfica pone de manifiesto una relación para nada evidente en los datos originales: por ejemplo, que una concentración elevada de ácido eicosenoico identifica los aceites procedentes del sur de Italia y que de todas las variables que contiene, las que más información proporcionan acerca de la procedencia del aceite son las correspondientes a las de las concentraciones de los ácidos eicosenoico y linoleico.

5.6 Otras consideraciones relevantes

En esta sección se van a tratar tres temas relacionados cuya inclusión aquí se justifica por la estrecha relación que guardan tanto con la estadística descriptiva como con la práctica de la ciencia de datos: los outliers, los nulos y las transformaciones de variables.

5.6.1 Los outliers

Los outilers son valores inesperados que uno encuentra en una muestra de datos. La solución más drástica que en ocasiones se aplica para tratarlos es, una vez identificados —posiblemente, utilizando algunas de las técnicas descritas en este capítulo— eliminarlos. Sin embargo, cabe plantear otras más finas consecuencia de plantearse la siguiente pregunta: ¿por qué existen en lugar de no existir?

Pueden existir porque, por ejemplo, uno considera que ciertos datos tienen una distribución distinta de la que se le presupone. El ejemplo de libro es el de la distribución de los retornos (o variaciones) bursátiles. Es tentador considerarlos normales —es decir, suponer que tienen una distribución normal— pero un análisis más fino revela que esa no es la distribución adecuada. Precisamente, porque la distribución normal no tiene outliers, mientras que los datos bursátiles observados sí. Reemplazar la distribución normal en el análisis de datos bursátiles por otras, como la t de Student con un número de grados de libertad a determinar, puede ser una solución.

Pero, en general, los outliers aparecen como consecuencia de la mezcla (muchas veces no intencional) de distribuciones. Un marco conceptual para explicar la existencia de outliers es pensar que la mayor parte de los datos proceden de la distribución verdadera de interés, mientras que un número pequeño de ellos proceden de otra distinta. Por ejemplo:

  • El autor analizaba hace años una base de datos de pacientes de diabetes. Uno de ellos era, sistemáticamente, se lo mirase como se lo mirase, un outlier. Al final, se descubrió que dicho paciente era, además de diabético, politoxicómano y enfermo de un par de enfermedades crónicas más. Era un caso interesante que en un contexto más amplio, podría considerarse un sujeto más en un conjunto de datos de otros con características similares a las suyas; sin embargo, dentro del que era objeto de estudio entonces, era un caso anómalo.
  • No es anormal encontrar bases de datos con edades negativas o mayores de 200 años. Uno puede pensar que a la distribución natural de las edades de los sujetos se ha sobreañadido otra que incluye la distribución de errores de transcripción de datos. Una característica propia de este tipo de errores —de transcripción— es el de que aparecen cifras de más.
  • En datos del mundo de extremistán (véase la discusión respecto a normalistán y extremistán en capítulos previos) pueden aparecer datos extravagantes: por ejemplo, en datos de renta o ingresos, pueden aparecer datos correspondientes a un gran empresario o un futbolista. Son datos verdaderos y ciertos, pero que pueden considerarse no representativos de la población sujeta a estudio.
  • Otros outliers son artefactos de ciertas manipulaciones de los datos. Por ejemplo, es habitual recodificar variables binarias (sí/no) usando los valores 0 y 1. También es frecuente normalizar variables restándoles la media y dividiendo por la desviación estándar. Si una variable, por ejemplo, es casi siempre no y se le aplica el procedimiento antes descrito, los síes pueden acabar convertidos en outliers. (Nota: en este caso, el dato se convierte en outlier en la medida en que se compara la variable en cuestión con otras del conjunto de datos; eso ocurre, por ejemplo, al crear clústers: puede suceder que alguno de ellos quede totalmente condicionado por alguno de estos outliers resultado artefactos de normalización.)

Para el tratamiento de los outliers, no hay recetas automáticas. Hay que desconfiar de ciertos manuales que sugieren eliminar un determinado porcentaje de las observaciones. En (Rose 2016) se describe una situación sorprendente —pero típica, en el fondo— en el que tras eliminar outliers variable a variable, el conjunto de datos quedó reducido a nada. El tratamiento eficaz de los outliers depende críticamente del diagnóstico que se realice del motivo por el que aparecen. A partir de ahí se pueden seguir diversas líneas de actuación, entre las cuales y sin propósito alguno de exhaustividad cito las siguientes:

  • Si los datos son ciertos pero pertenecen a un segmento de sujetos muy distinto de los que conforman el objeto del estudio, se pueden eliminar dejando muy claro el motivo. Por ejemplo, uno puede estar interesado en el estudio de los ingresos de las clases medias por lo que podría excluir a gentes con ingresos o muy altos o muy bajos; o el comportamiento de las pymes de cierto tamaño, por lo que podría excluir las grandes empresas o determinados tipos de autónomos (p.e., taxistas).
  • Si los datos no son confiables (p.e., por ser sospechosos de errores de transcripción) se pueden considerar como nulos (y dárseles el tratamiento correspondiente).

En muchos casos, el problema de los outliers no es tanto la falta de confianza en el valor en sí sino los problemas y sesgos que pueden plantear a la hora del análisis. Existen tres vías para solucionar este problema:

  • Usar métodos de análisis robustos frente outliers: igual que en secciones anteriores se propuso el uso de la mediana o de medias windsorizadas como alternativa a la media en presencia de outliers, existen versiones robustas de algunos de los procedimientos estadísticos que se presentan en los capítulos anteriores que podrían ser aplicados con éxito.
  • Relacionado con la anterior, utilizar métodos de análisis que no tengan en cuenta el valor absoluto de las variables predictoras, como todos los basados en árboles (que quedan fuera del alcance de este libro).
  • Realizar transformaciones adecuadas de las variables afectadas.

Finalmente, hay que advertir que la discusión anterior se refiere a datos numéricos. Sin embargo, uno podría también discutir el concepto de outlier para datos categóricos. En esos casos, se entendería por outlier una categoría sumamente infrecuente. Sin entrar en muchos detalles, lo discutido más arriba aplica también en estos casos: hay que realizar un diagnóstico previo que guíe el procedimiento de resolución del problema y nos indique si, por ejemplo, tiene sentido subsumir las observaciones de esa categoría en otra de nivel superior más amplia (p.e., de códigos postales en provincias), o bien crear una categoría ómnibus de otros, etc.

5.6.2 Los nulos

Los valores nulos —se usará ese término para referirse a lo que en inglés se denomina missing data— son prácticamente omnipresentes en todos los conjuntos de datos interesantes. El tipo de estrategias que utilizar en conjunto de datos con valores nulos depende del diagnóstico de las causas. Tradicionalmente se categorizan los valores nulos en tres grupos distintos:

  • MCAR (missing completely at random): los nulos aparecen completamente al azar. Se trata de un caso bastante inhabitual, en la práctica.
  • MAR (missing at random): los nulos se producen al azar pero dependen de alguna variable presente en el conjunto de datos: por ejemplo, que la tasa de nulos dependa de la provincia o de la edad de los sujetos.
  • MNAR (missing not at random): los nulos se producen sistemáticamente a causa de alguna característica de la variable de interés. Por ejemplo, que la altura de los sujetos aparezca no figure si miden más de 2 metros porque el dispositivo de medida tiene un tope.

Existen herramientas (p.e., (Tierney and Cook 2020)) que pueden ser útiles para explorar y entender la estructura de los nulos presentes en un conjunto de datos.

En cuanto al hecho de tomar medidas con respecto a los nulos y tratarlos, hay que tener en cuenta que estas son casi siempre dependientes del análisis posterior que uno quiera hacer con ellos. En efecto, la mayor parte de los procedimientos estadísticos no admiten nulos. Otros, como algunos tipos de árboles, lo hacen subrepticiamente: en caso de encontrar nulos, aplican un determinado criterio, tal vez no el más adecuado, para modelar los datos. Por tanto, es conveniente repasar las opciones disponibles para el tratamiento de los nulos.

La primera, más drástica y menos recomendada consiste en ignorar las observaciones que tengan nulos en alguna de sus variables independientemente de las causas. No solo puede producir sesgos en en análisis, sino que produce resultados que son incapaces de predecir nuevas observaciones en que existan esos nulos.

Otras medidas habituales consisten en reemplazar los nulos por valores fijos (p.e., la mediana de las observaciones no nulas). Esta medida, aunque rápida, no está exenta de problemas:

  • En el caso descrito más arriba, del de los sujetos que tienen altura nula solo por medir más de dos metros, se les asignaría una altura igual a la mediana del resto. En general, usar ese procedimiento frente a datos que no sean estrictamente MCAR, introduce sesgos.
  • Los vectores con valores imputados de esta manera tienen menos varianza que los originales. Esta reducción de la varianza puede extenderse a la modelización, causando falsa sensación de seguridad en determinados modelos cuando la realidad es más compleja.

El siguiente ejemplo muestra el efecto de la reducción de la varianza en los datos imputados mediante la mediana:

Hay que tener siempre en cuenta que la imputación de datos, independientemente del procedimiento seguido, no crea información original. El conjunto de datos imputado contiene, de hecho, menos información que el original: salvo que esta se haga explícita a través de una variable adicional que marque la presencia de nulos en la variable original, se pierde la información de que en un determinado registro se ha añadido artificialmente un dato.

Asignar a los valores nulos la media (o mediana) del resto no es sino la versión más simple de un procedimiento más sofisticado —más no por ello más adecuado en el caso MNAR discutido más arriba— que consiste en asignar los valores nulos la predicción de un modelo en el que se usen como variables predictoras el resto de las variables disponibles en el conjunto de datos. Existen paquetes de R (y también de Python y otros) con una selección de procedimientos preempaquetados y adaptados para estos fines.

Existen además, procedimientos específicos para cierto tipo de datos, como los puramente matriciales, donde pueden aplicarse técnicas derivadas del álgebra lineal. Se usan, por ejemplo, en los llamados sistemas de recomendación. Una recomendación de, p.e., una película, se puede realizar a través de la imputación del valor no observado (la valoración que un usuario habría hecho de una determinada película) a partir del resto.

Uno de los modelos de imputación de datos nulos de los que aún se oye hablar en la actualidad es el llamado hot deck encoding. Actualmente, se entiende por él algo así como utilizar para un valor nulo el valor no nulo observado en algún registro similar. Sería equivalente a utilizar un modelo basado en la técnica de los k-vecinos (con k = 1). De todos modos, hot deck tenía un significado muy preciso originariamente, en la época en la que la información de, p.e., los censos, estaba grabada en tarjetas perforadas (o decks): usar los datos de la anterior. La justificación originaria era que la tarjeta anterior, al proceder del mismo —o, incluso, del mismo bloque— que la actual, contendría datos no particularmente alejados de los esperados; además, claro está, de la sencillez del procedimiento.

Una manera de mitigar el problema de la reducción de la varianza al asignar un valor a los nulos es asignarles no un valor sino una distribución. Esto se puede hacer de dos maneras:

  • Utilizando procedimientos ad hoc (véase el paquete mice de R cuyo uso está ilustrado en (Errickson, n.d.)) que generan muestras de posibles valores y permiten utilizarlos en la modelización posterior.
  • Utilizando cierto tipo de modelización bayesiana, donde el ajuste del modelo se realiza conjunta y a la vez que la imputación de los nulos.

Aunque, en la práctica de la ciencia de datos, es muy inhabitual ver implementadas técnicas tan sofisticadas. Uno de los motivos es que en ciencia de datos, además de la creación y análisis de modelos, es muy importante el realizar predicciones de nuevos datos. Cualquier tipo de operación de imputación de datos que se realice sobre los datos con los que se entrene el modelo tiene que poder ser realizada después con los datos. En concreto, si en la variable edad hay nulos y estos se imputan usando el valor 37 por ser la mediana de los datos originales, los nulos en la variable edad de los conjuntos de datos futuros sobre los que hayan de realizarse las predicciones habrán de imputarse también con el mismo valor 37 (y no con su correspondiente mediana).

5.6.3 Transformaciones de variables

Generalmente, se debería aplicar el logaritmo a datos positivos. Así de rotundo se muestra Gelman (Gelman 2019) en su blog (y en él explica tanto las razones como da voz a las objeciones de un lector discrepante). Y sí, generalmente, es conveniente transformar de alguna manera muchos de los datos que uno encuentra.

Las transformaciones de datos se aplican por varios motivos:

  • Para evitar el problema de determinados outilers, como se ha discutido más arriba.
  • Para normalizar datos, es decir, convertir su distribución en una más similar a la normal, cosa que puede ser útil en algunos contextos de modelización (Transformación Box-Cox 2020)
  • Para reescalar los datos (p.e., pasar de metros a kilómetros).
  • Para mejorar la interpretabilidad de los modelos que se aplican después a los datos. Así, por ejemplo, si interesa conocer la evolución del salario en función de la edad del los sujetos mediante un modelo lineal, se puede transformar dicha variable restándole 18 de manera que el valor base sea el salario a los 18 en lugar de el salario de los recién nacidos.
  • Y, en general, para facilitar la interpretación de los datos.

Una de las técnicas que se sugieren más a menudo es la de la normalización (en una acepción distinta de la usada en la enumeración anterior): consiste en restar la media y dividir por la desviación estándar de unos datos. Eso garantiza que la media de dichos datos es 0 y su varianza, 1. Se trata de una transformación muy habitual, pero es casi siempre mejor restar una cantidad relevante (para que el cero pase a ser un valor con un significado y trascendencia propia) y dividir también por una cantidad que sea natural para los datos en cuestión. Hay que tener también en cuenta que dividir por la desviación estándar puede generar outliers (véase la discusión al respecto más arriba así como uno de los ejercicios de este capítulo).

Otra transformación habitual consiste en mapear datos al intervalo \([0, 1]\) aplicando la transformación

Esta transformación tiene la desventaja de que, en presencia de outliers, casi todos los valores de x_trans se convierten en, esencialmente, 0.

No solo cabe plantearse la posibilidad de transformar variables numéricas, sino también las categóricas, especialmente cuando existen muchos niveles, algunos de los cuales tienen pocos representantes. La opción más socorrida, como se ha indicado antes es agrupar las categorías menos frecuentes en otras. Pero, dependiendo del tipo de datos, caben otras operaciones más sofisticadas que salvaguardan más información de los datos originales. Hay tantas opciones como variables, pero aquí se va a discutir un procedimiento que puede aplicarse para los códigos postales en España. En un conjunto de datos típico en España puede aparecer la variable código postal. Lo más habitual es que de la mayor parte de ellos apenas existan uno o dos sujetos. Una manera de tratar esa variable —dependiendo también de los fines— es descomponerla en dos:

  • Una, en la que se guarden los códigos postales más frecuentes y, de los menos frecuentes, se guarden las dos primeras cifras, que indican la provincia.
  • Otra, donde se utilice el hecho de que la tercera cifra es un 0 solo en la capital de provincia para crear un indicador (no particularmente exacto) dirección urbana/rural.

Finalmente, aunque esta transformación está más orientada a la modelización que a la visualización de la estructura de datos, la llamada codificación por impacto (Micci-Barreca 2001), se utiliza muy frecuentemente para preprocesar variables categóricas con muchos niveles.

5.7 Bibliografía razonada

Aunque en el capítulo no se ha ahondado en las técnicas de creación de tablas efectivas, existen buenos tutoriales en otras partes como en (CrossValidated 2010b) o (LabWrite Resources: Designing Tables, n.d.). En (Cole 2015) o (Gelman 2012) se discute un tema muy importante y no tratado habitualmente en las guías de creación de tablas: cómo y cuánto redondear las cifras que contienen; en el fondo, el número de cifras significativas con la que se presenta una magnitud da una idea de su grado de certeza y el adecuado uso del redondeo ayuda a transmitir esa información al lector.

Un manual reciente y con buenas críticas de visualización de datos es (Healy 2019), que puede parecer un manual de uso del paquete ggplot2 de R, pero que es mucho más que eso. Se trata de un libro recoge y amplía una tradición iniciada en (Cleveland 1985), que presta atención a un asunto frecuentemente olvidado: los aspectos sicológicos de la percepción de la información presentada de forma gráfica y de cómo utilizar los distintos recursos gráficos para lograr una comunicación más efectiva. Finalmente, y desde un punto de vista más teórico, cabe también mencionar aquí la mayor parte de la obra de Edward Tufte a quien se debe, entre otras, la idea de los pequeños múltiplos.

Puede decirse que el EDA, exploratory data analysis, tuvo su origen con la publicación en 1977 del libro homónimo (Tukey 1977). Pero su mismo autor, Tukey, reconoce que el libro está orientado a técnicas que pueden implementarse con papel y lápiz y condicionado por esas limitaciones porque, estimaba entonces, todavía quedaba mucho para poder disponer de ordenadores en cada casa. Obviamente, esto ha cambiado radicalmente y el EDA moderno está indisolublemente ligado a la tecnología moderna. Actualmente, abundan los manuales, como (Theus and Urbanek 2008), y las herramientas —como (Theus, n.d.), que es libre pero cuyo desarrollo parece haberse descontinuado, u otras comerciales— que permiten realizar este tipo de análisis. El mismo R puede ser considerado, de hecho, una herramienta de EDA.

El libro (Buuren 2012) es una guía muy completa de los problemas que producen los datos nulos y de una serie de técnicas modernas de imputación.

5.8 Ejercicios

Ejercicio 5.1 Prueba que la media de una muestra de observaciones independientes de una distribución \(N(\mu, \sigma)\) tiene media \(\mu\) y desviación estándar \(\sigma / \sqrt{n}\). (Nota: además de eso, ya sabemos que la distribución de esa media es normal).
Ejercicio 5.2 En una muestra de una distribución de números positivos de cola larga (hacia la derecha), ¿qué es más grande, la media o la mediana?
Ejercicio 5.3 Toma un vector de 10 ceros y un 1 y normalízalo. Luego, haz lo mismo con otro que tenga 100, 1000, 10000 ceros en lugar de 10, como el primero. Analiza el valor que adquiere la observación con valor inicial de 1 conforme aumenta el número de ceros en el vector.

Referencias

Anscombe’s quartet. 2020. “Anscombe’s Quartet — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Anscombe%27s_quartet.

Buuren, Stef. 2012. Flexible Imputation of Missing Data. https://doi.org/10.1201/b11826.

Cleveland, William S. 1979. “Robust Locally Weighted Regression and Smoothing Scatterplots.” Journal of the American Statistical Association 74 (368): 829–36. https://doi.org/10.1080/01621459.1979.10481038.

Cleveland, William S. 1985. The Elements of Graphing Data. Wadsworth Publ. Co.

Cole, T.J. 2015. “Too Many Digits: The Presentation of Numerical Data.” Arch Dis Child. https://doi.org/10.1136/archdischild-2014-307149.

CrossValidated. 2010b. “What Is a Good Resource on Table Design?” https://stats.stackexchange.com/questions/3542/what-is-a-good-resource-on-table-design.

Errickson, J. n.d. “Multiple Imputation.” http://dept.stat.lsa.umich.edu/~jerrick/courses/stat701/notes/mi.html.

Gelman, A. 2012. “Is It Meaningful to Talk About a Probability of “65.7.” Statistical Modeling, Causal Inference,; Social Science. https://statmodeling.stat.columbia.edu/2012/10/22/is-it-meaningful-to-talk-about-a-probability-of-65-7-that-obama-will-win-the-election/.

Gelman, A. 2019. “You Should (Usually) Log Transform Your Positive Data.” https://statmodeling.stat.columbia.edu/2019/08/21/you-should-usually-log-transform-your-positive-data/.

Healy, Kieran. 2019. Data Visualization: A Practical Introduction. Princeton: Princeton University Press. http://www.socviz.co.

LabWrite Resources: Designing Tables. n.d. “Graphing Resources.” https://projects.ncsu.edu/labwrite//res/gh/gh-tables.html.

Micci-Barreca, Daniele. 2001. “A Preprocessing Scheme for High-Cardinality Categorical Attributes in Classification and Prediction Problems.” SIGKDD Explorations 3 (July): 27–32. https://doi.org/10.1145/507533.507538.

Rose, T. 2016. “When U.s. Air Force Discovered the Flaw of Averages.” https://www.thestar.com/news/insight/2016/01/16/when-us-air-force-discovered-the-flaw-of-averages.html.

Theus, Martin. n.d. “Mondrian.” http://www.theusrus.de/Mondrian/.

Theus, Martin, and Simon Urbanek. 2008. Interactive Graphics for Data Analysis: Principles and Examples (Computer Science and Data Analysis). Chapman & Hall/CRC.

Tierney, Nicholas J, and Dianne H Cook. 2020. “Expanding Tidy Data Principles to Facilitate Missing Data Exploration, Visualization and Assessment of Imputations.” http://arxiv.org/abs/1809.02264.

Transformación Box-Cox. 2020. “Transformación Box-Cox — Wikipedia, the Free Encyclopedia.” https://es.wikipedia.org/wiki/Transformaci%C3%B3n_Box-Cox.

Tukey, John W. 1977. Exploratory Data Analysis. Addison-Wesley.