Efectos en regresiones logísticas

Rescato y reconvierto un comentario de mi buen amigo José Luis Cañadas en una entrada mía reciente en la de hoy. Sugiere José Luis el uso del paquete effects de R para estudiar el efecto de (que el caso concreto de interés, aunque hay otros) las variables de un modelo logístico. Nos copia el código library(effects) mod.cowles <- glm(volunteer ~ sex + neuroticism*extraversion, data = Cowles, family = binomial) eff.cowles <- allEffects(mod.cowles, xlevels = list(extraversion = seq(0, 24, 6)), given.values = c(sexmale = 0.5)) plot(eff.cowles, type = "response") que genera un gráfico en el que se aprecia el efecto de las variables en la probabilidad de volunteer. Entre otras cosas, nos indica el efecto de sex, que coincide con el que podemos obtener haciendo ...

14 de julio de 2015 · Carlos J. Gil Bellosta

Casillas puede ser un portero mediocre, pero quienes analizan sus números lo son aún más

Voy a hablar de fútbol. Voy a comentar esto. Contiene y argumenta alrededor de que me puso sobre aviso. Y no, no voy a comentar el amateurismo que manifiesta el hecho de representar dos veces la misma magnitud, el porcentaje de paradas, usando dos significantes distintos (la longitud de las barras y el color). Por más de que siembre la sospecha por lo que sigue. Me preocupa aún más el hecho de que se ignoren los intervalos de confianza, de que no se vaya más allá de lo que enseñan a los críos de once años y el autor se limite construir un diagrama de barras y un discurso alrededor de él. ...

13 de julio de 2015 · Carlos J. Gil Bellosta

Calcular una regresión a mano o con un programa puede ser más preciso

Leer sobre la historia de los glm me llevó a preguntarme sobre el modelo probit, que es —aunque con estas cosas hay que tener cuidado— cuarenta años anterior. Y tirando de ese hilo di con esto, donde se proponen tres métodos para ajustar estos modelos. El tercer paso del primero es y sí, sugiere ajustar a ojo, aunque advierte que hacerlo a mano (algebraicamente) o con la ayuda de un ordenador puede ser más preciso además de proporcionar intervalos de confianza. ...

10 de julio de 2015 · Carlos J. Gil Bellosta

¿Son normales las alturas (de los individuos)?

Diríase que sí. La altura de un individuo está sujeta a multitud de factores que suman y restan. Está la genética (que es el resultado de la suma y resta del impacto de muchos genes individuales). Está la dieta, está… Diríase, insisto, que la altura es el promedio de muchos efectos pequeños y no demasiado dependientes entre ellos. Y en efecto, (una vez descargados los microdatos de la Encuesta Nacional de Salud de 2011), ...

9 de julio de 2015 · Carlos J. Gil Bellosta

Un problema inverso de regresión

He estado pensando qué tipo de ejercicios de estadística (y modelos estadísticos) plantear a mis alumnos del máster de data science de la UTAD. Así que les he dado unos datos, los X, relativamente grandes (y sin problemas de colinealidad y similares) y les voy a pedir que me construyan la y de manera que los coeficientes obtenidos sean, aproximadamente, iguales a unos dados. A ver qué tal se les da.

8 de julio de 2015 · Carlos J. Gil Bellosta

Estadística descriptiva allende la estadística descriptiva

Este fin de semana me toca enseñar estadística en el máster de data science de la UTAD. Heredo un programa que incluye una sección importante de estadística descriptiva (que pienso subvertir, claro está). La estadística descriptiva, según la entiendo, va mucho más allá de lo que viene llamándose estadística descriptiva: eso de las medias, las medianas, el análisis unidimensional, etc. Pienso que un modelo estadístico no es sino una evolución natural de esas trivialidades que nos proporciona una comprensión más profunda de los datos: más allá de cómo son las variables una a una, cómo interoperan y de qué manera actúan para determinar uno o varios efectos de interés. ...

7 de julio de 2015 · Carlos J. Gil Bellosta

Una interpretación (rápida y sucia) de los coeficientes de la regresión logística

Los coeficientes de la regresión logística tienen una interpretación recta en términos de odds ratio. Que es un concepto sobre el que puede que alguien tenga algún tipo de intuición. Pero yo no. ¿Cómo podemos interpretar, aunque sea de manera rápida y grosera, los coeficientes? En términos de la variación de la probabilidad cuando la variable correspondiente cambia de valor (p.e., en una unidad). El problema es que la probabilidad depende del valor del resto de las variables: la relación no es lineal. No obstante, esa intuición es posible (en algunos casos: véase la nota). ...

6 de julio de 2015 · Carlos J. Gil Bellosta

R Consortium

Acaba de nacer el R Consortium con no sé qué objetivos. Los declarados son trabajar con y dar soporte a la R Foundation y a las organizaciones clave que desarrollan, mantienen, distribuyen y usan R a través de la identificación, desarrollo e implementación de proyectos de infraestructura. Vamos, nada que la R Foundation no viniese haciendo ya de oficio. Solo que es probable que lo quieran hacer de otra manera. R se está volviendo demasiado importante, pensarán, como para que su desarrollo siga en manos de unos amateurs. Uso aquí el término en el sentido literal y no despectivo del término: estos amateurs son académicos de reconocido prestigio que hacen en su tiempo libre y con equipos informáticos que vete tú a saber a quién pertenecerán y dónde se alojarán las cosas que pretende hacer el consorcio. ...

3 de julio de 2015 · Carlos J. Gil Bellosta

Mejores mensajes de error con deparse + substitute

El código foo <- function(df, column.name){ if (!column.name %in% colnames(df)) stop("Column ", column.name, " not found in ", deparse(substitute(df))) mean(df$column.name) # por ejemplo } foo(iris, "petal.area") lanza el error Error in foo(iris, "petal.area") : Column petal.area not found in iris que es mucho más informativo gracias a la acción combinada de deparse + substitute. En particular, substitute evita que R resuelva el valor de df, es decir, devuelve un símbolo, la referencia a df, en lugar de su contenido. Luego, deparse transforma ese símbolo en su representación textual, en el nombre del objeto.

2 de julio de 2015 · Carlos J. Gil Bellosta

Condicional e incertidumbre

En una charla hace un tiempo critiqué que no se usase el condicional en titulares tales como en el que se da noticia de los resultados de una encuesta (el barómetro del CIS). Porque una cosa es que un partido gane las elecciones y otra que las ganaría si se diesen una serie de circunstancias: entre otras, la fundamental, que las hubiera (el resto tienen que ver con la incertidumbre asociada a las encuestas, etc.). ...

1 de julio de 2015 · Carlos J. Gil Bellosta