Estadística

Modelos exponenciales para grafos aleatorios (II): modelo probabilístico

Ayer dejamos abierto el problema de la inferencia en grafos. La idea fundamental es la de suponer que un grafo determinado no es tanto un grafo en sí como una realización de un proceso aleatorio de generación de aristas entre un determinado número de nodos. El planteamiento es análogo al que se hace con las series temporales: no es tan importante la serie en sí como el hecho de que pueda probarse que obedece a un modelo autorregresivo, ARIMA, etc. ...

Modelos exponenciales para grafos aleatorios (I): motivación

Sea un colegio y $a_i$ sus alumnos. Sea $y_{ij} \in {0,1}$ el indicador de que el alumno i es amigo del alumno j. Con eso tenemos montado un grafo (o, si se prefiere, una red social). Muchos análisis que se hacen sobre este tipo de redes son meramente descriptivos pero, ¿es posible la inferencia sobre este tipo de conjunto de datos? Por ejemplo, en el grafo que describo más arriba, cabría preguntarse si hay reciprocidad, es decir, si $P( y_{ij} = 1 | y_{ji} = 1 )$ es mucho mayor que $P( y_{ij} = 1 | y_{ji} = 0)$. O dicho de otro modo, si el que Juan sea amigo de Pedro incrementa notablemente la probabilidad de que Pedro también se considere amigo de Juan. ...

Todos los modelos son X, pero algunos son Y

En la cita original de Box, X e Y son, respectivamente, falsos y útiles. Pero traigo a la consideración de mis lectores una visión alternativa de la cita en la que X e Y son ciertos e inútiles. El resumen de la conferencia cuyas diapositivas acabo de enlazar es, con mi traducción, el siguiente: A los estudiantes de estadística se les presenta la famosa cita de George Box según la cual, todos los modelos son falsos, pero algunos son útiles. En esta charla, argumento que aunque es útil, es falsa. Resulta más interesante adoptar una postura positiva y reconocer que un modelo es un procedimiento para extraer información útil de un conjunto de datos. la verdad es infinitamente compleja y un modelo es una mera aproximación a ella. Si la aproximación es mala o engañosa, entonces el modelo es inútil. En esta charla proporciono ejemplos de modelos correctos que no son ciertos. E ilustro cómo la noción de modelo incorrecto puede conducir a conclusiones erróneas. ...

Contar, ¿fácil?

Contar debería ser fácil. Sobre todo, cifras relativamente pequeñas. Y más para el Estado, con todo su —aunque menguante, según algunos— poder. Por otro lado, dicen, las cifras son las que son. Y son incuestionables. Además, sirven para cuestionar. Por ejemplo, para cuestionar la labor de la Dirección General de Tráfico, cuyo rendimiento, en gran medida, se mide por el recuento anual de muertes en la carretera. Y en este contexto, y a la luz de lo publicado recientemente en la prensa, diríase que sucede un fenómeno que me parece la mar de sorprendente: el número cobra una importancia que la metodología no puede matizar. Directores, exdirectores y asociaciones de no sé muy bien qué, se atizan —cual garroteros gollescos— con alternativas metodológicas persiguiendo intenciones que, uno sospecha, tienen poco que ver con la creación de un cuadro lo más fidedigno posible de la realidad. (A veces tengo la tentación de promover para este tipo de discusiones —así como existen las bizantinas— el término de discusión argentina). ...

Variables instrumentales con R

Los economistas usan unas cosas a las que llaman variables instrumentales con las que uno apenas se tropieza fuera de contextos econométricos. El problema se plantea en el contexto de la regresión $$y_i = \beta x_i + \varepsilon_i,$$ cuando existe correlación entre X y $\varepsilon$. En tales casos, el estimador por mínimos cuadrados es $$\hat{\beta} =\frac{x’y}{x’x}=\frac{x’(x\beta+\varepsilon)}{x’x}=\beta+\frac{x’\varepsilon}{x’x}$$ y debido a la correlación entre X y $\varepsilon$, está sesgado. La solución que se plantea en ocasiones es el de usar variables instrumentales, es decir, variables correlacionadas con X pero no con $\varepsilon$. La siguiente simulación en R ilustra el problema: ...

Cuando falta la variable más importante (II)

No sé si esto que voy a contar me obliga a tragarme mis propias palabras. Porque siempre he pensado que era poco menos que imposible. Pero hace unos pocos días escribí sobre el asunto y hoy traigo otro similar a colación. La variable más importante a la hora de construir un modelo es, precisamente, la que se quiere predecir. Casi todos los textos asumen que se conoce sin ningún género de dudas en, al menos, una determinada muestra que, además, corresponde más o menos a la población subyacente: si el paciente sobrevive o no; si la hipoteca entra en mora o no; si el cliente responde a la oferta o no, etc. ...

Corrección por exposición del modelo logístico

He tropezado con una extensión curiosa y que no conocía del modelo logístico que lo emparenta un tanto con los modelos de supervivencia. Es un problema que aparece en los modelos de los actuarios, por ejemplo, y en la supervivencia de nidos (sí, nidos de bichos alados), parece. Es el siguiente: supongamos que unos sujetos están expuestos a un cierto suceso cuya probabilidad, $p_i$, depende del sujeto a través del esquema habitual de la regresión logística (es decir, depende de algunas variables como el sexo, etc., a través de una fórmula lineal cuyos coeficientes interesa estimar). ...

Cuando falta la variable más importante

Imaginemos que queremos predecir y, que toma valores 0 y 1 a partir de indicios (o variables) x mediante una función (un clasificador) f. Podemos visualizar el error de clasificación usando la matriz Efectivamente, el error es (perdónenme la notación) B+C. Como estadísticos estamos habituados a tratar de minimizar C mientras mantenemos B lo suficientemente pequeño. Un test es tanto más potente cuanto menor es C. Pero podemos reescribir B+C como ...

De D'Hondt a Banzhaf

Hablé el otro día con Emilio Torres y comentamos de pasada la situación política en Asturias, donde vive, después de las últimas elecciones. El escaño obtenido por UPyD otorgaba a tal partido un poder en exceso del tamaño de su representación porque era clave para formar el futuro gobierno del principado. Pero, ¿cuánto poder realmente supone ese escaño en esas condiciones? ¿Puede cuantificarse? Porque se habla mucho en periodo electoral de la ley D’Hondt pero, una vez asignados los escaños, cambia el juego. ...

Churn y redes sociales: un ejemplo en telecomunicaciones

He leído recientemente el artículo Social Ties and their Relevance to Churn in Mobile Telecom Networks porque ilustra una técnica muy de moda: el análisis de redes sociales (SNA) en el ámbito de las telecomunicaciones y, en particular, la construcción de indicadores tempranos de baja (churn) de clientes de telefonía móvil. Más aún, permite rediseñar estrategias basadas en los resultados para retener clientes: al clasificarlos mejor usando técnicas de SNA, pueden diseñarse estrategias activas para aquellos que no solo tienen una mayor predisposición a darse de baja sino, además, a arrastrar con ellos a parte de su entorno social. ...