Una solución al problema de la separación perfecta con regresiones logísticas

Cuando el otro día planteé al mis lectores el problema de cómo representar de manera efectiva un conjunto de datos pequeños, no lo hice de manera enteramente ociosa. Eran datos reales de un cliente que tropezó con el llamado problema de la separación perfecta al intentar aplicar una regresión logística. Veamos de nuevo los datos: En la gráfica cada punto representa un individuo (posiblemente una persona). Los grupos los distinguen en dos clases (posiblemente, enfermos y sanos). La variable en el eje de la x mide el nivel de cierta proteína (supongo que en las células de algún tipo de tejido). Si se intenta realizar una regresión logística sobre este conjunto de datos sucede una catástrofe: el algoritmo diverge, aparecen mensajes de error en la pantalla, etc. ¡Es el problema de la separación perfecta! ...

25 de octubre de 2010 · Carlos J. Gil Bellosta

Tutorial: instalación de la extensión de R para RapidMiner

Por popular demanda, voy a explorar cómo de dificultoso es instalar el puente entre R y RapidMiner en Windows y a dejar escrito cómo se hace. Lo instalé hace días en Linux (Ubuntu) sin mayor problema. Pero hay quien parece que haberlos tenido en la ubicua plataforma. No sé mucho de Windows y las diferentes versiones y configuraciones que pueda tener.Solo sé que he probado los pasos de este tutorial sobre un Windows 7 Profesional (creo) de 32 bits. ...

22 de octubre de 2010 · Carlos J. Gil Bellosta

Hoy me he enamorado en el metro

Hoy me he enamorado en el metro. Apenas comenzaba a leer mi articulillo cuando he tropezado con esta frase: GPL treats data as an accessory to viewing a graph. Y la siguiente era aún mejor: GPL is based on the mathematical definition of the graph of a function and uses that definition to organize data linked to the graph. Y más adelante: […] it is based on the assumption that statistical procedures serve graphics; graphics are not ancillary displays of statistical results, but are means of perceiving statistical relationships directly. ...

21 de octubre de 2010 · Carlos J. Gil Bellosta

¡Feliz día de la estadística!

Hoy, 20 de octubre, se celebra el primer día de la estadística. Puede encontrarse más información en el suplemento económico de El País y en la página del INE. También se puede participar en las actividades programadas para el día. Quien esté en Papúa Nueva Guinea, podrá cantar en loor de la estadística; quien esté en Londres podrá, además, participar en estas actividades; los demás, siempre podemos entretenernos con las que nos sugiere Patrick Burns. ¡Felicidades!

19 de octubre de 2010 · Carlos J. Gil Bellosta

Sin sexo por decisión judicial

Pues sí, nos quedamos sin sexo. Por culpa de unos jueces y una interpretación tan recta como corta de miras de nosequé leyes europeas. La cosa viene de atrás: a la hora de categorizar clientes, usuarios o, en definitiva, personas en proyectos diversos de minería de datos (o en el cotidiano desempeño de los actuarios), ¿qué variables con información personal es legítimo utilizar? El uso de variables tales como raza, satisfacción de cuotas a algún sindicato, etc., legal o no, infringiría los códigos deontológicos más básicos. Pero, ¿el sexo? ...

17 de octubre de 2010 · Carlos J. Gil Bellosta

Más sobre lo de Netezza

El otro día, al hablar de la compra de Netezza por parte de IBM, hice referencia a un comentario del blog que es casi el flotador al que me asgo cuando quiero averiguar la verdad de las cosas que se me tuercen (últimamente). Dediqué en mi entrada una única línea para referirme a un único párrafo de la otra. Una visión tan parcial y puntual puede haber generado malinterpretaciones que me apresuro a enmendar con la profusión que el tema merita. ...

14 de octubre de 2010 · Carlos J. Gil Bellosta

El índice de inflación sostenible (que no existe)

La estadística oficial (tal como la entienden el INE y organismos similares) ejercen un, así lo llamamos los pedantes, pernicioso efecto reificador. Me explico: todos tenemos una idea intuitiva sobre lo que significa la inflación, la tasa de desempleo o el producto nacional bruto. Pero la inflación, la tasa de desempleo o el producto nacional bruto son —en realidad y para todos los efectos— lo que nos dice el INE que son: unos números que publican días, semanas o incluso años después de ocurrido el hecho medible. ...

12 de octubre de 2010 · Carlos J. Gil Bellosta

IBM compró Netezza: una taxonomía y algunos comentarios

El primero tiene que ver con coches. En el ascensor, en las conversaciones que oigo en el ascensor, que es donde pulso los intereses de mis cotidianos coadláteres, soy mudo testigo de multitud de conversaciones. Las más tratan de coches. Es increíble cómo la gente está al día de marcas, modelos, motores y potencias. Aunque luego les preguntas por lo de su oficio y te das cuenta de que, sorprendentemente, no saben por dónde les pega el aire. Así, nuestro teórico máximo sabedor sobre la base de datos con la que trabajamos ni siquiera estaba al corriente de que existía una cosa llamada Postgres. (Le tuve que deletrear el nombre, lo apuntó en un papel y me dijo que lo buscaría en internet; cualquier día le pregunto hasta dónde lo ha llevado su afán de saber). ...

10 de octubre de 2010 · Carlos J. Gil Bellosta

¿Es realmente posible la anonimización?

Pues depende a quién se lo pregunte uno. Por ejemplo, el 56% de los encuestados por KDnuggets dijeron que sí. En cambio, uno de los lectores de este blog aventuró lo contrario. Es curioso que este debate pudo haberse abierto mucho tiempo atrás —p.e., son públicos los microdatos de la EPA y de muchas otras encuestas en España— pero que, de no habérseme pasado por alto,solo ha despegado con particular virulencia a raíz de la popularización de estas competiciones de minería de datos de las que he hablado en alguna ocasión. ...

9 de octubre de 2010 · Carlos J. Gil Bellosta

Matlab es más rápido que R... ¿y?

No sé si alguna vez en la vida he visto una copia legal de Matlab. Creo que no. Ni forzando la memoria consigo recordar haber conocido a alguien que haya pagado los 2000 euros que cuesta una licencia comercial en España. Eso sí, he conocido a mucha gente a la que le gusta mucho. Y que habla maravillas de él, etc. En algún sitio lo habrán probado, presumo. Los aficionados a Matlab lo son también a comentar lo rápido que es. He desperdiciado largas horas en aburridoras conversaciones acerca de lo veloz que es Matlab haciendo nosequé operaciones (que no realizo ni directa ni indirectamente casi nunca). Y de paso, a comentar lo bien que se compara contra R (¿por chinchar?): alguna vez he tenido que asistir con desigual grado de indiferencia a inopinadas e improvisadas sesiones de programación en las que construir comparativas que demuestren cuánto más gallardamente invierte unas matrices Matlab que R. ...

6 de octubre de 2010 · Carlos J. Gil Bellosta