Reponderación de componentes: un ejemplo

Esta entrada es la continuación de La escala natural de la varianza. En ella vimos cómo los componentes de un PCA pueden tener un peso que pudiera no guardar relación con su importancia práctica. Si uno quiere trabajar con las principales componentes de un PCA sobre unos datos, puede que la escala sea irrelevante (p.e., si quiere utilizar modelos lineales). Pero hay casos egregios en los que no sucede así. ...

22 de abril de 2014 · Carlos J. Gil Bellosta

Menos econometría y más precioestatos

¿Será necesario un doctorado en econometría para poner una lavadora? Con eso ironiza el autor de El nuevo sistema de precios para la electricidad (I): Entre la tarifa gusiluz y la tarifa batamanta. Os cuento el contexto. Al parecer, a partir de cierta fecha no muy remota, el precio de la electricidad en España variará de acuerdo con el precio en el mercado de generación y, por lo tanto, según la hora. Las variaciones podrán ser importantes según el día, el tiempo, etc. De manera que los consumidores no sabrán —salvo que malgasten mucho tiempo consultando algún tipo de servicio de cotizaciones en tiempo real— cuánto les costará poner una lavadora. Y, por lo tanto, tampoco podrán ajustar su consumo al precio. Etc. ...

16 de abril de 2014 · Carlos J. Gil Bellosta

Una cosa que me irrita de muchos artículos de estadística

Hay una cosa que encuentro irritante en muchos artículos de estadística. Supongamos que existe una técnica A y que invento una técnica B. Entonces escribo un artículo en el que hablo de A, describo B, pruebo si procede algún teorema y, finalmente, me dispongo a compararlo con A. Naturalmente, tanto A como B tienen hipótesis de partida: que las observaciones sean iid, que sean normales,… Lo natural sería crear datos artificiales de acuerdo con las hipótesis subyacentes de A y comparar sobre ellos ambas técnicas. Además, tal vez, crear conjuntos de datos estresados para comparar A y B fuera del área de confort de A. Pero siempre utilizando datos en los que se conoce la verdad, es decir, el nivel de ruido, la intensidad de la señal, la correlación entre las variables, etc. Eso solo se consigue con datos artificiales, creados por nosotros. ...

15 de abril de 2014 · Carlos J. Gil Bellosta

@R_Hisp, la cuenta oficial de la Comunidad R Hispano

Finalmente, la Comunidad R Hispano dispone de una cuenta oficial en Twitter. El anuncio público lo realizó Emilio López Cano, miembro de la junta de la asociación y que va a coordinar la cuenta con ayuda de otros voluntarios. Os animo a seguir esa cuenta para estar al tanto de las novedades de la asociación en la que, como dice Emilio (en el enlace anterior), hay y va a seguir habiendo movimiento. ...

14 de abril de 2014 · Carlos J. Gil Bellosta

No hay motivo para no actualizar tu R a la última versión

Ayer se publicó la versión 3.1.0 de R. No es gran noticia: aparecen nuevas versiones cada no muchos meses. No hay motivo para no actualizar. Pero sí para hacerlo: las nuevas versiones corrigen errores en las anteriores y, además, encontrarás poco soporte en los foros para ese R 2.1.5 viejuno que aún mantienes por pereza. Para quienes usen R en plataformas donde el software no se actualiza automágicamente, existe el paquete installr que permite actualizar la versión de R con menos esfuerzo que antaño haciendo ...

11 de abril de 2014 · Carlos J. Gil Bellosta

Colusión de anunciantes en perjuicio de navegantes

O algo así. Aunque alguno puede pensar que no es en su perjuicio sino en su beneficio. A saber. Solo que con collusion (un plugin para el navegador) uno puede construir gráficos tales como que significa lo que su leyenda dice y que aquí traduzco brevemente. Uno instala en plugin y comienza a navegar por internet. Al hacerlo, collusion detecta esos sitios con los que las páginas que uno visita comparte información a través de galletitas y similares. Algunos de esos sitios pueden ser inofensivos (al parecer, Renfe se ha enterado de que he entrado a marca.es) y otros, los marcados en rojo, pertecen a redes de anunciantes. Más propiamente, a redes de seguimiento de navegantes, que tratan de inferir su perfil para… proporcionarles anuncios a medida, supongo. Estos sitios no solo saben que uno ha aterrizado en una página determinada, sino que pueden seguirlo a través del resto de los sitios que comparten información con él. Por eso en la red que genera collusion aparecen nodos de centralidad elevada (¡hubs!) que corresponden a sitios que colocan sus galletitas por doquier (y previo pago). ...

10 de abril de 2014 · Carlos J. Gil Bellosta

La escala natural de la varianza

Supongo que lo que voy a contar hoy es conocido de muchos de mis lectores. Desafortunadamente, uno tropieza con más frecuencia de lo deseable con quienes no lo son. (Eso sí, uno de los mayores placeres de esta vida es coincidir con alguien que te reconoce y te dice: “¿tú tienes un blog que se llama datanalytics, ¿verdad?”; pero esa es otra historia). Al grano. Supongamos que tenemos un sistema con sensores que miden la temperatura (5) y la presión (2) en diversos puntos. Los dejamos recoger datos durante 100 periodos y obtenemos ...

9 de abril de 2014 · Carlos J. Gil Bellosta

V Jornadas de la Enseñanza y Aprendizaje de la Estadística y la Investigación Operativa

Los días 16 y 17 de junio de 2014, en Madrid, tendrán lugar las V Jornadas de la Enseñanza y Aprendizaje de la Estadística y la Investigación Operativa. Las organiza el Grupo de Enseñanza y Aprendizaje de la Estadística y la Investigación Operativa (GENAEIO) de la SEIO. ¿Por qué lo menciono? Pues porque estoy en el programa e igual alguien quiere acercarse a verme hablar de big data y similares. Aún no he cerrado los temas que quiero tratar en esas horas pero algunas ideas que me rondan la cabeza son: ...

8 de abril de 2014 · Carlos J. Gil Bellosta

Análisis factorial e ideas que se resisten a morir

Estoy escribiendo mucho sobre métodos de reducción de la dimensionalidad estos días. Digamos que son gajes del oficio. Espero no resultar repetitivo. La cuestión que me empuja a escribir hoy es que algunos a mi alrededor insisten, insisten e insisten en las bondades del análisis factorial y lo oportuno de su aplicación a un problema sobre el que no voy a dar más detalles. Es una técnica que jamás estudié propiamente y con la que el poco contacto que he tenido se ha limitado a echar una mano a algunos clientes en el pasado en algún análisis. ...

7 de abril de 2014 · Carlos J. Gil Bellosta

El lenguaje de Wolfram (según Wolfram)

En el siguiente vídeo Wolfram habla del lenguaje de Wolfram. Siento repetirme, pero quiero dejar claro que puede haber un sesgo. Porque como no lo haya, el Sr. Wolfram me va a tener como admirador (y puede que hasta como cliente). Mirad lo que cuenta: ¿Es o no casi increíble?

4 de abril de 2014 · Carlos J. Gil Bellosta