Limpieza de cartera: tres artículos

Estoy limpiando mi cartera y antes de mandar unos cuantos legajos al archivador (o al contenedor de reciclaje) quiero dejar nota de sus contenidos para referencia mía y, quién sabe, si inspiración de otros.

El primer artículo es Tackling the Poor Assumptions of Naive Bayes Text Classifiers. Tiene esencialmente dos partes. La primera analiza críticamente el método de clasificación bayesiano ingenuo (naive Bayes) en el contexto de la minería de textos identificando una serie de deficiencias. En la segunda parte, los autores proponen una serie de modificaciones ad hoc para crear un algoritmo de clasificación mejorado.

El segundo, Formulating State Space Models in R with Focus on Longitudinal Regression Models, trata sobre el paquete [sspir](http://cran.r-project.org/web/packages/sspir/index.html) de R. Sirve para ajustar modelos similares a los lineales generalizados pero que contienen términos que varían en el tiempo. Puede ser usado para modelar series temporales influenciadas por variables adicionales o estudiar el impacto de estas últimas sobre datos que tienen una estructura temporal subyacente. Uno de los casos de uso citados en el artículo, por ejemplo, es el del estudio del efecto de la obligatoriedad del uso del cinturón de seguridad en la serie temporal de fallecidos en accidentes de tráfico.

El tercero, The origin of bursts and heavy tails in human dynamics, se plantea un problema muy interesante. En la sección (a) de

se muestra una sucesión típica de sucesos generados por un proceso de Poisson. En las secciones (b) y (c) se muestra el tiempo de espera entre sucesos consecutivos y su distribución. Sin embargo, en muchos procesos en que interviene el hombre, la distribución es más parecida a la que se muestra en (d). Por ejemplo, en el uso del correo electrónico: a periodos de mucho uso suelen seguir periodos de inactividad. El autor, Barabási, lista otra serie de ámbitos en los que se aprecian patrones similares. Y argumenta finalmente que este tipo de comportamiento es consistente con la coexistencia de varias colas con distintos grados de prioridad.

Es el caso de una persona en su actividad diaria, que incluye revisar su correo electrónico, revisar documentación, realizar llamadas telefónicas, etc. Y cada una de esas colas tienen prioridades diferentes. La actividad observada resultante tiene un comportamiento no poissoniano.