Matemáticas

Siete problemas matemáticos que plantea el "deep learning"

La emergencia (y el éxito) del llamado aprendizaje profundo (deep learning) plantea innumerables cuestiones matemáticas. Algunos algoritmos funcionan (y otros muchos que han quedado en los cajones no, obviamente) y no está muy claro por qué. He aquí una lista de siete problemas que el aprendizaje profundo ha colocado enfrente de la comunidad matemática: ¿Cuál es el papel de la profundidad en las redes neuronales? (En el fondo, una red neuronal no deja de ser una función que aproxima otra desconocida; en matemáticas abundan los procedimientos y resultados para aproximaciones planas (p.e., combinaciones lineales de funciones); pero la composición de funciones…) ¿Qué aspectos de la arquitectura de una red neuronal impactan en su desempeño? (Porque, admitámoslo, los expertos en redes neuronales, en lo concerniente a la arquitectura, no son muy distintos de aquellos artesanos del Pacífico Sur). ¿Por qué el SGD converge a mínimos locales buenos a pesar de la no-convexidad del problema de optimización? (¡Ah! En este punto, la intriga se mezcla con la envidia: no sabéis lo difícil que es optimizar funciones no lineales más o menos genéricas y las horas que he invertido en ese tipo de problemas.) ¿Por qué no sobreentrenan las redes neuronales? (¿No lo hacen?) ¿Por qué funcionan bien en altas dimensiones? ¿Qué tipo de patrones de los datos son susceptibles de ser aprendidos por las redes neuronales? ¿Podrían llegar las redes neuronales a reemplazar a los algoritmos teóricos y numéricos especializados que se utilizan en las aplicaciones de las matemáticas? Estas cuestiones —obviamente, sin soluciones— junto con alguna discusión adicional más, se discuten menos brevemente que aquí en este enlace.

Sobre la llamada ley del estadístico inconsciente

Es innegable que el rótulo ley del estadístico inconsciente llama la atención. Trata sobre lo siguiente: si la variable aleatoria es $X$ y la medida es $P_X$, entonces, su esperanza se define como $$E[X] = \int x dP_X(x).$$ Supongamos ahora que $Y = f(X)$ es otra variable aleatoria. Entonces $$E[Y] = \int y dP_Y(y)$$ para cierta medida (de probabilidad) $P_Y$. Pero es natural, fuerza de la costumbre, dar por hecho que ...

To IRLS or not to IRLS

A veces tomas un artículo de vaya uno a saber qué disciplina, sismología, p.e., y no dejas de pensar: los métodos estadísticos que usa esta gente son de hace 50 años. Luego cabe preguntarse: ¿pasará lo mismo en estadística con respecto a otras disciplinas? Por razones que no vienen al caso, me he visto en la tesitura de tener que encontrar mínimos de funciones que podrían cuasicatalogarse como de mínimos cuadrados no lineales. Y por algún motivo, pareciere que no hubiese en el mundo un algoritmo de ajuste que no fuese IRLS. Que tiene una gran tradición en estadística; es, de hecho, la base de la optimización propuesta por Nelder y McCullagh en 1972. ...

Platón en el estercolero

Hoy nos han hablado unos matemáticos. Sí, de esos cuyas distribuciones extremales son Pareto porque yo lo valgo. Alguien, que no yo, ha osado preguntar qué tal ajustaban los modelos. La respuesta, perifrástica nivel Yes, Minister, se resumía en un nos encantaría haber tenido ocasión de comprobarlo. Efectivamente, las probabilidades son subjetivas en tanto que financiadas por la Fundación La Caixa.

Los fundamentos matemáticos de la estadística teórica

Tal es el título de un artículo de Fisher de 1922. David Cox nos advierte sobre lo cuidado de la selección de las palabras que usa Fisher en el título. Las podría reproducir, pero mejor las escucháis vosotros de su boca en el minuto 9:10 de

Optimización: dos escuelas y una pregunta

Dependiendo de con quién hables, la optimización (de funciones) es un problema fácil o difícil. Si hablas con matemáticos y gente de la escuela de optim y derivados (BFGS y todas esas cosas), te contarán una historia de terror. Si hablas con otro tipo de gente, la de los que opinan que el gradiente es un tobogán que te conduce amenamente al óptimo, el de la optimización no alcanza siquiera talla de problema. ...

¿Informática o matemáticas? Una pregunta muy mal formulada

Si queréis trabajar de “data scientists” mejor estudiad informática que mates, si podéis haced el doble grado y ya hay grados de data science. En ningún trabajo os pedirán inventaros algoritmos revolucionario, os pedirán cosas de programador y mates que se enseñan en Informática https://t.co/ebfr05NqVP — Victoriano Izquierdo (@victorianoi) May 31, 2019 es el tuit que lo comenzó todo. Hay más sobre su impacto aquí. No voy a comentarlo. Sí que diré que la pregunta está mal formulada. Y muchas de las respuestas y comentarios que he visto, muchos de ellos de gente que conozco, han entrado al trapo sin percatarse de que, de algún modo, contiene una petición de principio. ...

Charlas en Alicante, julio de 2019

Este mes de julio, entre los días 10 y 12, participaré como ponente en dos charlas encuadradas en los Cursos de Verano de la Universidad de Alicante “Rafael Altamira” y en las que se discutirá el papel de los matemáticos en la sociedad (aunque parece que el énfasis recae en el aspecto económico y empresarial). Según los organizadores: El curso pretende ser un lugar de encuentro, y de intercambio de experiencias, para dar visibilidad al trabajo realizado por los matemáticos en el sector empresarial y entender la razón por la cual este colectivo se suele mover cómodamente por los nuevos sectores profesionales. ...

No, la trigonometría babilónica no era "novedosa"

Supongo que en agosto todo vale en prensa. Así Solucionado un enigma matemático de 3.700 años y otros del mismo tenor en medios españoles y extranjeros (de algunos de los cuales se espera más). En el que cito dan pábulo a citas como: Nuestro estudio desvela que Plimpton 322 describe las formas de triángulos rectángulos usando una novedosa forma de trigonometría que se basa en la razón entre los números [que expresan las longitudes de los lados], sin usar ángulos ni círculos. ...

A épsilon de todo

Usé a principios del verano una metáfora matemática como justificación de los contenidos de un curso que dicté pero que se puede extender al conocimiento en general. Más bien, a una estrategia para adquirirlos. La estrategia de estar a un $\epsilon$ de todo. La metáfora está basada en el siguiente hecho: en dimensiones altas, casi toda la esfera unidad está a distancia $\epsilon$ de su corteza. En efecto, el volumen de una esfera de radio unitario en dimensión $d$ es $K_d$ y la de una esfera de radio $1-\epsilon$ es $K_d (1-\epsilon)^d$. El ratio entre ambas cantidades es $(1-\epsilon)^{-d}$, que tiende a cero con $d$. ...