Redundancias (o por qué empeñarnos en tener tantos datos cuando con una fracción sobra)
[Esta entrada no contiene ni respuestas ni, tan siquiera, buenas preguntas. Solo vuelco en ella ideas más o menos inconexas que me rondan la cabeza. Tal vez alguien sepa reformularlas mejor, plantear la pregunta concreta que exige el asunto y, con suerte, responderla con claridad y distinción.]
Mi proyecto trata de la estimación de los parámetros que rigen una determinada curva (altamente no lineal) de la que se tienen N observaciones en el tiempo. Igual que tengo N podría tener 2N o N/2.
Pero, ¿cuál es el número efectivo de observaciones?
Si mis datos fuesen una línea, con dos observaciones (sin ruido) bastaría. Si fuese una circunferencia, con tres habría bastantes. El resto son deducibles y aportan poco.
Si mis datos fuesen de temperatura ambiental, podría tener datos horarios. Pero también cada minuto. Y o cada segundo. Podría fabricar y presumir de tener big data. Pero solo almacenaría redundancias.
Si las observaciones son independientes (contexto tipo: regresión lineal), está bien contar con más datos (aunque su importancia decrece marginalmente). Cuando no lo son, las cosas cambian. Por ejemplo, el teorema de Nyquist establece un límite a partir del cual observaciones adicionales están de más (en ciertos contextos).
Y nada más.