GRADOS DE LIBERTAD Y VARIANZA

Módulo 1: La Crisis del Determinismo – Modelado Matemático de Datos de Calibración Tema: La Economía de la Información Estadística y el Colapso Matemático ($n \approx p$).

1. LOS GRADOS DE LIBERTAD: LA MONEDA DE CAMBIO DE LA INFORMACIÓN

En la arquitectura de la inferencia estadística, existe un concepto que trasciende la simple aritmética para convertirse en el pilar fundamental de la validez epistemológica de cualquier modelo: los Grados de Libertad ($\nu$). A menudo trivializados en la enseñanza básica como una simple regla de resta ($n-1$), los grados de libertad representan, en la teoría de la estimación, la cantidad de información independiente "superflua" que queda disponible después de haber estimado los parámetros del modelo. Podemos conceptualizar $\nu$ como el presupuesto de información del experimento. Cada vez que un metrólogo decide medir un punto de calibración ($n$), ingresa una unidad de información bruta al sistema; sin embargo, cada vez que decide calcular un coeficiente de la curva de calibración ($p$), debe "pagar" una unidad de esa información para fijar el parámetro.

La definición rigurosa, $\nu = n - p$, no es una convención arbitraria, sino una consecuencia de la geometría vectorial del espacio de residuos. Como explican Draper y Smith (1998) en su análisis de la proyección ortogonal, cuando ajustamos un modelo de $p$ parámetros a un conjunto de $n$ datos, estamos proyectando un vector de observaciones que vive en un espacio $n$-dimensional sobre un subespacio restringido de $p$ dimensiones. Los residuos, por definición, deben ser ortogonales a este subespacio. Esto impone $p$ restricciones lineales sobre los residuos (por ejemplo, en una regresión simple, la suma de los residuos debe ser cero y la suma de los residuos ponderados por $x$ también debe ser cero). Por lo tanto, aunque tenemos $n$ residuos calculados, solo $n-p$ de ellos son linealmente independientes. Esos $n-p$ remanentes son los únicos testigos honestos de la variabilidad del sistema; el resto han sido consumidos ("gastados") para forzar a la curva a pasar cerca de los puntos.

2. EL ESTIMADOR DE VARIANZA Y EL CUADRADO MEDIO DEL ERROR (MSE)

La importancia crítica de los grados de libertad se manifiesta en la estimación de la varianza del error experimental ($\sigma^2$). A diferencia de los parámetros de la curva ($\beta$), que se estiman minimizando la suma de cuadrados, la varianza es un parámetro de dispersión que requiere ser "observado" a través de los residuos. El estimador insesgado de la varianza no es el promedio aritmético de los cuadrados de los residuos ($SSE/n$), sino el Cuadrado Medio del Error ($MSE$):

$$MSE = \hat{\sigma}^2 = \frac{SSE}{n - p} = \frac{\sum (y_i - \hat{y}_i)^2}{n - p}$$

Si utilizáramos $n$ en el denominador, obtendríamos un estimador sesgado que sistemáticamente subestimaría la verdadera varianza del instrumento, dando una falsa sensación de precisión. Al dividir por $n-p$, estamos penalizando la estimación por la complejidad del modelo utilizado. Cuantos más parámetros añadimos para "mejorar" el ajuste, más pequeño se hace el denominador, aumentando la incertidumbre estimada a menos que la reducción en el $SSE$ sea sustancial.

2.1. El Colapso de la Varianza ($n = p$)

El escenario más peligroso en la calibración instrumental ocurre cuando el metrólogo, en un afán de obtener un "ajuste perfecto", iguala el número de puntos de calibración al número de parámetros del modelo (e.g., ajustar una cuadrática con 3 puntos). En este caso, $n = p$, y por lo tanto $\nu = 0$. La curva pasa exactamente por todos los puntos, haciendo que $SSE = 0$. Matemáticamente, la fórmula del $MSE$ se convierte en una indeterminación del tipo $0/0$.

Físicamente, esto significa que hemos agotado toda la información disponible para definir la curva, quedándonos sin información remanente para evaluar la calidad de esa curva. No hay "testigos" (residuos) que nos digan si el ajuste es bueno o si los puntos tenían error. La incertidumbre se vuelve incalculable, y la calibración pierde toda validez científica. Es equivalente a trazar una línea recta entre dos puntos y afirmar que la relación es perfectamente lineal porque la línea toca ambos puntos; es una tautología geométrica, no una confirmación experimental.