Derivadas del Error Cuadrático Medio: De la teoría a la práctica
Introducción
Una de las partes confusas del Machine Learning es entender cómo se calculan las derivadas del Error Cuadrático Medio (ECM) para actualizar los pesos del modelo. En este post voy a explicar paso a paso, con mucho detalle, cómo llegamos a las fórmulas que usamos en el gradiente descendente.
Si alguna vez te preguntaste:
- ¿De dónde sale la fórmula
derivada = -2 * mean(X * (y - y_pred))? - ¿Por qué para el bias es diferente?
- ¿Qué es eso de la “regla de la cadena”?
Este post es para ti.
El problema: Función de predicción
Tenemos un modelo de regresión lineal simple:
Donde:
- = predicción del modelo
- = peso (weight)
- = variable de entrada (features)
- = bias (intercepto)
Ejemplo numérico:
X = [2, 4, 5]
y_real = [3, 5, 7]
Con w=1 y b=1:
y_pred = 1*[2,4,5] + 1 = [3, 5, 6]
La función de error (ECM)
Necesitamos una función que mida qué tan mal está nuestro modelo:
Sustituyendo :
Esta es nuestra función objetivo que queremos minimizar.
¿Por qué necesitamos derivadas?
Para minimizar el ECM, necesitamos saber:
- ¿En qué dirección cambiar w? → Necesitamos
- ¿En qué dirección cambiar b? → Necesitamos
La derivada nos dice:
- Si es positiva → disminuir el parámetro
- Si es negativa → aumentar el parámetro
- Si es cero → estamos en el mínimo
La regla de la cadena
Esta es la clave para entender todo. La regla de la cadena dice:
En palabras: si una función está compuesta, derivamos “de afuera hacia adentro” y multiplicamos.
Ejemplo simple:
Esto es una composición:
- Función exterior: donde
- Función interior:
Derivada:
Derivada del ECM con respecto a w
Vamos paso a paso, sin saltarnos nada.
Paso 1: Escribir la función completa
Paso 2: Identificar la composición
Tenemos tres niveles:
- Función exterior:
- Función del medio:
- Función interior:
Paso 3: Aplicar la regla de la cadena
Derivamos de afuera hacia adentro:
Primera capa: derivar el cuadrado
Usando la regla de la cadena :
Segunda capa: derivar lo de adentro
Ahora derivamos término por término:
- (y es constante respecto a w)
- (derivada de es )
- (b es constante respecto a w)
Por lo tanto:
Paso 4: Juntarlo todo
Reordenando:
¡Esta es la fórmula final!
Derivada del ECM con respecto a b
Ahora hacemos lo mismo pero derivando respecto a b (bias).
Paso 1: Escribir la función
Paso 2: Aplicar la regla de la cadena
Primera capa: derivar el cuadrado
Segunda capa: derivar lo de adentro
Derivamos término por término:
- (y es constante)
- (wX no depende de b)
- (derivada de b es 1)
Por lo tanto:
Paso 3: Juntarlo todo
¡Esta es la fórmula final para el bias!
Comparación lado a lado
| Parámetro | Derivada | Intuición |
|---|---|---|
| w (peso) | Multiplicamos por X porque w está multiplicando a X | |
| b (bias) | No multiplicamos por nada porque b es solo una suma |
La diferencia clave:
- Para w: aparece la X porque w multiplica a X en la predicción
- Para b: no aparece X porque b solo se suma