Sitio web de resúmenes de películas - E-sports - ¿Cuál es el motivo del gran gradiente de café?

¿Cuál es el motivo del gran gradiente de café?

Clip_gradient se introduce para solucionar el problema de fuga de gradiente. Cuando los pesos se actualizan demasiado rápido en una iteración, es fácil provocar que la pérdida diverja. La función intuitiva de clip_gradient es limitar la actualización de pesos a un rango apropiado.

Los detalles específicos son:

1. Primero configure un clip_gradient en el solucionador.

2. Después de la propagación hacia adelante y hacia atrás, obtendremos la diferencia de gradiente de cada peso. En este momento, no utilice estos gradientes para actualizar los pesos directamente como de costumbre, primero encuentre la suma de los cuadrados de todos los gradientes de peso. Si sumsq_diff > Clip_gradient, busque el factor de escala scale_factor = clip_gradient/sumsq_diff. Este factor de escala está entre (0,1). Si la suma de los cuadrados del gradiente de peso sumsq_diff es mayor, el factor de escala será menor.

3. Finalmente, multiplique todos los gradientes de peso por este factor de escala. El gradiente obtenido en este momento es la información de gradiente final.

Esto garantiza que en la actualización iterativa, la suma de los cuadrados de los gradientes de todos los pesos esté dentro del rango establecido, es decir, clip_gradient.