¿Cuál es el motivo del gran gradiente de café?
Los detalles específicos son:
1. Primero configure un clip_gradient en el solucionador.
2. Después de la propagación hacia adelante y hacia atrás, obtendremos la diferencia de gradiente de cada peso. En este momento, no utilice estos gradientes para actualizar los pesos directamente como de costumbre, primero encuentre la suma de los cuadrados de todos los gradientes de peso. Si sumsq_diff > Clip_gradient, busque el factor de escala scale_factor = clip_gradient/sumsq_diff. Este factor de escala está entre (0,1). Si la suma de los cuadrados del gradiente de peso sumsq_diff es mayor, el factor de escala será menor.
3. Finalmente, multiplique todos los gradientes de peso por este factor de escala. El gradiente obtenido en este momento es la información de gradiente final.
Esto garantiza que en la actualización iterativa, la suma de los cuadrados de los gradientes de todos los pesos esté dentro del rango establecido, es decir, clip_gradient.