Backpropagation (propagação reversa) usa a regra da cadeia do cálculo para propagar o erro da saída de volta através de cada camada da rede, calculando quanto cada peso contribuiu para o erro total. Combinado com otimizadores como SGD, Adam ou AdaGrad, esses gradientes são usados para atualizar os pesos iterativamente, minimizando a função de perda. É o algoritmo que viabilizou o treinamento de deep learning.