Gradient Descent calcula o gradiente (derivada parcial) da função de perda em relação a cada parâmetro e atualiza os pesos na direção oposta ao gradiente. Variantes incluem: Batch GD (usa todos os dados), Stochastic GD (usa uma amostra), Mini-batch GD (usa subconjuntos), e otimizadores adaptativos como Adam, RMSprop e AdaGrad que ajustam a taxa de aprendizado por parâmetro.