Edge AI traz a inferência para o dispositivo final, eliminando latência de rede, dependência de internet e preocupações de privacidade. Requer modelos otimizados via quantização, pruning (poda), knowledge distillation e arquiteturas eficientes como MobileNet e EfficientNet. Hardware especializado inclui NPUs (Neural Processing Units) em smartphones, Google Coral, NVIDIA Jetson e chips Apple Neural Engine.