Os investimentos em inteligência artificial na região Ásia-Pacífico não param de crescer, mas muitas empresas ainda esbarram no mesmo problema: dificuldade em extrair valor real de seus projetos. O ponto crítico, segundo especialistas, está na infraestrutura que sustenta essas iniciativas. A maioria dos ambientes atuais simplesmente não foi pensada para rodar inferência na velocidade e escala exigidas por aplicações do mundo real. Estudos de mercado mostram que inúmeros projetos não alcançam as metas de ROI, mesmo após grandes aportes em ferramentas de IA generativa, justamente por causa dessas limitações.

Esse cenário expõe com clareza o peso que a infraestrutura de IA tem sobre desempenho, custos e capacidade de escalar implantações em produção na região.

Para enfrentar esse desafio, a Akamai vem apostando na Inference Cloud, desenvolvida em parceria com a NVIDIA e baseada nos novos chips Blackwell. A premissa é direta: se a maior parte das aplicações de IA precisa tomar decisões em tempo real, essas decisões devem ocorrer o mais próximo possível dos usuários, e não em data centers distantes. Essa mudança de paradigma, afirma a empresa, pode ajudar organizações a controlar custos, reduzir latência e viabilizar serviços de IA que dependem de respostas em frações de segundo.

Jay Jenkins, CTO de Cloud Computing da Akamai, detalhou ao AI News por que este momento está forçando empresas a repensar a forma como implementam IA – e por que a inferência, e não o treinamento, virou o gargalo principal.

### Por que projetos de IA emperram sem a infraestrutura adequada

Jenkins afirma que o abismo entre experimentação e implantação em larga escala é bem maior do que muitas organizações imaginam. “Muitas iniciativas de IA falham em entregar o valor de negócio esperado porque as empresas costumam subestimar o gap entre experimentação e produção”, diz. Mesmo com o grande interesse em IA generativa, contas altas de infraestrutura, alta latência e a dificuldade de operar modelos em escala frequentemente travam a evolução dos projetos.

Hoje, a maioria das empresas continua ancorada em nuvens centralizadas e grandes clusters de GPU. Porém, conforme o uso aumenta, esse modelo se torna caro demais, sobretudo em regiões afastadas dos grandes hubs de nuvem. A latência também vira um problema sério quando os modelos precisam realizar múltiplas etapas de inferência a longas distâncias. “A IA é tão poderosa quanto a infraestrutura e a arquitetura nas quais ela roda”, reforça Jenkins, observando que a latência costuma comprometer a experiência do usuário e o valor de negócio pretendido.

Ele ainda destaca outros obstáculos comuns na transição de pilotos para produção: ambientes multicloud complexos, regras de dados distintas entre países e exigências de conformidade cada vez mais rigorosas.

### Por que a inferência passou à frente do treinamento

Na Ásia-Pacífico, o uso de IA está saindo de provas de conceito pontuais para implementações reais em aplicações e serviços. Nesse contexto, Jenkins aponta que o consumo de computação passa a ser dominado pelo dia a dia da inferência, e não mais pelos ciclos ocasionais de treinamento.

Com muitas organizações expandindo modelos de linguagem, visão e multimodais em vários mercados simultaneamente, a demanda por inferência rápida e confiável cresce bem acima do previsto. É isso que transforma a inferência no principal ponto de estrangulamento da região.

Os modelos precisam operar em diferentes idiomas, atender regulações variadas e lidar com múltiplos ambientes de dados, muitas vezes em tempo real. Essa combinação pressiona fortemente arquiteturas centralizadas que não foram pensadas para esse nível de responsividade.

### Como o edge melhora desempenho e reduz custos de IA

Segundo Jenkins, aproximar a inferência dos usuários, dispositivos ou agentes muda completamente a equação de custos e desempenho. Ao encurtar o caminho que os dados percorrem, os modelos respondem mais rápido e se evita o gasto de trafegar grandes volumes de informação entre grandes regiões de nuvem.

Sistemas físicos baseados em IA – como robôs, máquinas autônomas ou soluções de cidades inteligentes – dependem de decisões em milissegundos. Quando a inferência acontece em locais distantes, esses sistemas simplesmente deixam de funcionar como esperado.

Os ganhos financeiros com essa abordagem mais distribuída também podem ser significativos. Jenkins cita análises da Akamai que mostram empresas na Índia e no Vietnã obtendo reduções expressivas no custo de operação de modelos de geração de imagens ao deslocar as cargas para a borda, em vez de mantê-las em nuvens centralizadas. Melhor aproveitamento de GPUs e menores taxas de saída de dados (egress) foram fatores decisivos nessas economias.

### Onde a IA na borda está ganhando espaço primeiro

A adoção inicial de inferência na borda é mais forte em setores onde pequenos atrasos impactam diretamente receita, segurança ou engajamento do usuário.

Varejo e e-commerce despontam entre os primeiros a migrar, já que consumidores abandonam rapidamente experiências lentas. Recomendações personalizadas, buscas inteligentes e ferramentas de compra multimodais funcionam melhor quando a inferência é local e ágil.

O setor financeiro é outro em que a latência se traduz diretamente em valor. Jenkins destaca workloads como checagem de fraude, aprovação de pagamentos e pontuação de transações, que dependem de cadeias de decisões de IA em milissegundos. Rodar a inferência perto de onde os dados são gerados ajuda as instituições a agir mais rápido e a manter as informações dentro das fronteiras regulatórias exigidas.

### Por que parcerias entre nuvem e fabricantes de GPU são cruciais

Com a expansão das cargas de trabalho em IA, as empresas precisam de uma infraestrutura capaz de acompanhar esse ritmo. Jenkins observa que isso tem aproximado ainda mais provedores de nuvem e fabricantes de GPUs.

A colaboração da Akamai com a NVIDIA é um exemplo: GPUs, DPUs e software de IA estão sendo implantados em milhares de pontos de borda. A proposta é criar uma espécie de “rede de entrega de IA” que distribui a inferência por diversos locais, em vez de concentrar tudo em poucas regiões.

Isso melhora desempenho, mas também auxilia em conformidade. Jenkins ressalta que quase metade das grandes organizações da Ásia-Pacífico enfrenta dificuldades com regras de dados diferentes em cada mercado, o que torna o processamento local ainda mais importante. Essas novas parcerias começam a definir a próxima fase da infraestrutura de IA na região, sobretudo para cargas que exigem respostas de baixa latência.

De acordo com Jenkins, a segurança já nasce integrada a essas arquiteturas: controles de zero trust, roteamento com consciência de dados e proteções contra fraudes e bots estão se tornando componentes-padrão das pilhas tecnológicas oferecidas.

### A infraestrutura para sustentar IA agentiva e automação

Sistemas agentivos – aqueles em que agentes de IA tomam múltiplas decisões em sequência – exigem uma infraestrutura capaz de operar em escala de milissegundos. Para Jenkins, a diversidade da região torna esse desafio maior, mas não intransponível.

Os países da Ásia-Pacífico variam amplamente em conectividade, regulações e maturidade tecnológica, o que demanda workloads de IA flexíveis o suficiente para rodar onde fizer mais sentido. Ele cita pesquisas indicando que a maioria das empresas da região já utiliza nuvens públicas em produção, mas muitas planejam depender fortemente de serviços de borda até 2027.

Essa mudança exigirá infraestruturas que consigam manter dados dentro de cada país, rotear tarefas para o ponto mais próximo e adequado e continuar funcionando mesmo em cenários de rede instável.

### O que as empresas precisam começar a preparar agora

Com a inferência migrando para a borda, organizações terão de adotar novas estratégias de operação. Jenkins projeta um ciclo de vida de IA muito mais distribuído, em que modelos são atualizados e gerenciados em múltiplos sites.

Isso exige melhores ferramentas de orquestração e visibilidade clara de desempenho, custos e erros tanto no core quanto na borda. A governança de dados fica mais complexa, mas também mais administrável quando o processamento permanece próximo da origem dos dados. Metade das grandes empresas da região já enfrenta dificuldades com a variação regulatória, o que torna a inferência local um aliado importante.

A segurança também ganha ainda mais relevância. Embora espalhar a inferência pela borda possa aumentar a resiliência, isso significa que cada ponto da rede precisa ser protegido. As empresas terão de blindar APIs, pipelines de dados e se defender contra fraudes e ataques de bots. Jenkins lembra que muitas instituições financeiras já utilizam os controles da Akamai justamente nessas frentes.