Estudo revela que mais de um terço dos sites publicados desde 2022 contêm conteúdo gerado por inteligência artificial

Pesquisadores do Imperial College London, da Universidade de Stanford e do Internet Archive publicaram um estudo que quantifica, com dados concretos, o avanço da produção de conteúdo por inteligência artificial na web. O trabalho, intitulado "O Impacto do Texto Gerado por IA na Internet", analisou milhares de sites publicados entre 2022 e 2025 por meio do banco de dados do Wayback Machine, a ferramenta de arquivamento do Internet Archive que armazena versões anteriores de páginas da web. Os resultados mostram que 17,6% dos sites que entraram no ar no período foram integralmente criados por sistemas de inteligência artificial, enquanto 35,3% das páginas web publicadas nesse mesmo recorte temporal tiveram ao menos alguma parte do seu conteúdo produzida com o auxílio dessas tecnologias.

Inteligência Artificial na Internet: Mais de um Terço do Conteúdo Online é Gerado por Máquinas - Imagem complementar

Esses números ganham ainda mais relevância quando comparados ao cenário anterior ao lançamento do ChatGPT, em novembro de 2022. Até o final daquele ano, a proporção de sites criados com ferramentas de inteligência artificial era praticamente nula. A curva de crescimento, portanto, coincide diretamente com a popularização dos chamados modelos de linguagem de grande porte, sistemas treinados com grandes volumes de dados textuais capazes de gerar textos a partir de instruções simples fornecidas pelo usuário. O ritmo acelerado de adoção indica que a presença de textos produzidos por máquinas na internet deixou de ser uma possibilidade futura para se tornar uma realidade mensurável.

PUBLICIDADE

A pesquisa se conecta diretamente com a chamada teoria da internet morta, uma hipótese que sugere que a maior parte da produção de conteúdo online passou a ser dominada por robôs e algoritmos, tornando a rede um ambiente onde interações e publicações humanas autênticas seriam cada vez mais raras. Os dados do estudo oferecem, pela primeira vez, uma base empírica robusta para avaliar até que ponto essa narrativa corresponde ao que realmente acontece na web. A confirmação de que mais de um terço das novas páginas carrega algum grau de automação reforça a ideia de que o ecossistema digital está passando por uma transformação profunda e veloz.

Para chegar a esses resultados, a equipe utilizou uma ferramenta de detecção chamada Pangram, em sua terceira versão, capaz de classificar textos como gerados ou assistidos por inteligência artificial. O detector foi aplicado sobre uma amostra representativa de sites coletados por meio do Internet Archive, permitindo uma análise em larga escala do conteúdo publicado na web ao longo de três anos. Essa abordagem metodológica conferiu ao estudo uma abrangência que pesquisas anteriores, geralmente limitadas a plataformas específicas, não conseguiam atingir.

Além de medir a proporção de conteúdo gerado por IA, os autores investigaram dois efeitos frequentemente associados à proliferação desses textos na rede: a perda de diversidade semântica e o comprometimento da precisão factual das informações. Em relação à diversidade, o estudo identificou evidências de que o aumento na produção de textos automatizados está ligado a uma redução na variedade de vocabulário e a um aumento no tom positivo dos conteúdos publicados. No entanto, em contraste com o que grande parte do público acredita, não foram encontradas evidências estatisticamente significativas de que a precisão factual ou a diversidade de estilo de escrita tenham sofrido quedas generalizadas.

Esse descompasso entre percepção e realidade é um dos aspectos centrais do levantamento. A equipe realizou uma pesquisa com 853 adultos nos Estados Unidos para compreender como a população percebe o impacto da inteligência artificial na internet. A maioria dos entrevistados afirmou acreditar em seis diferentes efeitos negativos hipoteticamente causados por textos produzidos por máquinas, incluindo a disseminação de informações falsas, a uniformização da linguagem e a erosão da confiança nos conteúdos online. Contudo, quando os pesquisadores cruzaram essas opiniões com os dados quantitativos da web, apenas duas das seis hipóteses negativas foram confirmadas pela análise empírica.

Os pesquisadores alertam, contudo, que o problema não deve ser descartado apenas porque alguns efeitos temidos ainda não foram mensurados com clareza. Segundo os autores do estudo, à medida que os textos gerados por inteligência artificial se tornam cada vez mais ubíquos e indistinguíveis da escrita humana, existe o risco de os usuários passarem a desacreditar a credibilidade de todas as informações disponíveis na internet. Esse fenômeno foi descrito pelos pesquisadores com base em dois conceitos: a "apatia em relação à realidade", na qual as pessoas simplesmente param de tentar distinguir o que é verdadeiro do que é fabricado, e o "dividendo do mentiroso", uma situação em que a abundância de conteúdo falso passa a beneficiar quem tem interesse em enganar deliberadamente.

Esse cenário de desconfiança generalizada pode alterar de forma significativa os padrões de consumo de notícias e informações na internet. O estudo aponta que os usuários que demonstram maior ceticismo em relação ao uso de inteligência artificial tendem a ser os mais afetados por essa dinâmica, pois são justamente aqueles que mais se preocupam com a qualidade e a autenticidade do conteúdo que consomem. Quando a confiança na origem das informações se enfraquece, mesmo fontes confiáveis podem ser tratadas com descrença, o que configura um desafio para o jornalismo e para a própria saúde do ecossistema digital.

Outro ponto destacado pela pesquisa é a evolução da capacidade dos sistemas de inteligência artificial em replicar o estilo de escrita humano e seguir instruções complexas fornecidas em comandos de texto. Essa evolução técnica torna cada vez mais difícil para o leitor comum distinguir entre um conteúdo escrito por uma pessoa e outro produzido por uma máquina, o que amplifica o potencial de desinformação e reforça a necessidade de ferramentas de detecção mais sofisticadas, como as utilizadas no próprio estudo.

Por fim, os autores informaram que estão trabalhando em parceria com o Internet Archive para transformar a pesquisa em uma ferramenta de monitoramento contínuo, em vez de um retrato estático da web. A intenção é expandir a análise para identificar quais categorias de sites são mais impactadas pela automação e como os efeitos variam entre diferentes idiomas. Essa abordagem longitudinal poderá oferecer, nos próximos anos, uma compreensão ainda mais precisa do modo como a inteligência artificial está reconfigurando a produção e o consumo de informação na internet.