Os bots de IA já fazem mais ‘scraping’ do que nunca e estão mais difíceis de detectar
Os meios digitais estão a ser rastreados por inteligência artificial mais do que imaginam — e de formas que até agora eram difíceis de detetar. Segundo o mais recente relatório da TollBit, uma plataforma de dados especializada na relação entre publishers e empresas de IA, os bots concebidos para alimentar respostas em tempo real (Retrieval-Augmented Generation, ou RAG) aumentaram a sua presença em sites de media em 49% no primeiro trimestre de 2025 face ao trimestre anterior. Em comparação, os bots de treino, que alimentam modelos LLM, cresceram 18% no mesmo período.
A mudança não é irrelevante: enquanto os bots de treino acedem apenas uma vez a um site para extrair conteúdo e treinar modelos como o GPT ou o Llama, os bots RAG operam de forma contínua. A sua missão é consultar páginas em tempo real para responder a perguntas colocadas por utilizadores em plataformas como o ChatGPT, o Perplexity ou os novos motores de busca baseados em IA. Isto implica um fluxo constante de tráfego para os sites… mas com pouco retorno.
“O RAG não é uma venda única, é uma sindicação contínua. Tem um valor acumulado que, em teoria, os meios poderiam capitalizar… mas ainda não o estão a fazer”, explica Josh Jaffe, ex-presidente de media na Ingenio e consultor especializado em IA, à Digiday.
Bots invisíveis e sem licença
Uma das principais preocupações do relatório da TollBit é a crescente sofisticação destes bots. Alguns já são capazes de simular comportamento humano, ultrapassar CAPTCHAs e contornar barreiras impostas por ficheiros como o robots.txt. Isto faz com que muitos meios nem sequer tenham consciência do volume real de scraping a que estão a ser sujeitos.
Além disso, gigantes tecnológicos como a Google ou a Bing não distinguem, nos seus bots, aqueles que recolhem dados para indexação dos que servem para alimentar IA. Isto significa que, se um publisher decidir bloquear o acesso a certos bots, corre o risco de desaparecer dos resultados de pesquisa e perder tráfego orgânico.
A situação torna-se ainda mais paradoxal com o uso de bots como o “Google-Extended”, que podem ser bloqueados facilmente, enquanto sistemas como o Gemini ou os AI Overviews utilizam bots não identificáveis que não respeitam os protocolos tradicionais.
Novas formas de monetizar a IA
Embora muitas conversas sobre IA girem em torno de acordos de licenciamento para treinar modelos, o relatório sublinha que a maior oportunidade reside em monetizar os acessos em tempo real. Plataformas como a TollBit já oferecem aos bots uma espécie de “portagem” para aceder a conteúdos, funcionando como intermediários que redirecionam o tráfego automatizado e propõem tarifas pelo uso.
“Este modelo começa a parecer-se com um pay-per-query, em que as plataformas de IA poderiam pagar sempre que usam conteúdo jornalístico como fonte nas suas respostas”, refere um responsável de media à Digiday.
O problema é que ainda não existem padrões nem uma infraestrutura sólida para aplicar esses pagamentos de forma massiva, e muitos meios de menor dimensão não têm recursos para o implementar. O IAB Tech Lab está a desenvolver uma API chamada LLM Content Ingest, pensada para dar mais controlo aos meios, embora o seu sucesso dependa da colaboração voluntária das tecnológicas.
Um dos dados mais alarmantes do relatório da TollBit é a desproporção entre scraping e tráfego real. Em média, por cada 11 scrapes feitos pelo Bing, apenas se regista uma visita humana ao site. No caso da OpenAI, a proporção é de 179 scrapes por visita; na Perplexity, 369:1; e na Anthropic, chega aos 8692:1.
“As plataformas de IA estão a extrair valor sem praticamente dar nada em troca. É insustentável”, denunciava o Financial Times na Câmara dos Lordes britânica no mês passado.
A TollBit estima que o tráfego proveniente de aplicações de IA representa apenas 0,04% do tráfego externo total nos meios analisados. E a evasão ao robots.txt também está a aumentar: em março de 2025, mais de 26 milhões de scrapes ignoraram deliberadamente esse protocolo.
Uma era de “dumping digital” que exige ação
O Financial Times classificou esta situação como o início de uma era de “dumping digital”, em que os conteúdos jornalísticos são tratados como matéria-prima gratuita para respostas geradas por IA, muitas vezes sem atribuição nem valor acrescentado. Os especialistas concordam que o scraping com fins de RAG não é necessariamente negativo — desde que seja regulado, monitorizado e, sobretudo, remunerado. A chave está em ultrapassar mitos, compreender os detalhes técnicos e jurídicos e negociar modelos que protejam o valor do conteúdo original.
“Se não agirmos rapidamente, os meios correm o risco de se tornarem fornecedores silenciosos de dados para modelos que depois lhes fazem concorrência em atenção, tráfego e receitas”, alerta Olivia Joslin, cofundadora da TollBit, ao mesmo meio.
O próximo passo? Um novo contrato social entre tecnologia e jornalismo. Porque, se os modelos de IA são construídos com base em conteúdo editorial, é justo que os publishers tenham um papel ativo (e não apenas passivo) nesta revolução.