É assim que as ferramentas programáticas inspiram a nova iniciativa de IA do IAB Tech Lab
Quando o IAB Tech Lab anunciou o lançamento do grupo de trabalho sobre os Protocolos de Monetização de Conteúdo com IA (CoMP), uma iniciativa que inicialmente se conheceu como “LLM Content Ingest API”, alguns especialistas do setor ficaram surpreendidos. Trata-se de um projeto ambicioso, cujo objetivo é construir uma infraestrutura técnica adequada para a nova era da web aberta impulsionada pela inteligência artificial. O objetivo é fornecer salvaguardas para a propriedade intelectual dos publishers e desenvolver um quadro que lhes permita licenciar o seu conteúdo a empresas de IA de forma rápida, transparente e justa.
Apesar de não estar diretamente ligado à programática, Shailley Singh, vice-presidente executivo de produto e diretor de operações do IAB Tech Lab, garantiu que o novo grupo de trabalho se enquadra perfeitamente no âmbito de atuação da organização. “A nossa visão geral é assegurar que os benefícios sociais da internet aberta estejam disponíveis para as empresas, criadores e editores de conteúdos”, afirmou à Videoweek. “No sentido mais amplo do nosso trabalho, isto encaixa perfeitamente.”
Os publishers, que constituem uma parte importante da comunidade que o IAB Tech Lab serve, já estão a ver os seus modelos de negócio ameaçados pela IA, com muitos a reportar quedas no tráfego como resultado da crescente utilização de ferramentas de inteligência artificial. “Se perdes tráfego, vais perder receitas”, disse Singh. “E isso afeta todo o ecossistema publicitário, não apenas os publishers. Porque se os publishers perdem tráfego, há cada vez menos publicidade em geral, e isso afeta os SSP, DSP e os restantes players.” Por isso, o novo grupo de trabalho pretende ajudar a sustentar o ecossistema de publicidade digital que o IAB Tech Lab ajudou a construir.
Uma porta “fechada a 7 chaves”
O primeiro dos três objetivos do novo grupo de trabalho é dar aos publishers uma forma eficaz de restringir o acesso de bots ao seu conteúdo, para evitar o scraping: um passo essencial se quiserem monetizar o acesso a esses dados. Como descreve o Tech Lab, dar-lhes “uma porta com chave e fechadura”.
Será tarefa do grupo definir exatamente como isto irá funcionar, mas parte do trabalho passará por reforçar métodos já existentes. Por exemplo, embora os ficheiros robots.txt sejam usados frequentemente para permitir ou bloquear rastreadores, muitas vezes são simplesmente ignorados. Por isso, será considerada a obrigatoriedade de cumprimento desses ficheiros e a utilização de firewalls de aplicações web nas redes de entrega de conteúdos (content delivery networks ou CDN) dos publishers para bloquear bots que continuem a ignorá-los.
O IAB Tech Lab também trabalhará na classificação dos diferentes tipos de bots que visitam os sites dos publishers e em criar uma forma de comunicar com os bots bloqueados, informando-os sobre o que devem fazer para aceder ao conteúdo pretendido.
Identificação de bots
Após um anúncio feito este ano pela Cloudflare (um dos maiores fornecedores de CDN do mundo), em que revelou estar a desenvolver métodos mais robustos para bloquear bots de IA, surgiram dúvidas sobre se seria realmente possível travar os atores maliciosos. Singh admite que provavelmente haverá uma corrida ao armamento, já que esses atores procurarão formas de contornar os firewalls.
Parte do desafio reside em identificar a origem dos bots e classificá-los corretamente. Já existem iniciativas baseadas em autodeclaração, mas os especialistas insistem que será fundamental desenvolver tecnologias que consigam categorizar os bots com base no seu comportamento observado, para depois decidir se devem ser bloqueados ou reportados.
Outro problema frequentemente levantado pelos publishers é que os termos e condições das grandes empresas tecnológicas dificultam o bloqueio de bots de IA. Por exemplo, se um publisher quiser estar acessível na pesquisa do Google, tem de aceitar os rastreadores de pesquisa da Google. Mas isso também implica aceitar os seus rastreadores de IA.
No entanto, este problema fica fora do âmbito do grupo. “Isso é mais uma questão contratual”, explicou Singh. “Nós forneceremos a tecnologia, mas tem de haver um esforço mais amplo por parte dos publishers para estabelecer termos que funcionem para eles.”
Construir um marketplace de propriedade intelectual
Uma vez que os publishers consigam proteger devidamente o seu conteúdo, o passo seguinte será estabelecer um sistema para o monetizar através de licenciamento a empresas de IA. Isso inclui duas partes fundamentais:
Ajudar os publishers a estruturar o seu conteúdo de forma que as empresas de IA o possam descobrir e ingerir facilmente, decidindo o que querem pagar.
Criar um marketplace através do qual as vendas possam ser realizadas.
Isto não será necessário para todos os acordos. No caso dos grandes grupos editoriais e das principais empresas de IA, será mais fácil criar acordos diretos de grande escala (como os que já estamos a ver). Mas, para meios mais pequenos ou de nicho, e para modelos de linguagem (LLMs) mais pequenos, este tipo de acordo pode não ser viável. Singh acrescentou que os grandes acordos que os publishers estão a assinar não valorizam necessariamente o seu conteúdo de forma justa, já que não estão ligados ao uso. Por isso, alguns poderão preferir ferramentas de negociação em tempo real. Daí a necessidade de um quadro que permita a compra e venda automatizada do acesso a propriedade intelectual.
Embora o conceito de negociação em tempo real se assemelhe ao da publicidade programática, existem diferenças importantes. Para começar, no licenciamento de conteúdos, é o comprador quem dá o primeiro passo, não o vendedor. “Aqui é ao contrário do nosso modelo publicitário”, disse Singh. “O comprador apresenta a procura em tempo real, e depois os vendedores respondem a essa procura, por isso não há leilão.”
Ainda assim, outros conceitos do mundo programático podem ser transpostos. “Haverá conceitos como os IDs de oferta (deal IDs) que penso que podemos reutilizar”, disse Singh. “Poderias criar um ID de oferta que indique quantas vezes podem rastrear o teu site, quantas vezes usam o teu conteúdo, com um preço acordado e preços mínimos. Também poderíamos usar algumas das capacidades de registo que temos com os bidstream logs. Assim, podemos aproveitar alguns desses conceitos, mas teremos de os adaptar a estas transações, que são diferentes.”
Envolvimento das empresas de IA
Para um projeto tão ambicioso, é importante ter muitos atores envolvidos de todos os lados, mas Singh comentou à Videoweek que, exceto aquelas com grandes negócios publicitários com as quais o IAB já colabora, as empresas de IA não estavam a participar.
“É muito importante que estas empresas se envolvam, e neste momento não o estão a fazer”, disse. Singh enfatizou que deveriam participar a longo prazo nestes projetos por “interesse próprio”, já que uma Open Web em decadência acabaria por deixar os modelos de linguagem sem conteúdo para rastrear. “Existe o risco de criar um ciclo de decadência para estas empresas”, disse. “Se os publishers começarem a fechar o acesso, os LLMs terão menos conteúdo de qualidade para usar, o que, a longo prazo, degradará o conteúdo que oferecem aos seus próprios utilizadores. Por isso, é realmente importante que se envolvam”, concluiu.