ONLINE/OFFLINE


O IMPACTO DANOSO DOS BOTS DE IA SOBRE AS BIBLIOTECAS

A inteligência artificial (IA) tem ocupado espaço crescente no debate público e, de modo particular, no campo da Biblioteconomia e Ciência da Informação. Embora frequentemente associada a avanços significativos nos serviços bibliotecários, sua adoção também tem provocado desafios substanciais.

Entre eles, destaca-se o impacto negativo causado por bots de IA que, ao rastrear massivamente conteúdo online, sobrecarregam servidores e comprometem a sustentabilidade digital das instituições.

Modelos de linguagem dependem de grandes volumes de dados para treinamento, o que coloca em evidência a questão de como obter informações de forma ética e juridicamente adequada.

No entanto, empresas desenvolvedoras de IA têm recorrido, em muitos casos, à coleta indiscriminada de conteúdos físicos e digitais, sem autorização de autores, editoras ou instituições detentoras dos acervos.

Essa prática, motivada por interesses comerciais, tem gerado tensões crescentes com bibliotecas e demais instituições de patrimônio cultural.

Reportagem do The Washington Post, baseada em documentos judiciais, revelou a competição entre empresas de IA para adquirir materiais bibliográficos destinados ao treinamento de seus algoritmos.

Um exemplo emblemático é o “Project Panama”, iniciativa sigilosa da startup Anthropic, que, no início de 2024, intensificou esforços para escanear — de forma destrutiva — milhões de livros.

Segundo os documentos, a empresa investiu dezenas de milhões de dólares na aquisição e desmontagem física de obras, removendo lombadas e digitalizando páginas para alimentar modelos como o chatbot Claude.

Esse caso ilustra um fenômeno mais amplo: a busca por dados em larga escala sem consentimento dos produtores de conteúdo. Em vez de negociar permissões com editoras, autores ou instituições, algumas empresas têm recorrido à extração automatizada de informações, inclusive por meio de downloads não autorizados de servidores de terceiros, como bibliotecas e repositórios digitais.

Os bots de IA, ao rastrear catálogos, repositórios e coleções digitais, geram tráfego excessivo que sobrecarrega servidores e prejudica o acesso de usuários legítimos.

Instituições culturais, bibliotecas e plataformas de dados abertos têm relatado interrupções em seus serviços devido ao aumento abrupto de acessos automatizados, impulsionados pela expansão de operações de coleta destinadas à construção de grandes modelos de linguagem, como ChatGPT, Gemini e Claude.

Essas instituições tornaram-se alvos preferenciais por disponibilizarem conteúdos de alta qualidade, metadados estruturados e, muitas vezes, acesso aberto sem exigência de login.

A ausência de regulamentação específica e o desrespeito às políticas institucionais de uso agravam o problema, comprometendo a sustentabilidade digital dos acervos.

Diante desse cenário, algumas bibliotecas têm adotado medidas de mitigação. A Duke University, por exemplo, publicou diretrizes para orientar usuários e detalhar sua resposta ao tráfego automatizado.

Desde junho de 2025, implementou a solução Anubis, que exige a realização de Proof of Work (PoW) para determinados tipos de acesso. Usuários externos à rede da instituição visualizam a mensagem “Making sure you're not a bot!” (Verificando se você não é um robô!), enquanto o sistema utiliza JavaScript para diferenciar humanos de robôs, bloqueando estes últimos.

Embora rastreadores de mecanismos de busca existam há décadas, seu impacto era limitado pelo custo da coleta e pelo número reduzido de agentes envolvidos. A nova geração de bots, porém, opera em escala muito maior e com menor sofisticação técnica, gerando efeitos colaterais severos.

Michael Weinberg, codiretor do glam-e lab, relata que, já em 2024, servidores de instituições culturais passaram a enfrentar sobrecargas e até colapsos devido ao volume de acessos automatizados.

Weinberg coordenou, em 2025, o relatório Are AI Bots Knocking Cultural Heritage Offline?, que analisou o impacto técnico e operacional desses bots sobre infraestruturas digitais de galerias, bibliotecas, arquivos e museus. O estudo constatou que “enxames” de bots atuam em rajadas intensas, utilizando múltiplos endereços IP e ignorando protocolos como o robots.txt. Como consequência, aumentam os custos com largura de banda, manutenção de hardware e mobilização de equipes técnicas.

Para mitigar esses efeitos, instituições têm recorrido a firewalls, bloqueios geográficos e serviços de proteção especializados. Contudo, tais medidas suscitam dilemas éticos, pois barreiras como CAPTCHAs e exigência de login podem restringir o acesso público — justamente a missão central das instituições de patrimônio cultural.

A ByWater Solutions, fornecedora de sistemas de código aberto para bibliotecas, passou a utilizar serviços da Cloudflare para proteger clientes dos softwares Koha e Aspen Discovery.

Em um caso relatado por Judy Panitch, diretora de comunicação da biblioteca da University of North Carolina (UNC), o catálogo online recebeu tanto tráfego automatizado que o acesso de alunos e docentes foi comprometido.

A análise técnica revelou milhares de buscas idênticas, vindas de provedores renomados como AT&T, Spectrum e Verizon, simulando comportamentos típicos de usuários reais.

Em um único dia de dezembro de 2025, registraram-se 11.329 buscas por “música finlandesa”, número desproporcional em relação às cerca de 15 buscas mensais anteriores envolvendo termos semelhantes.

Além disso, os bots realizavam consultas facetadas extremamente complexas — com 15, 20 ou até 25 facetas — algo inviável para um usuário humano. Tentativas de bloqueio baseadas em padrões de consulta funcionaram apenas temporariamente.

Eric Hellman, cofundador do Unglue.it e defensor do acesso aberto, observa que bots tradicionais raramente causavam problemas significativos. Já os bots atuais consomem toda a capacidade disponível dos servidores, ampliando suas solicitações sempre que mais recursos são adicionados.

Hellman relata casos de bots solicitando centenas de milhares de links de redirecionamento nofollow para serviços de nuvem, além de interrupções em plataformas como Internet Archive, Projeto Gutenberg e OAPEN. Para ele, a má qualidade da programação desses bots contribui para danos ainda maiores.

Um aspecto crítico é que muitas instituições não monitoravam adequadamente o tráfego automatizado antes das crises. Assim, o aumento repentino de acessos só foi percebido quando os acervos ficaram indisponíveis.

Apesar da gravidade do problema, parte dos bibliotecários hesita em adotar medidas mais restritivas, como exigir login para acesso aos acervos, temendo prejudicar a visibilidade e o uso legítimo das coleções.

Contudo, se a situação persistir, corre-se o risco de que conteúdos de qualidade fiquem cada vez mais protegidos por barreiras de autenticação e paywalls — não para gerar lucro, mas para garantir a sobrevivência das coleções e o respeito aos direitos autorais.

Indicações de leitura:

Weinberg, M. Are AI Bots Knocking Cultural Heritage Offline? GLAM-E Lab, [data não informada].

Schaffer, A.; Oremuse, W.; Tiku, N. Inside an AI start-up’s plan to scan and dispose of millions of books. The Washington Post, 27 jan. 2026.

Hellman, E. AI bots are destroying Open Access. go-to-hellman, 21 mar. 2025.

Panitch, J. Library IT vs. the AI bots. YouTube, 10 jan. 2025.


   372 Leituras


Saiba Mais





Sem Próximos Ítens

Ítem Anterior

author image
COMENTÁRIOS CATALOGRÁFICOS SOBRE OBJETOS TRIDIMENSIONAIS E REALIA
Janeiro/2026



author image
FERNANDO MODESTO

Bibliotecário e Mestre pela PUC-Campinas, Doutor em Comunicações pela ECA/USP e Professor do departamento de Biblioteconomia e Documentação da ECA/USP.