BIBLIOTECÁRIOS DE CATALOGAÇÃO E A TRANSFORMAÇÃO DOS REGISTROS MARC EM DADOS VINCULADOS (LINKED DATA)

Por FERNANDO MODESTO
Março/2024

Em artigo anterior, foi abordado o avanço e a aplicação dos dados vinculados (linked data - LD) e os limites catalográficos. Isso se tornou um problema aos bibliotecários de catalogação, responsáveis por transformar dados bibliográficos existentes, codificados em MARC, em dados vinculados.

Ressalte-se que o MAchine-Readable Cataloging (MARC) é considerado um padrão de uso internacional para o tratamento das informações bibliográficas; além de servir como formato de intercâmbio entre sistemas automatizados de bibliotecas.

Várias abordagens têm sido propostas, com vista à transformação dos dados, mas com pouco detalhamento em relação aos seus impactos, propósitos, funções, resultados e outras questões relacionadas à tomada de decisão das bibliotecas.

Um problema de transformar registros MARC, é que os bibliotecários de catalogação precisam processar esses registros ao mesmo tempo, em ambos os modelos de dados.

No caso das bibliotecas brasileiras, com exceções, a maioria encontra-se no processo de transição da política de catalogação AACR para RDA, ou para alguma outra normativa, como a ISBD consolidada.

Entretanto, no âmbito internacional, há bibliotecas com projetos de transformação de registros bibliográficos em linked data, caso da: British Library (BL); Sweden’s LIBrary Information System (LIBRIS); Bibliothèque nationale de France (BNF); e Deutsche National Bibliothek (DNB).

No caso norte-americano, há o projeto LD for Production (LD4P), que envolve:

BIBFLOW (UC Davis University Library), um projeto de investigação sobre o futuro dos serviços técnicos em biblioteca. Aborda a catalogação e os fluxos de trabalho relacionados, na perspectiva atual da infraestrutura tecnológica, como a Web, e os novos modelos e formatos de dados, como RDA e BIBFRAME.
Tracer Bullets (Stanford University Libraries), que trata da produção de dados vinculados, também orientado aos serviços técnicos. Considera quatro caminhos principais de produção, no qual examina as etapas do fluxo de trabalho, desde a aquisição até a descoberta, para determinar a forma adequada de transição para um ambiente de dados vinculado. Essas etapas em geral contemplam: catalogação por cópias, catalogação original, depósito de item único e/ou de uma coleção de recursos, no Repositório Digital.

Ambos os exemplos citados, abordam o processo de transformação dos registros MARC e não MARC. Visam compreender a viabilidade e o impacto da adoção do linked data sobre a equipe e os fluxos de trabalho das bibliotecas.

Tais projetos concentram-se na transformação dos dados em MARC para LD, que em termos de organização da informação, têm especial ênfase na adoção de ontologias bibliográficas (FRBR, LRM e BIBFRAME), para modelagem dos dados, utilização de vocabulários linked data para a descrição legível por humanos, e a conversão em RDF para legibilidade por máquina.

Por outro lado, Ya-Ning Chen comenta a experiência de bibliotecas tailandesas, na transformação de registros bibliográficos para dados vinculados, por meio da aplicação de softwares. No geral, essas abordagens se baseiam na conversão viabilizada por softwares focados na construção de uma plataforma de linked data com ênfase no design da URI (Uniform Resource Identifier), na consulta SPARQL, no formato de exportação dos dados, na seleção e alinhamento de ontologias. Muitas das questões procedimentais seguidas pelas bibliotecas, relacionadas a essa transformação, podem ser categorizadas da seguinte forma:

Selecionar uma ontologia existente ou desenvolver uma nova para modelar dados vinculados. As bibliotecas demonstram preferência pela seleção.
Inexistência de um padrão de abordagem para selecionar ontologia apropriada à biblioteca, durante a transformação.
Apesar da URI nomear individualmente cada coisa, a sua categoria de padrão varia na prática.
Dificuldade de reutilizar vocabulários de linked data existentes. A questão da interoperabilidade surge da mistura de várias fontes.
A ligação com recursos externos de LD é desafiadora. Bibliotecários de catalogação não estão familiarizados com essa descrição e o formato.
O linked data pode agregar diversas informações do recurso, por meio da URI externa.

Neste contexto, Richard Wallis destaca três opções de modelos de dados vinculados para as bibliotecas e fornecedores de sistemas. Ainda que, nem todos, tenham manifestado interesse em caminhar neste sentido, até pela questão financeira envolvida. Porém, as três opções: BIFRAME, Schema.org, e Linky MARC estão disponíveis.

BIBFRAME 2.0: atual versão promovida pela Library of Congress. A primeira versão foi um passo na direção de um padrão de Linked Data para bibliotecas, que acabou considerada insatisfatória na representação dos dados, além de não refletir suficientemente as práticas tradicionais da catalogação. Outras versões do modelo surgiram na busca de melhoria, e ao mesmo tempo, causaram confusão para quem pretendia fazer uso. A versão atual considerou algumas das críticas, o que resultou em um produto bom para implementar. Entretanto, não é considerado completo ou finalizado, mas apenas em um bom estágio de desenvolvimento. Tem o peso e o investimento proporcionados pela Library of Congress. Portanto, o modelo parece ser o único padrão que os fornecedores e desenvolvedores de sistemas podem apoiar. Há benefícios potenciais de sua implementação (descoberta baseada na obra, catalogação baseada em entidades, ligação para recursos externos etc.). No entanto, os benefícios decorrentes da visibilidade e descoberta de recursos na web, pelos usuários da biblioteca, ainda não são certos. Neste aspecto, os mecanismos de busca não demonstram efetivo interesse na coleta de dados do BIBFRAME.

Schema.org: um vocabulário estruturado de dados para o ambiente da web, que é apoiado por mecanismos de busca, em especial: Google, Bing, Yahoo!, Yandex. Seu objetivo é auxiliar na indexação de recursos informacionais contidos em milhões de sites. Ele foi lançado na mesma época do BIBFRAME, projetado para ser incorporado nas páginas web, para rastreamento pelos mecanismos de busca. No começo, o esquema apresentava limitada capacidade de descrever os recursos bibliográficos, mas isso foi tratado pelo W3C Schema Bib Extend Community Group. Entretanto, há certo ceticismo sobre seu uso pelos buscadores. Com a introdução das técnicas de inteligência artificial nos mecanismos de busca, revaloriza-se o processo de descoberta. Assim, o Schema.org ganha significado para aqueles que desejam visibilidade na web.

Linky MARC: projeto proposto pelo Grupo de Trabalho do Program for Cooperative Cataloging (PCC). Tem a finalidade de abordar as URIs, no MARC, com ênfase nas entidades: pessoas e organizações. É um avanço significativo no processo catalográfico, ao possibilitar a captura e o uso de identificadores de forma consistente nos registros MARC. Ao contrário de implementar o linked data, procura melhorar o sistema bibliotecário para ser compatível com esses recursos, sem ser um processo complexo de reengenharia.

Wallis, ao tratar da escolha sobre implementar os dados vinculados, levanta questionamentos que devem balizar a tomada de decisão da biblioteca. Alguns dos questionamentos são:

A biblioteca e seus usuários desejam aproveitar os benefícios do linked data para compartilhar com outras bibliotecas?
A biblioteca deseja aproveitar as vantagens de uma catalogação baseada em entidades, da pesquisa baseada na obra etc.?
A biblioteca tem interesse que os seus recursos sejam mais visíveis e detectáveis na web; por meio de um mecanismo de busca, como o Google?
A biblioteca deseja capturar links da web e inseri-los na catalogação, ainda que o seu sistema não suporte linked data?

Neste sentido, a decisão pode ser simples, se o bibliotecário de catalogação respondeu “sim” a algumas das questões. Entretanto, será necessário que:

o BIBFRAME esteja nos planos de implementação.
o Schema.org esteja nos planos de implementação.
e, o linky MARC seja considerado como uma alternativa, até que a biblioteca possa responder sim para todas as questões.

É destacado que essas escolhas são, também, relevantes aos fornecedores e desenvolvedores de sistemas bibliotecários; quanto são para as bibliotecas.

Estes processos de transformação não são novos, e a arquitetura para implantação de um processo catalográfico, baseado no linked data, segue suportada pelos modelos citados: BIBFRAME, Schema.org e linky MARC.

Em realidade, a escolha não é sobre qual opção adotar, mas quando implementar os modelos. Porém, o linky Marc, neste contexto, é colocado como alternativa, durante o período de decisão ou indecisão, na escolha. Também, apresenta-se como alternativa, para as bibliotecas que não possuem sistemas que possam suportar essa transformação. Aliás, uma realidade do cenário brasileiro.

A descrição até aqui, ilustra a tentativa de aprimoramento do formato MARC, recomendado pelo PCC, para uma abordagem consistente, no armazenamento de identificadores (URIs http), com uso dos subcampos MARC: $0, $1 e $4.

Saliente-se que, não se trata de um linked data puro, mas de uma forma padronizada de armazenamento de identificadores, sem corrompê-los para uso futuro, ao envolver a transformação.

O papel que o "linky MARC" desempenha na transição para os dados vinculados está na diferença entre $0 e $1, e o que exatamente significa o conceito de "objetos do mundo real" (real world objects).

Essa alternativa, resulta do esforço do PCC Task Group on URIs in MARC em contornar as ambiguidades do formato, para permitir apoiar necessidades anteriormente não atendidas. Entre as novas disposições, constam:

A introdução do $1 para identificadores que apontam para uma entidade denominada coisa ou objetos do mundo real (ou conceitual). A restrição no uso do $0 para identificadores de fontes de autoridade, registro de classificação ou identificador padrão, como um serviço de dados vinculados da Library of Congress (id.loc.gov). Esses identificadores podem estar na forma de texto ou de uma URI.

Essa deliberação resulta na separação das URIs que descrevem o recurso, daqueles que apontam para os objetos. Também incrementa o $4 para especificar a natureza do relacionamento entre instância e Obra.

Desta forma, se contempla a indicação das URIs de relacionamento, ou seja, o $4 pode conter um código de relacionamento e/ou uma URI. Isto corrige uma limitação do MARC, a incapacidade de especificar uma relação de forma inequívoca e, portanto, de apoiar o uso de múltiplos vocabulários para fixar relações. Os exemplos ilustram a aplicação dos subcampos:

100 1# $a Shapiro, Barbara A., $d 1951- $e autor.

$4 http://rdaregistry.info/Elements/a/P50195

$4 http://id.loc.gov/vocabulary/relators/aut

100 1# $a Obama, Michelle, $d 1964-

$0 http://id.loc.gov/authorities/names/n2008054754

$1 http://viaf.org/viaf/81404344

386 $4 http://id.loc.gov/vocabulary/relators/fmd

$a New Zealanders $a Men $2 lcdgt

$0 http://id.loc.gov/authorities/demographicTerms/dg2015060357

$0 http://id.loc.gov/authorities/demographicTerms/dg2015060359

651 #0 $a San Francisco (Calif.), $e setting.

$4 http://id.loc.gov/vocabulary/relators/stg

710 2# $a California Poets in the Schools (Project), $e issuing body, $e publisher.

$0 http://id.loc.gov/authorities/names/n85319780

$1 http://id.loc.gov/rwo/agents/n85319780

780 00 $4 http://rdaregistry.info/Elements/w/P10226

$t Fishing news international $x 0015-3044

$w (DLC)sn 86012429 $w (OCoLC)1569329

Nas discussões sobre dados vinculados e a visibilidade dos registros bibliográficos, no ambiente da web, é destacado que a biblioteca deva buscar se posicionar de forma ativa, nos fluxos de descoberta da informação. Até para sua sobrevivência estratégica.

Em termos de Brasil, é necessário redobrar esforços para que a maioria das bibliotecas possam colocar seus catálogos na web ou tornar mais estável os endereços eletrônicos dos catálogos online existentes.

Indicação de leitura:

PCC Task Group on URIs in MARC. Disponível em: https://www.loc.gov/aba/pcc/bibframe/TaskGroups/URI-TaskGroup.html

Penn Libraries Linked Data Framework: Appendix: Linked Data and Other Formats. Disponível em: https://guides.library.upenn.edu/c.php?g=1278641&p=9424728

Wallis, R. The Three Linked Data Choices for Libraries. Data Liberate, May 22, 2018. Disponível em: https://www.dataliberate.com/2018/05/22/the-three-linked-data-choices-for-libraries/

Ya-Ning Chen. Transformations of Bibliographic Data into Linked Data: Bibliographic Ontology, Linky MARC and Schema.org. Journal of Educational Media & Library Sciences, vol 57, n. 3, p.405, 2020.

807 Leituras

Saiba Mais

Próximo Ítem

A MANIFESTAÇÃO DA DESCRIÇÃO BIBLIOGRÁFICA INTERNACIONAL NORMALIZADA
Abril/2024

Ítem Anterior

DADOS VINCULADOS E ALGUNS LIMITES DA CATALOGAÇÃO BIBLIOGRÁFICA
Fevereiro/2024

FERNANDO MODESTO

Bibliotecário e Mestre pela PUC Campinas (SP), Doutor em Comunicação pela USP e Professor no curso de Biblioteconomia e Ciência da Informação da ECA/USP.

BIBLIOTECÁRIOS DE CATALOGAÇÃO E A TRANSFORMAÇÃO DOS REGISTROS MARC EM DADOS VINCULADOS (LINKED DATA)

FERNANDO MODESTO

ATUALIZAÇÕES DE 2005 PARA O AACR2R, EDIÇÃO 2002

APLICAÇÃO DO BCP 47 NA CATALOGAÇÃO BIBLIOGRÁFICA PARA CODIFICAÇÃO DE IDIOMA E ESCRITA

DO MARC 21 AO MODERNO MARC: NOVAS DIRETRIZES PARA CODIFICAÇÃO CATALOGRÁFICA

ATUALIZAÇÕES RECENTES DO FORMATO MARC 21 PARA DADOS BIBLIOGRÁFICOS

O IMPACTO DANOSO DOS BOTS DE IA SOBRE AS BIBLIOTECAS

PONDO PANIZZI QUENTE NA DISCUSSÃO DO NOVO CÓDIGO

OBRA ADAPTADA É TEXTO ALTERADO E O CATALOGADOR QUE SE MEXA

SE A BIBLIOTECA É LIVRE O BIBLIOTECÁRIO É TOTAL FREE

O FORMATO DA RDA REFORMATA A FORMATAÇÃO DO FORMATO BIBLIOGRÁFICO E A REFORMA DO CATALOGADOR NÃO REFORMADO

O DIVÓRCIO DO CATALOGADOR: AACR2 OU RDA

sobre a INFOhome

links rápidos

Busca na INFOhome