ONLINE/OFFLINE


LINKED DATA: O BIBLIOTECÁRIO A TRICOTAR OS DADOS DE SEUS REGISTROS

A Web é o ambiente da Internet que sofre intensas mudanças, em especial, na sua função de conectar pessoas, coisas e conhecimento (não necessariamente nesta ordem). Neste desafio de integrar e facilitar a descoberta de informações é que se desenvolve o recurso da web semântica – WS. Recurso importante para a interação humano-computador na representação dos dados em estruturas compreensíveis para as máquinas na mediação do acesso e uso de dados e serviços (BERNERS-LEE; HENDLER; LASSILA, 2001).

 

Na era do Big Data, a WS se populariza, ainda mais, pela necessidade da sociedade processar a crescente geração de informações de forma rápida, eficiente e abrangente. Nos primeiros dez anos da web, os documentos disponibilizados, em geral, permitiam aos usuários apoiados em mecanismos de busca o acesso e extração dos dados ou informações de forma simples e limitada. A massiva expansão dos sites e de outros tipos de repositórios, gerou uma avalanche informacional criada em formatos por vezes confusos, dificultando a coleta de dados pertinentes. Ademais, na atualidade, o volume informacional quantificado em Petabytes torna a capacidade humana de coletar, organizar e consumir todas as informações, praticamente impossível.

 

Neste cenário surgem diversas terminologias. Uma das mais significativas é a do linked data, interpretado como: dados ligados, vinculados, conectados, ou relacionados. Considera-se o linked data (dados ligados) a WS que deu certo ou que vai dar certo, já que está apenas começando. Porém, a questão também tem implicações na nobre arte da catalogação bibliográfica. Afinal, o bibliotecário, enquanto produtor de registros bibliográficos para a representação do conhecimento, tem a atividade afetada pelas possibilidades do atual conceito.

 

O termo refere-se ao conjunto de práticas destinas à publicação e conexão de dados estruturados na web. Dados que sejam legíveis por máquina e, para este fim, tenham significado explicitamente definido. Dados com significados possibilitam estar ligados a conjuntos de outros dados externos e, portanto, não limitados a vinculações internas ao ambiente do conteúdo. Pode-se compreender, também, como um recurso que permite utilizar a web para criar ligações entre dados de diferentes fontes. Estas fontes podem ser diversas como banco de dados mantidos por organizações em diferentes localizações geográficas ou, simplesmente, sistemas heterogêneos dentro de uma organização que não tenha uma fácil interoperabilidade ao nível dos dados.

 

O linked data tem seu potencial valorizado até por estar embutido no tecido (algoritmo) da web. Quanto mais aspectos da vida profissional, social e privada se movem para as nuvens, o caminho no qual a informação vai se armazenando, a ligação dos dados torna-se crucial. Até por envolver problemas de compartilhamento e de integração de dados. Neste sentido quatro leis se estabelecem para o contexto do linked data, apresentada por Berners-Lee, a saber:

 

1.     Usar URI (Uniform Resource Identifier) para identificar coisas;

2.     Usar HTTP (Hyper Text Transform Protocol) e URIs para que estas coisas possam ser conhecidas e visualizadas por pessoas e os agentes (programas de busca) do usuário;

3.     Fornecer informações úteis sobre estas coisas quando a sua URI é citada, usando formatos padrão como RDF / XML, e

4.     Incluir ligações para URIs relacionados nos dados expostos para melhorar a descoberta de outras informações relacionadas na web.

 

Ressalte-se que as URIs representam, genericamente, qualquer esquema de nomenclatura ou de endereçamento utilizado para se referir aos recursos da internet. O HTTP é um protocolo designado para o envio rápido e eficiente dos materiais de hipertexto. Neste contexto, os dados ligados podem ser compreendidos como um método de disponibilizar dados estruturados de maneira que possam ser interligados e se tornarem mais úteis. Eles se baseiam em padrões tecnológicos como HTTP e URI. Ao contrário de seu uso para acesso às páginas e recursos web por usuários humanos, fornece a possibilidade das informações serem compartilhadas de forma a serem lidas pelas máquinas (Wikipedia – http://en.wikipedia.org/wiki/Linked_Data).

 

A adoção das práticas dos dados ligados expande a web como um espaço de dados que conecta dados de diversas áreas de domínios como pessoas, empresas, livros, publicações científicas, filmes, músicas, programas de rádio e televisão, genética, medicamentos, exames clínicos, comunidades on-line, dados estatísticos, científicos, econômicos e comentários.

 

A web de dados permite novos tipos de aplicação. Há dados ligados genéricos que permitem aos usuários iniciar a navegação em uma fonte de dados e, em seguida, navegar pelas conexões para as fontes de dados relacionadas. Há mecanismos de busca baseados em dados ligados que vasculham a web de dados, seguindo as ligações entre as fontes de dados, e oferecer recurso de consulta significativo sobre dados agregados, semelhante a forma de operação de consulta de um banco de dados local (BIZER; HEARTH; BERNERS-LEE, 2009).

 

Enquanto os documentos nos primeiros anos da web eram hipertextos escritos em HTML (Linguagem de Marcação de Hipertexto), o linked data insere-se nos documentos como dados formatados em RDF (Resource Description Framework). No entanto, o processo não está limitado a conectar documentos, a utilização do RDF na modelagem do linked data permite efetuar indicações para coisas (conteúdos e recursos) dispostas arbitrariamente na web, o que caracteriza esse espaço digital como uma rede de coisas ou de conteúdos descritos ou identificados por dados.

 

O cenário da web ilustra o futuro das bibliotecas e das competências do bibliotecário em sistematizar a informação para este ambiente digital, de forma a serem compartilhadas. Enquanto catalogadores (e não programadores) o conceito do linked data fornece a ideia sobre como o trabalho da representação descritiva vai poder ser diferente em um futuro próximo; na maneira pela qual os dados bibliográficos poderão ser criados; e como a catalogação poderá ser utilizada por distintas áreas de conhecimento. Portanto, não mais restritas a ficar atrás das estantes – no tratamento ou processamento técnico, além de superar a preconceituosa visão de tecnicista empregada ao bibliotecário dedicado a arte catalográfica. O cenário atual assinala, aos bibliotecários, a necessidade de apurada atenção para com o novo ambiente web que não é assustador e tão pouco maravilhoso. É, naturalmente, de trabalho desafiante. Se pairam dúvidas, estas se relacionam sobre como criar estes dados, que exemplos existem.

 

Como mencionado, a web inicialmente era a web de documentos da mesma forma que as bibliotecas tradicionais eram ambientes de suportes documentais. Neste sentido a web era, basicamente:

 

Recurso àlink paraàRecursoàlink paraàRecurso

 

Ou a expressão em HTML:

 

Recurso{a href=”http://www.recurso.com.br”}Recurso{/a}

 

A biblioteca atual (ainda que tradicional na evidência do material) já trabalha com conteúdo mais digital; assim como a web atual é cada vez mais a web dos dados:

 

Dadosàlink paraàDadosàlink paraàDados

 

Os bibliotecários há mais tempo na profissão, se recordam do período inicial da web onde o conceito dominante era o hipertexto. Atualmente, temos a transição do “hipertexto” para o “hiperdados”. No início aprendíamos HTML para codificar nosso conteúdo:

 

{h1} é um cabeçalho{/1}

{p}é um parágrafo{/p}

 

Hoje devemos entender RDF-XML, pois o relacionamento é a palavra-chave do linked data e, também, da nova norma de catalogação – RDA – orientada à descrição de conteúdos digitais. Pode-se visualizar algumas linhas de um documento estruturado em RDF, da seguinte forma:

 

{?xml version="1.0"?}

{rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:cd="http://www.recshop.fake/cd#"}

{rdf:Description

rdf:about="http://www.recshop.fake/cd/Empire Burlesque"}

  {cd:artist}Bob Dylan{/cd:artist}

  {cd:country}USA{/cd:country}

  {cd:company}Columbia{/cd:company}

  {cd:price}10.90{/cd:price}

  {cd:year}1985{/cd:year}

{/rdf:Description}

 

[Fonte: http://www.w3schools.com/webservices/ws_rdf_example.asp]

 

Note-se que a primeira linha do documento RDF é a declaração XML. A declaração é seguida pelo elemento raiz de documentos RDF: {rdf:RDF}. Ele define o documento XML para ser um documento RDF.

 

Os xmlns: rdf, especifica que os elementos com o prefixo rdf são do namespace "http://www.w3.org/1999/02/22-rdf-syntax-ns #".

 

Os xmlns: cd, especifica que os elementos com o prefixo do cd são do namespace "http://www.recshop.fake/cd #".

 

O endereço http e a URI (www....) especificam a direção, identificação e relacionamento do recurso.

 

O {rdf:Description} é o elemento que contém a descrição do recurso identificado pelo RDF: sobre o atributo. Já os elementos: {cd:artist}, {cd:country}, {cd:company}, {cd:price}, e {cd:year} são propriedades do recurso.

 

É comum codificar RDF em XML, até por este não estar codificado em páginas da web diretamente. Ademais, os navegadores não podem ler RDF. Assim, há necessidade de um software para converter a marcação RDF.

 

Saliente-se que o bibliotecário aprende a visualizar o relacionamento dos seus registros bibliográficos. Recorda-se dos preceitos de Cutter: o catálogo deve reunir tudo que se tem de um autor, de um assunto, etc. As pessoas também compreendem o relacionamento entre as coisas, mas as máquinas, porém, devem ser capazes de compreender essas relações. Na biblioteca, o catalogador está acostumado a vincular pedaços de informação baseado no contexto do registro bibliográfico:

 

Obra: Dom Casmurro

 

Autor: Machado de Assis

 

O linked data torna os relacionamentos explícitos, assim passamos para a seguinte compreensão: dados bibliográficos ao invés de registro bibliográfico; o significado é codificado; o relacionamento dos dados é a chave.

 

Saliente-se ainda que, na catalogação tradicional, o registro bibliográfico é um pacote. Os elementos autor, título, etc., realmente só têm significado no contexto do registro. Ademais, o nosso padrão base de codificação para trato do registro bibliográfico, o formato MARC, é configurado para a troca de registros, e não de dados. Os registros podem ser trocados, mas não há nenhuma maneira de trocar ou estabelecer relacionamento dos elementos individuais de informações dentro de um registro ou entre registros (interna ou externamente). No conceito dos dados ligados, um registro é composto de muitas partes de dados. Assim, o registro bibliográfico passa-se a ter:

 

Pessoa à Is author of [é autor de] à Título [obra]

 

E as relações entre estas partes de dados são definidas. Os limites do registro podem ser dissolvidos e os dados podem interagir com outras informações existentes na Web. Neste sentido, podemos observar o RDF como um modelador de dados ao descrever relacionamentos baseados em triplos (instruções): subject predicate - object (http://www.w3.org/RDF/).

 

A declaração de RDF para dados bibliográficos:

 

Subject (Sujeito) à Predicate (Predicado) à Object (Objeto)

 

Dom Casmurro à has author [tem autor] à Joaquim Maria Machado de Assis

 

Joaquim Maria Machado de Assis ß has author ß Dom Casmurro à has Publisher [tem editora]à Ática

 

[obra] Dom Casmurro à has author [tem autor] à Joaquim Maria Machado de Assisß has author [tem autor]ß Iaiá Garcia [obra]

 

Na declarações de RDF, o subject (sujeito) e o predicate (predicado) devem ser um URI. O object (objeto) pode ser um URI ou um valor.

 

Nesta lógica, os dados ligados (linked data) tornam a web um agrupamento de dados, de dados estruturados. Os dados ligados são pesquisáveis, mas as pessoas não ficam limitadas a procurar em um banco de dados. Também, a procura é mais concentrada do que a atual realizada na web, diferenciada pelo aspecto do conceito de significado e do relacionamento que são incorporados aos dados. Por exemplo, imagine hoje procurar por uma biblioteca pública existente em cidades brasileiras com mais de 50 mil habitantes, o resultado é pouco satisfatório. Como exemplo para o conceito assista o vídeo ilustrativo sobre linked data aplicado na web: http://vimeo.com/album/2072014/video/49231112.

 

Michael Hausenblas comenta ser importante ligar nossos dados aos dados de outras pessoas para fornecer um contexto à informação. Em resumo, se o usuário tiver dados, pensar sobre o seu contexto - ligá-los a outros dados na web e torná-los mais útil e utilizável e, no longo prazo, mais usados. Portanto, para os dados ligados, bibliotecários podem ajustar suas habilidades organizativas para identificar as coisas ou conteúdos com exclusividade, e personalizar a informação na web.

 

Como este texto não é um aprofundamento sobre o tema, mas apenas um simples comentário sobre tendências da área, listamos fontes e exemplos que podem colaborar para uma leitura mais atenta ou estimulante sobre a questão. Desta forma, exemplos aplicados de dados ligados podem ser visualizados em:

 

§  DBpedia que é um esforço (ainda deficiente) no sentido de informações estruturadas a partir da Wikipedia e disponibilizá-las na web: http://dbpedia.org.

§  Faviki é uma ferramenta de bookmarking social que permite ao usuário aplicar etiquetas nos conceitos de interesse na Wikipedia, ou manter suas próprias etiquetagens, além de conectá-las a conceitos universais: http://www.faviki.com.

§  Zemanta é um modelo de negócio orientado para produção e distribuição de conteúdo na web, sob as bases da web semântica e linked data. Apesar de comercial permite visualizar um tipo de serviço modelar para produtores de conteúdo: http://www.zemanta.com.

§  Freebase é uma plataforma aberta para acessar, e manipular uma coleção de dados estruturados baseada na licença Creative Commons Attribution (CC-BY): http://www.freebase.com.

 

Exemplos de linked data em bibliotecas, e interessantes para o uso didático em disciplinas de representação descritiva e temática, podem ser visualizados nos endereços:

 

§  Library of Congress Authorities and Vocabularies, é um serviço de dados ligados que fornece acesso às normas e vocabulários comumente adotados e definidos pela Biblioteca do Congresso: http://id.loc.gov/.

§  RDA Metadata Registry fornece links para o conjunto de elementos e vocabulários para aplicação da norma. Cada conjunto de elementos ou conceitos do vocabulário tem um acesso para a descrição geral: http://metadataregistry.org/rdabrowse.htm.

§  VIAF – Virtual International Authority File combina vários arquivos da entidade bibliográfica em um único serviço de controle de autoridade hospedado pela OCLC. O objetivo é reduzir custo e aumentar a utilidade dos arquivos de autoridade para as bibliotecas, combinando e associando arquivos de autoridade de forma a tornar essa informação disponível na web: http://viaf.org.

§  Dewey Decimal Classification / Linked Data, ou Dewey.info é um espaço experimental para os dados ligados do sistema da CDD. A intenção deste protótipo é ser uma plataforma para dados de classificação na web: http://dewey.info.

 

Enfim, o bibliotecário pode estar bem empregado (como se diz no interior: “com o burro amarrado na sombra”), mas tem diante de si novos desafios para os quais suas habilidades e competências podem e devem ser empregadas.

 

Torna-se, também, importante para que se possa ajustar as atividades e funções da biblioteca para novos espaços, agora muito mais digitais e fragmentados em dados.

 

Vale lembrar os conselhos de Raul Seixas em sua música Ouro de Tolo quando começa cantando:

 

Eu devia estar contente / Porque eu tenho um emprego / Sou um dito cidadão respeitável / E ganho quatro mil cruzeiros por mês ....

 

No refrão final destaca:

 

Eu que não me sento / No trono de um apartamento / Com a boca escancarada cheia de dentes / Esperando a morte chegar / Porque longe das cercas embandeiradas que separam quintais / No cume calmo do meu olho que vê / Assenta a sombra sonora de um disco voador.

 

Estar atento para o novo, para as mudanças e ao inesperado. Acomodar-se nunca, estimular-se continuamente, e estar com seus dados ligados sempre.

 

Indicação de leitura:

 

Christian Bizer; Tom Heath; Tim Berners-Lee. Linked Data - The Story So Far. International Journal on Semantic Web and Information Systems, vol. 5, n. 3, p. 1-22, 2009.

 

Tim Berners-Lee. Linked Data-Design Issues. Disponível em: http://www.w3.org/DesignIssues/LinkedData.html

 

Tim Berners-Lee; James Hendler and Ora Lassila The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American, May 17, 2001. Disponível em: http://www.cs.umd.edu/~golbeck/LBSC690/SemanticWeb.html

 


   742 Leituras


Saiba Mais





Próximo Ítem

author image
RDA EM UM BREVE PANORAMA PESSOAL – PARTE I (III)
Dezembro/2013

Ítem Anterior

author image
BIG BANG, BIG BROTHER, BIG DATA, E BIG BLIOTECÁRIO
Outubro/2013



author image
FERNANDO MODESTO

Bibliotecário e Mestre pela PUC-Campinas, Doutor em Comunicações pela ECA/USP e Professor do departamento de Biblioteconomia e Documentação da ECA/USP.