ONLINE/OFFLINE


O ALTO PADRÃO DAS BIBLIOTECAS PARA DIGITALIZAR

A necessidade de migrar documentos impressos para versão digital, possibilitam às bibliotecas uma crescente convivência com os objetos digitais. Sua organização, tratamento e preservação, requerem procedimentos novos de operação e de manutenção de metadados.

São metadados específicos, em certos casos, para o uso e a gestão exitosa de acervos digitais. São, também, distintos e mais variados que os esquemas de metadados tradicionais; aplicáveis às coleções impressas e outros materiais físicos. Portanto, novos desafios para bibliotecários de catalogação, agora envolvidos na lide do tratamento de objetos físicos e digitais.

Embora a biblioteca mantenha metadados descritivos para catalogar um livro da sua coleção, esse não se dissolve em várias folhas soltas. Se a biblioteca deixar de registar metadados estruturais sobre a organização do livro, ele não deixa de ser encontrado ou percebido.

Da mesma forma, os pesquisadores ou usuários não ficarão impedidos de avaliar a qualidade da obra, caso a biblioteca omita a indicação da editora do livro. Entretanto, não se pode adotar a mesma situação para a versão digital do mesmo livro.

Na ausência de metadados estruturais em um material digital, o arquivo de imagens ou textos, que compõe esse material, será de pouca utilidade. A falta de metadados técnicos sobre o processo de digitalização, pode gerar dúvidas aos pesquisadores quanto à exatidão e conteúdo que a versão digital oferece em relação ao seu original.

Para o gerenciamento do processo, a biblioteca deve ter acesso a metadados apropriados, que permita migrar, controlar, descrever e atualizar os dados, garantindo a durabilidade e o valor dos recursos informacionais.

Apesar da flexibilidade dos objetos digitais, na circulação e acesso, seu processo de conversão ou elaboração é bastante custoso. Em especial os procedimentos e recursos tecnológicos envolvidos. Ainda mais, ao se observar que bibliotecas lidam com uma diversidade de documentos impressos, que vão dos livros aos manuscritos; ou, ainda, aos artefatos tridimensionais e realia.

Para exemplificar um típico material recorrente, em muitas bibliotecas, cita-se os jornais, revistas e/ou formatos de livros assemelhados. É na complexidade da digitalização destes tipos de materiais, que encontramos um interessante padrão.

Trata-se do ALTO (Analyzed Layout and Text Object), um padrão em XML que fornece metadados técnicos para descrever o formato e o conteúdo de um recurso físico textual, como as páginas de um livro ou de um jornal e revista.

O padrão tem origem, no desenvolvimento do projeto METAe, entre o período de 2001 – 2003. Esse projeto buscou facilitar a digitalização de material impresso, em especial, dos séculos 19 e 20. O esquema possibilita detectar os elementos estruturais do material impresso automaticamente, sem qualquer formação.

Como exemplo de detecção têm-se: números de página e sua ordem correta; páginas de título; do sumário; prefácios, apêndices, índices; capítulos; contribuições e seus autores; títulos em execução; ilustrações, tabelas, fórmulas, anúncios; e muito mais.

O padrão ALTO pode ou deve ser aplicado em conjunto com o METS (Metadata Encoding and Transmission Schema), mantido pela Library of Congress. Apesar de o METS descrever a estrutura dos objetos, um esquema relacionado ao conteúdo e às informações de layout, para cada parte de um objeto, faltava.

Saliente-se que o padrão METS destina-se a codificar metadados descritivos, administrativos e estruturais relativos aos objetos mantidos em uma biblioteca digital, e expressos pelo uso da linguagem XML.

Destaque-se que, quando usado para descrever periódicos ou jornais digitalizados, em geral, um único arquivo METS serve para descrever cada edição da publicação. Em um arquivo do esquema são encontradas informações bibliográficas, como: título, autor, editor e a data do recurso original; e também informações sobre o próprio objeto digital, incluindo o seu processo de digitalização e a sua estrutura física e lógica.

Segundo observação de um dos criadores do padrão ALTO, Claus Gravenhorst, responsável por sua aplicação no projeto METAe, percebeu-se a inexistência de um padrão para lidar com as posições de palavras e informações no layout físico (espaço de impressão, margens etc.). Um recurso essencial para repositórios de alto desempenho que precisam destacar elementos dentro de documentos.

Assim, o padrão ALTO foi desenvolvido. Em um arquivo METS, há ponteiros de arquivo para os arquivos do esquema, contendo textos, outros elementos (ilustrações etc.), e as posições de palavras. A expectativa dos desenvolvedores era que o ALTO ou algum recurso semelhante se tornasse um padrão, até pela ausência de alternativas.

A estrutura de um arquivo ALTO, consiste de três seções principais, caracterizadas como filhos ou subordinados do elemento raiz:<alto>. As três seções:

  1. <Description> : a seção contém metadados sobre o próprio arquivo ALTO e informações de processamento sobre como o arquivo foi criado.
  2. <Styles> : a seção contém os estilos de texto <TextStyle>  e de parágrafos <ParagraphStyle> com suas descrições individuais:

          <TextStyle> : tem as descrições de fontes;

<ParagraphStyle> : tem as descrições de parágrafos, por exemplo,    informações de alinhamento.

  1. <Layout> : a seção contém as informações de conteúdo. É subdividida no elemento:

<Page> : constitui da página composta de margens e de espaço da impressão.

Todos esses elementos são áreas retangulares sem interseção dentro da área da página. Cada um deles pode conter qualquer número de objetos, como linhas, imagens ou blocos de texto e muito mais. Um bloco de texto é dividido em linhas de texto e essas são divididas em cadeias de caracteres e espaços.

A estrutura geral de um arquivo ALTO apresenta-se da seguinte forma:

<alto>

       <Description>

         <MeasurementUnit/>

         <sourceImageInformation/>

         <Processing/>

     </Description>

        <Styles>

        <TextStyle/>

     <ParagraphStyle/>

       </Styles>

       <Layout>

       <Page>

        <TopMargin/>

        <LeftMargin/>

        <RightMargin/>

        <BottomMargin/>

        <PrintSpace/>

          </Page>

        </Layout>

</alto>

Como mencionado, o padrão ALTO é aplicado em combinação com o padrão METS (e, em geral, citado como METS/ALTO). Ele ganha aceitação nas empresas de digitalização, quanto nos serviços documentais. Também é encontrado em centenas de projetos atuais de digitalização, em grande ou pequena escala.

Neste sentido, lista-se alguns projetos, para ilustrar o uso do padrão METS/ALTO:

  • Chronicling America: fornece acesso às informações sobre jornais históricos e páginas digitalizadas de periódicos selecionados. Produzido pela National Digital Newspaper Program (NDNP), em parceria da National Endowment for the Humanities (NEH) com a Library of Congress (LC).
  • The British Newspaper Archive: é uma parceria entre a British Library e a Findmypast para digitalizar a coleção de periódicos. Contém cerca de três milhões de páginas de conteúdo jornalístico.
  • Trove: Contempla documentos diversificados de artefatos, curiosidades e histórias das instituições culturais, comunitárias e de pesquisa da Austrália. São mais de 6 bilhões de itens digitais sobre variados assuntos. Conecta coleções digitais pertencentes às bibliotecas, museus, galerias, mídia, organizações governamentais e comunitárias. Elaborado e mantido pela National Library of Australia.
  • Papers Past: apresenta fontes de informação variadas, que permitem serem pesquisadas por palavras-chave ou navegadas por títulos e datas. Contém dados históricos sobre eventos sociais, econômicos e políticos. Também, notícias sobre nascimentos, mortes, casamentos e procedimentos de divórcio no país. Elaborado pela National Library of New Zealand.
  • NewspaperSG: é uma base jornalística acessada remotamente. Permite pesquisar jornais publicados desde 1827, ou encontrar informações sobre mais de 200 títulos de periódicos da coleção de microfilmes da National Library of Singapore. Mais de 220.000 exemplares de jornais foram digitalizados.
  • Papers of Princeton: contempla a coleção de periódicos históricos digitalizados da Princeton University Library e da cidade de Princeton, Nova Jersey, onde a Universidade se localiza. A coleção contém vários títulos com 34.447 edições compreendendo 412.323 páginas e 1.637.009 artigos.
  • Columbia Spectator Archive: lançada pelas bibliotecas da Columbia University e da Columbia Spectator. Representa a conclusão de um projeto de vários anos para digitalizar a coleção completa de jornais da Columbia e de periódicos antigos dos Estados Unidos. A base inclui edições publicadas desde 1877 até 2012.
  • Cambridge Public Library: uma coleção de jornais históricos (1846 – 1923), arquivos e coleções especiais organizada pela Biblioteca Pública de Cambridge. O recurso on-line fornece acesso à 220.613 páginas e 1.793.859 artigos.
  • Vassar College student newspapers: fornece acesso às variadas publicações do Vassar College, desde 1872 até o presente. As publicações incluem: Miscellany News; Vassar: The Alumnae/i Quarterly; Vassar Chronicle; The Vassar Miscellany (publicação literária); The Vassar Spectator; etc. Essas publicações apresentam numerosos e diversos tópicos, opiniões políticas, obras literárias e críticas, e ilustrações. A coleção contém 4.760 números que compreendem 85.022 páginas e 210.135 artigos.
  • Virginia Chronicle: fornece acesso à pesquisa de texto completo e imagens digitalizadas de mais de 3 milhões de páginas de jornais histórico da Virgínia. Esta coleção contém 393.081 números que compreendem 3.361.958 páginas.

Nota-se a importância da biblioteca na implementação de projetos, com valor na preservação da memória social, na migração de documentos históricos e de reconhecimento social. Processo que democratiza o acesso a materiais físicos restritos. Os padrões descritivos evoluem e se consolidam. Contribuem com o aprimoramento contínuo dos bibliotecários de catalogação, no domínio de um alto padrão no tratamento de dados.


   287 Leituras


Saiba Mais





Próximo Ítem

author image
LYDIA DE QUEIROZ SAMBAQUY E A PROFISSÃO BIBLIOTECÁRIA: UMA MENSAGEM DO “TÚNEL DO TEMPO” DA BIBLIOTECONOMIA
Março/2023

Ítem Anterior

author image
BIBLIOTECA, GUERRA E PAZ: A BATALHA DOS BIBLIOTECÁRIOS UCRANIANOS
Janeiro/2023



author image
FERNANDO MODESTO

Bibliotecário e Mestre pela PUC-Campinas, Doutor em Comunicações pela ECA/USP e Professor do departamento de Biblioteconomia e Documentação da ECA/USP.