Concepção de uma Biblioteca Digital - cerem
Transcrição
Concepção de uma Biblioteca Digital - cerem
Universidade Fernando Pessoa Pós-graduação em Ciências da Informação e da Documentação Tecnologias de Informação Documental Maria Isabel Nunes Pereira Concepção de uma Biblioteca Digital Porto, Junho de 2003 Universidade Fernando Pessoa Praça 9 de Abril, 349 P-4249-004 Porto Tel. +351-22550.82.70 Fax. +351-22550.82.69 [email protected] Resumo O presente trabalho aborda, numa primeira fase, o conceito de biblioteca digital assim como os aspectos tecnológicos que lhe estão subjacentes, nomeadamente os protocolos e standards, sem os quais a biblioteca não seria viável. Numa segunda fase, explica-se a organização da informação nesta e por fim explica-se as etapas do seu desenvolvimento: a criação, captura e conversão; a gerência e o armazenamento; a busca e o acesso; a disponibilização e o tratamento dos direitos de autor, focando-se em particular este último ponto, uma vez que é um dos mais prementes da actualidade. Índice Introdução………………………………………………………………………………3 Descrição do problema………………………………………………………………..4 1 Conceito de biblioteca digital………………………………………………………4 2 Aspectos tecnológicos associados a bibliotecas digitais……………................4 2.1 Protocolos………………………………………………………………………….4 2.1.1 Protocolos da biblioteca digital………………………………………………..5 2.2 Standards………………………………………………………………………….7 3 A organização da informação na biblioteca digital………………………………9 3.1 Tópicos…………………………………………………………………………….9 3.2 categorias…………………………………………………………………………9 3.3 Formato……………………………………………………………………………9 3.4 Documentos……………………………………………………………………..10 3.5 armazenamento…………………………………………………………………10 3.6 Mecanismos de busca…………………………………………………………10 3.7 Personagens…………………………………………………………………….11 3.8 Visitante………………………………………………………………………….11 3.9 Colaborador………………………………………………………………………11 3.10 Responsável……………………………………………………………………11 3.11 Administrador………………………………………………………………….11 4 Etapas para o desenvolvimento de bibliotecas digitais……………………….11 4.1 Criação, captura e conversão…………………………………………………..11 i 4.2 Gerência e armazenamento……………………………………………………12 4.3 Busca e acesso………………………………………………………………….13 4.4 Disponibilização………………………………………………………………….13 4.5 Tratamento dos direitos de autor………………………………………………13 4.5.1 Perspectiva Americana……………………………………………………….14 4.5.2 Perspectiva europeia………………………………………………………….14 4.5.2.1 Vantagens SEGDA…………………………………………………………16 4.5.2.2 Desvantagens SEGDA…………………………………………………….16 4.5.2.3Tecnologias associadas ao SEGDA………………………………………16 4.5.2.4 Alguns sistemas existentes………………………………………………..16 Revisão bibliográfica…………………………………………………………………18 Aspectos importantes……………………………………………………………….20 Conclusões……………………………………………………………………………21 Bibliografia…………………………………………………………………………….22 ii Introdução No âmbito do seminário de Tecnologias de Informação Documental, da pósgraduação em ciências da informação e da documentação, pediu-se a elaboração de um trabalho que abordasse uma questão pertinente, de acordo com o conteúdo deste. Tendo em conta, que no campo da organização e disseminação do conhecimento, as bibliotecas tradicionais estão a migrar parte do seu acervo para o ambiente digital, surgiu a ideia de fazer um trabalho sobre a concepção de uma biblioteca digital. A questão que se levanta portanto neste trabalho é: como conceber uma biblioteca digital? Para responder a esta questão, começou-se por definir o objecto de estudo”a biblioteca digital”, para depois abordar os aspectos tecnológicos ligados a esta, a informação nela contida e finalmente as etapas para o seu desenvolvimento. Com este trabalho pretende-se compreender o funcionamento de uma biblioteca digital, proponde-se informações e indicações nesse sentido. 3 Descrição do problema A questão que este trabalho levanta é : Como conceber uma biblioteca digital? Para responder a esta pergunta veja-se o que é uma biblioteca digital, que aspectos tecnológicos estão associados a esta, como está organizada a informação nela contida e quais são as etapas para o desenvolvimento desta. 1 Conceito de “Biblioteca Digital” Para (Gladney e al; 1994) : “Uma biblioteca digital é um agrupamento de meios informáticos, de armazenamento e comunicações, conjuntamente com o conteúdo e o software necessários a reproduzir, emular e estender os serviços fornecidos pelas bibliotecas convencionais baseadas em papel e em outros meios de colecção, catalogação, busca e disseminação de informação. Uma biblioteca digital de serviço completo, terá de alcançar todos os serviços das bibliotecas tradicionais e também de explorar as conhecidas vantagens do armazenamento digital, pesquisa e comunicação.” Enquanto que para (Leiner, 1998): “Uma biblioteca digital é a colecção de serviços e a colecção de objectos de informação, sua organização, estrutura e apresentação, que suporta o relacionamento dos utilizadores com os objectos de informação, disponíveis directa ou indirectamente via meio electrónico/digital”. 2 Aspectos tecnológicos associados a bibliotecas digitais 2.1 Protocolos “Conjunto de regras que definem o formato e a forma como a informação é trocada” (Hagedorn, 1994) 4 2.1.1 Protocolos da biblioteca digital: Hypertext Transfer Protocol (http) – É aplicado a sistemas distribuídos de hipermédia no âmbito da World Wide Web, sendo o protocolo nativo utilizado entre os clientes e servidores WWW. Uma transacção deste protocolo, consiste em: • Conexão (entre cliente e servidor) • Pedido (envio de pedido do cliente ao servidor) • Resposta (envio de resposta do servidor ao cliente) • Fecho (da conexão) Dienst – Permite a comunicação entre servidores geograficamente distribuídos de uma biblioteca digital, proporcionando acesso a colecções de documentos em múltiplos formatos (ex:TIFF, GIF, Postscript). Cada documento consiste em duas partes: uma lógica (páginas) e a outra física (ex: capítulos e tabelas) A designação “Dienst” é utilizada indistintamente para referir uma arquitectura conceptual para bibliotecas digitais, um protocolo de comunicação nessa arquitectura e um sistema de software que implementa o mencionado protocolo. Esta arquitectura permite: • -Pesquisar todos os documentos da biblioteca independentemente da sua localização • -A existência de múltiplas representações de um documento logicamente ligadas • -Visualizar parcial ou totalmente documentos que se encontram definidos como objectos estruturados. Os servidores Dienst proporcionam os seguintes serviços inerentes a bibliotecas digitais : 5 • Serviço de repositório – armazena documentos digitais ( cada documento possuindo um nome único e podendo existir em múltiplos formatos) • Serviço de indexação – um servidor de serviço de indexação pesquisa e retorna de documentos • Serviço de contacto – fornece um directório das localizações dos outros serviços • Serviço de interface de utilizador – permite efectuar browsing, pesquisa e recolha Z39.50 – É um standard de busca e recolha de informação, suportando um alto grau de interoperabilidade entre clientes e servidores relativamente a dados bibliográficos, uma vez que foi desenvolvido para ultrapassar problemas com a pesquisa múltipla de bases de dados, nomeadamente a necessidade de se conhecer menus, linguagens de comando e procedimentos específicos a cada sistema. O Z39.50 segue o modelo cliente / servidor, sendo o cliente designado por “Origem” e o servidor por “Alvo”. A “Origem é a componente do sistema local responsável por efectuar toda a comunicação e funções de inicio de pesquisa, envio de queries e pedido de resultados. O “Alvo” faz interface com a base de dados do destino, respondendo às mensagens da “Origem”, fornecendo registos a uma query, por exemplo. O Z39.50 trabalha assente no protocolo TC/IP, tendo objectivamente os seguintes serviços definidos: • Serviço de inicialização – estabelecimento de conexões • Serviço de pesquisa – envio de queries e resposta pelo servidor • Serviço de apresentação – definição - por exemplo quantos registos são transferidos 6 • Serviço de controle de acessos – definição de mecanismos de segurança • Serviço de controle de recursos – supervisão dos recursos • Serviço de eliminação – permite eliminar registos As regras e procedimentos do Z39.50 possibilitam que sistemas que utilizem software e hardware diferentes possam comunicar efectivamente entre si. 2.2 STANDARDS Os standards mais comuns e que podem ser aplicados a bibliotecas digitais são: Standard Generalized Markup Language (SGML) – É um standard internacional para a definição de métodos de representação de textos em forma electrónica, independentes de dispositivos e sistemas. É uma forma de escrever em linguagem Markup ou de codificação. Esta é constituída por um conjunto de convenções utilizadas para codificar textos. Características do SGML: • Codificação descritiva – São fornecidos nomes para categorizar partes de um documento. Existirá por exemplo um nome que significará “o texto seguinte é um paragrafo”. Com este tipo de codificação, o mesmo documento poderá ser interpretado por diferentes tipos de software. • -Conceito de tipo de documento - Definição de tipo de documento (DTD). O tipo de um documento é constituído pelas suas partes e estrutura. A existência do conceito possibilita que vários documentos do mesmo tipo sejam processados da mesma maneira. • Independência de sistemas – Garante que os documentos podem ser transportados para diferentes plataformas de hardware e software, sem perdas de informação. 7 Extensible Markup Language (XML) – Consiste num sub-conjunto do SGML, sendo o seu objectivo tornar fácil o intercâmbio de documentos estruturados na Internet. O XML permite: • Juntar diversos documentos com o objectivo de formar documentos compostos • Identificar onde são colocadas ilustrações e qual o seu formato no âmbito do ficheiro de texto • Fornecer informação de controlo de processos a determinados programas como browsers, por exemplo • Adicionar comentários editoriais a um ficheiro O XML baseia-se no conceito de documentos compostos por uma série de entidades ou objectos. Cada entidade ou objecto pode conter um ou mais elementos lógicos. Cada um destes elementos pode ter uma série de atributos ou propriedades que descrevam a forma em que ele deverá ser processado. Hiper Text Markup Language (HTML) – É considerada uma simples linguagem de markup, utilizada para criar documentos hipertextuais, independentes das várias plataformas. Um documento criado em HTML, é um documento SGML, pois consiste numa sequência de caracteres organizada fisicamente num conjunto de entidades e logicamente com uma hierarquia de elementos. O markup HTML pode representar: • Noticias • Correio e documentação hipertextuais • Hipermédia • Menus de opções 8 • Resultados de queries • Documentos estruturados com gráficos incluídos • Views hipertextuais de conjuntos de informação 3 A ORGANIZAÇÃO DA INFORMAÇÃO NA BIBLIOTECA DIGITAL 3.1 Tópicos O banco digital contém diversas áreas denominadas “tópicos”. Um tópico representa um assunto especifico e serve para agrupar documentos relacionados. Por exemplo o tópico culinária. Para cada tópico pode existir um responsável, que cuida do seu gerenciamento e efectua a aprovação dos documentos submetidos para o mesmo. Os tópicos podem ser organizados hierarquicamente, ou seja dentro de um sub tópico podem existir um ou mais sub tópicos. 3.2 Categorias Uma “categoria” corresponde a um conjunto de tipos de documentos válidos juntamente com um limite de tamanho. Uma categoria é definida pelo administrador do sistema e representa um meio de indicar os tipos de documentos válidos para um tópico. Em particular um tópico pode aceitar uma ou mais categorias de documentos. Põe exemplo o tópico “culinária”, pode aceitar as categorias “artigos” e “vídeos” e limitar ou não os tamanhos. 3.3 Formatos Cada categoria especifica um ou mais formatos a serem aceites. Um formato define um tipo particular de arquivo, tal como “PstScript” ou “Imagem GIF” O sistema já vem com os formatos mais comuns cadastrados (DOC, PDF, HTML, JPPEG, MP3, etc.), juntamente com mecanismos para que uma 9 classe inteira de formatos cadastrados seja aceite (por exemplo “qualquer imagem”) 3.4 Documentos Um “documento” corresponde a um arquivo submetido ao sistema, juntamente com uma série de informações associadas. Estas informações incluem título, nome dos autores, e-mail para contacto, palavras chave, descrição e versão do documento. Um campo para quaisquer outras informações também é provido, para registar informações especificas a cada documento (ISBN para livros, resoluções para imagens, etc.) 3.5 Armazenamento Os documentos são armazenados sem modificações após serem aprovados, podendo ser comprimidos automaticamente em certos casos para economizar espaço 3.6 Mecanismos de busca É uma ferramenta que mantém uma base de dados própria, optimizada para fazer buscas. O sistema alimenta essa base de dados com o conteúdo dos documentos e com a informação associada, de maneira que todos os dados mantidos pelo sistema possam ser pesquisados. O sistema deverá suportar a indexação do conteúdo de documentos nos seguintes formatos: - Texto ASCII, HTML, RTF, SGML, WML e XML - MS Word, Excel e PowerPoint - PDF e Post Script - TeX, LaTeX e DVI 10 3.7 Personagens Os personagens são os possíveis papeis que os utilizadores possam ter dentro do sistema. 3.8 Visitante Corresponde a quem acede ao sistema em busca de informações. Não precisa de estar cadastrado, limita-se a consultar tópicos, efectuar buscas e fazer download de documentos. 3.9 Colaborador É uma pessoa cadastrada no sistema. Um colaborador pode fazer “upload” de novos documentos, passando a ser o dono dos mesmos. Para tanto cabe a um colaborador escolher um tópico e uma categoria associada ao mesmo, submeter um arquivo e fornecer os dados necessários para o cadastramento deste documento. Após ser aprovado, o documento pode ser actualizado ou removido pelo seu dono e os seus dados podem ser modificados. 3.10 Responsável É quem administra um ou mais tópicos e quem aprova os documentos submetidos. 3.11 Administrador Cuida da manutenção do sistema e define novos tópicos cadastrando responsáveis pelos mesmos. Também define novas categorias e formatos de documentos.. 4 ETAPAS PARA O DESENVOLVIMENTO DE BIBLIOTECAS DIGITAIS As principais funções que concorrem para o desenvolvimento de um projecto de criação de uma biblioteca digital são: 4.1 Criação, captura e conversão de documentos existentes 11 O processo de criação e captura envolve os processos de análise e definição dos objectos a serem disponibilizados. Estes objectos podem ser produzidos originalmente sob forma digital ( documentos produzidos por editores de texto, por exemplo9, ou passarem por um processo de digitalização (por exemplo um manuscrito). Assim a criação envolve a disponibilização de um documento sob a forma digital e a captura, a transformação de um documento de formato não digital para o digital. O processo de captura é realizado quando um documento não existe na forma digital, ou seja , um livro no formato tradicional (papel), uma fotografia, um som ou vídeo analógico. A captura é realizada através da utilização de equipamentos específicos como scanner, placas digitalizadoras de som e vídeo e através da utilização de softwares específicos. O processo de conversão consiste na transformação de documentos já existentes no formato digital, para que possam ser visualizados através de browsers de Internet, auxiliando também na padronização dos formatos de documentos. 4.2 Gerência e armazenamento A gestão dos documentos electrónicos necessita de planeamento, análise, design, construção, armazenamento e segurança. Em cada uma dessas etapas existem actividades especificas. Cada tipo de arquivo é disponibilizado em pastas, facilitando o acesso ao texto, diagramas, imagens, animação, som, vídeo e programas entre outros. A melhor maneira de armazenar os arquivos é através do CD-ROM, podendo-se fazer uma segunda cópia em rede local, computadores locais ou Internet. Esta tarefa é geralmente da responsabilidade dos engenheiros de informática, uma vez que o planeamento e controle de arquivos electrónicos de informação necessitam acompanhar o desenvolvimento tecnológico. 12 4.3 Busca e acesso A indexação de objectos no formato digital é normalmente feita utilizando bases de dados separadas, paras os índices e os objectos fixos. Estes índices, além de permitir a pesquisa por elementos tradicionais de identificação dos objectos, tais como autores, títulos, assuntos, abstracts e palavras chaves, devem permitir, também , pesquisa no conteúdo dos objectos, como por exemplo, no texto completo (full text), conteúdo das imagens (cor, forma, textura, etc.). Deve-se definir se a biblioteca digital conterá somente links para o seu acervo ou se conterá também índices para dados virtuais noutras bibliotecas digitais. As ferramentas de consulta devem prever a utilização da lógica booleana, pesquisa em linguagem natural, parâmetros fonéticos e técnicos de inteligência artificial. 4.4 Disponibilização Esta função trata do planeamento da infra-estrutura física de comunicação necessária, para que as bibliotecas digitais possam promover o acesso a todos os seus objectos digitalizados, por qualquer pessoa, a qualquer hora e de qualquer lugar. 4.5 Tratamento dos direitos de autor Estabelece mecanismos de protecção dos documentos. O facto das obras e informações transmitidas através da Internet estarem sob a forma digital não retira delas a característica de criação humana, passíveis de protecção jurídica, garantindo ao criador ou autor destas obras o direito exclusivo de reprodução, divulgação e utilização dos seus trabalhos, o direito à remuneração pela sua utilização, seja através de normas de direitos de autor, seja através da aplicação das normas de protecção à propriedade industrial. Com vista a ultrapassar este problema, a administração Clinton elaborou um relatório sobre os direitos de propriedade intelectual e a infraestrutura de informação nacional NII” 13 4.5.1 Perspectiva americana As recomendações mais importantes do relatório são: • Considerar uma infracção, a transmissão digital de uma cópia de uma obra/trabalho que esteja sob a alçada dos direitos de autor. • Considerar como uma infracção o simples acto de realizar browsing (a menos que autorizado pelo autor). • -Abolir a regra da “primeira venda” para uma obra/trabalho distribuídos por transmissão digital. • Limitar a lei do “uso justo” (fair use) • Considerar uma infracção aos direitos de autor, o facto de uma pessoa/entidade construir ou distribuir qualquer dispositivo capaz de tornear esquemas de protecção engendrados pelos autores para proteger as suas obras/trabalho. Mais recentemente, em Julho de 1997, o congresso aprovou o Copyright Treaties Implementation Act, da WIPO (World Intellectual Property Organization), que visou transpor para o direito dos EUA, as obrigações do tratado WIPO e a 4 de Novembro de 1997, da No Electronic Theft (NET) Act, cobre a lacuna existente na legislação sobre distribuição não autorizada de material com direitos de autor na Internet. 4.5.2 Perspectiva europeia A perspectiva europeia no âmbito do mercado único, culminou numa proposta de directiva sobre direitos de autor, com os seguintes tópicos: • -Direito de reprodução – a proposta confere aos autores e organizações diversas o direito exclusivo de permitir ou não qualquer transmissão ao publico de originais ou cópias das suas obras, por via directa ou remota 14 • Direito de transmissão ao público – os autores têm o direito exclusivo de permitir ou não qualquer transmissão ao público de originais ou copias da sua obra • Direitos de distribuição – os autores têm o direito exclusivo de controlar qualquer forma de distribuição ao publico de copias das suas obras. • -Sistemas de gestão de direitos e sistemas electrónicos para a gestão de direitos de autor (SEGDA) – faz depender a introdução em larga escala de sistemas de controlo de acessos, identificação e anticópia, do devido enquadramento legal (que terá de ser aprovado pelos diversos Estados) contra actos de tornear, violar ou manipular os referidos sistemas. Os estados devem proporcionar enquadramento legal, contra pessoas que alterem ou eliminem informação electrónica sobre direitos, entre outras, sem a devida autorização. Excepções passíveis de serem adoptadas: • Reproduções em papel ou similar por técnicas fotográficas. • Reproduções em meio áudio, visual ou audiovisual, feitos por indivíduos para uso privado e fins não comerciais. • Actos de reprodução realizados por bibliotecas publicas, museus ou outros estabelecimentos acessíveis ao publico que não comportem vantagens económicas directas ou indirectas. • Usos para fins específicos de ensino e investigação. • Usos não comerciais para o beneficio de pessoas com deficiências visuais e auditivas. • Uso de excertos relacionados com a divulgação corrente. • Citações para efeitos de critica ou avaliação para os propósitos de segurança publica e procedimento judicial ou administrativo. 15 4.5.2.1 Vantagens dos SEGDA: • Permite feed-back ao autor dos índices de leitura/consulta da obra e em tempo real • Criação de novas fontes de receita para os autores • Desincentivo da cópia • Controle da utilização • Mais e melhores conteúdos • Controle editorial - garantias de qualidade 4.5.2.1 Desvantagens dos SEGDA: • Restrição no acesso à informação • Custos de implementação e manutenção acrescidos • Sistemas de pagamento não credíveis • Grande complexidade de alguns meios de controle de acesso e pagamento • Violação dos direitos de protecção de dados pessoais 4.5.2.3 Tecnologias associadas aos SEGDA: • Standards de metadados • Identificadores únicos • Sistemas de pagamento • Técnicas de segurança • Tecnologias proprietárias 4.5.2.4 Alguns sistemas existentes 16 • COPICAT • DERCOMAT • ERCOMS Em geral tem se disponibilizado no formato electrónico, obras de domínio público, sobre as quais não existe qualquer problema a nível de direitos de autor e há também bibliotecas digitais que disponibilizam obras cujos direitos de autor pertencem à própria instituição, como é o caso de algumas bibliotecas universitárias. 17 Revisão bibliográfica Hagedorn define os protocolos como sendo: Conjuntos de regras que definem o formato e a forma como a informação é trocada. Defende ainda que esta é uma área de muita importância para as bibliotecas digitais, visto que é com frequência que são sugeridos protocolos e impostos standards. Charity diz que: A multiplicidade e quantidade de standards não é perniciosa, como se revela extremamente positiva. Estes autores argumentam que deverá existir uma multiplicidade de standards e protocolos, focando a questão da interoperabilidade destes através de gateways e de serviços de aglutinação fornecidos por parceiros. Segundo Davenport: Ás bibliotecas está reservado o papel de repensar as suas actividades e funções, adaptando se aos novos modelos organizacionais e extraindo das tecnologias disponíveis o substracto para a melhoria na prestação de serviços e na eficaz utilização de informações. Para Bezy: As principais funções que concorrem para o desenvolvimento de um projecto de criação de uma biblioteca digital são: criação e captura, gerência e armazenamento, disponibilização e tratamento dos direitos de autor. 18 McKnight diz : Há quem levante a questão de que tanto os editores como as bibliotecas, mesmo que digitais, poderiam ter como destino a extinção caso não fosse levado a cabo a redefinição dos papeis. 19 Aspectos importantes As bibliotecas digitais são sistemas capazes de armazenar dados digitais em vários sítios e fornecer ao usuário uma interface para a procura e visualização de informação sobre vastos repositórios num único passo. O conceito estende o da biblioteca convencional agregando objectos digitais e as suas formas de definição, organização, gerenciamento e disseminação. É pois muito importante apreender os conceitos e tecnologias no âmbito da biblioteca digital. 20 Conclusões O presente estudo consiste na proposta de informações e indicações para a concepção de uma biblioteca digital. Para tal conclui-se que os aspectos tecnológicos, protocolos e standads são fundamentais, visto que estes constituem conjuntos de regras que definem o formato e a forma como a informação é trocada. A nível da informação na biblioteca, verificou-se que esta obedece a critérios organizativos. Quanto ao desenvolvimento de uma biblioteca, observou-se que este tem cinco etapas que são: criação, captura e conversão; Gerência e armazenamento; busca e acesso; Disponibilização e tratamento dos direitos de autor. Relativamente ao tratamento dos direitos de autor, constatou-se que este é um dos pontos mais discutidos na actualidade, existindo tanto a nível americano, como europeu iniciativas para regulamentar e legislar sobre este ponto. Com isto pensa-se que num futuro próximo o acesso à informação será encriptado e terá de se pagar para ter acesso a ele. 21 Bibliografia Arms, W.(2000). Digital libraries. EUA, Massachusetts Institute of Tecnology Isaías, P.(1999). Bibliotecas digitais.Lisboa, Universidade Aberta Páginas: arquivos e bibliotecas (2001).Bibliotecas digitais. Lisboa, Edições Colibri Digital library dfinition for DLI2 [em linha]. Disponível em http://scholar.lib.vt.edu/Dli2/defineDL.html [consultado em 20-05-2003] Digital library: searching is not enough [em linha]. Disponível em http://www.dlib.org/dlib/may96/stanford/05paepcke.html [consultado em 25-05-2003] Stanford digital libraries Technologies [em linha]. Disponível em http://www- diglib.stanford.edu/diglib/pub/projects.shtml [consultado em 21-05-2003] 22