Futuro das linguagens de indexação

O FUTURO DAS LINGUAGENS DE INDEXAÇÃO *

Ingetraut Dahlberg
Universidade de Mainz - Alemanha

1. DEFINIÇÃO DO ASSUNTO

No final da década de 1950 e durante a década de 1960, prevalecia uma insatisfação geral com os sistemas convencionais de classificação universal, o que provocou o desenvolvimento de thesauri, primeiro nos Estados Unidos e mais tarde em muitos outros países. A partir de então, a construção de thesauri tornou-se uma paixão amplamente conhecida; todos os serviços de informação importantes não podiam deixar de elaborar seus próprios thesauri.

Uma vez que os thesauri eram destinados mais para a descrição de um documento através da indexação do que para sua classificação, o termo "linguagem de indexação" tornou-se o termo genérico para designar todos os tipos de thesauri, incluindo listas de cabeçalhos de assunto, listas de descritores e, algumas vezes, até sistemas de classificação.

Se acompanharmos D. Soergel em seu livro "Indexing languages and thesauri: construction and maintenance"(1), teremos de aceitar que existe uma grande diferença entre linguagens de indexação e thesauri. Soergel define linguagens de indexação como sendo compostas apenas daqueles termos usados para descrição, classificação e recuperação de documentos, excluindo portanto os termos chamados "não-descritores"; estes termos "não descritores" são geralmente conhecidos como sendo os termos sinônimos, os "termos-guia", como soergel os chama, e que facilitam o acesso da linguagem natural aos termos controlados, aos descritores de um thesaurus. Em outras palavras, a adoção da definição de "linguagem de indexação" de Soergel significaria que este conceito poderia ser aplicado apenas aos sistemas de classificação, excluindo portanto, explicitamente, aquelas "linguagens" para indexação que se desenvolveram nos últimos vinte anos e que usam a linguagem natural direta na organização do conhecimento.

Levando em conta o contexto desta Conferência sobre sistemas de classificação, sconsiderar-se-á provavelmente as linguagens de indexação como sendo opostas aos sistemas de classificação, incluindo certamente os tuesauri; consequentemente, não os excluirei do que vem a seguir.

No entanto, não serão consideradas aquelas "linguagens" compiladas por processamento automático do texto, por exemplo, as compostas de termos existentes nos títulos, nos resumos ou nos textos completos dos documentos. Estes termos não podem ser considerados como elementos de uma linguagem de indexação, uma vez que ainda não foram definidos nem relacionados com os conceitos de um thesaurus especializado ou com a estrutura de um sistema de classificação.

Devemos também esclarecer em que consiste o "conceito de indexação". Foi sugerido, há muito, que este termo fosse usado também para atribuir notações extraídas de sistemas de classificação. Houve até uma reunião em 1971 em Herceg Novi, intitulada "A CDU em relação a outras linguagens de indexação" (2) significando, portanto, que a CDU foi considerada uma linguagem de indexação. Por sua vez, os Princípios de Indexação do UNISIST (3) ainda mantêm este ponto de vista, quando mencionam a indexação "por sinais de classe", e "símbolos de classifiação". Deveria ser esclarecido, entretanto, que pode-se falar de indexação apenas quando se usam descritores a partir de uma ordem alfabética para aplicá-los na representação do assunto de um documento. Todas as vezes que uma notação for utilizada a partir do arranjo de conceitos de um sistema de classificação, a estrutura deste sistema é relacionada com a informação em causa. Assim, na realidade, classificam-se conceitos quando, ao invés de termos, atribuem-se notações extraídas de um sistema de classificação. (Será totalmente excluído das considerações deste trabalho o outro sentido de 'indexação', significando por exemplo o estabelecimento do índice de um livro ou de um periódico).

2. DESENVOLVIMENTO DE THESAURI E NOVAS PERCEPÇÕES

Se não tivesse havido uma real necessidade de representação de assuntos mais específica do que a aplicação de notações dos sistemas de classificação tradicionais nos últimos vinte anos, os thesauri não teriam proliferado tão amplamente. Com efeito, estes instrumentos foram criados abundantemente, em cada país e em cada área do conhecimento. Hoje em dia, muitas bibliografias de thesauri mostram a situação deste desenvolvimento, e seria possível até iniciar a publicação de uma bibliografia de bibliografias de thesauri. O principal modelo de thesaurus propriamente dito foi fornecido pela primeira vez pelo Engineers Joint council (EJC) Thesaurus, em 1964, e mais tarde pelo Thesaurus of Engineering and Scientific Terms, (TEST) em 1967. Dois anos após o TEST norte-americano, nasceu o Thesaurofacet inglês - uma nova idéia sobre construção de thesaurus em que combinou-se uma classificação facetada na parte principal com um índice tipo thesaurus para entrada no sistema. Uma notação foi usada para a conexão das duas partes.

O pequeno manual sobre construção de thesaurus (4), por Aitchison e Gilchrist afirma, a respeito do desenvolvimento de thesauri:

os primeiros thesauri eram inteiramente alfabéticos; mas durante os últimos cinco anos (1967-1972) as deficiências desse arranjo tornaram-se evidentes e a abordagem sistemática é agora amplamente aceita.

Ao comparar os thesauri alfabéticos com esta nova abordagem, os autores falm de "thesauri classificados" e distinguem sete tipos.

Eu gostaria de saber porque ainda se fala de thesauri para designar tipos de sistemas de conceitos que são praticamente o mesmo que sistemas de classificação, exceto pelo fato de que estes últimos podem não ter ainda a característica de indicar, em seu índice alfabético, os termos adicionais mais genéricos e mais mais específicos.

O desenvolvimento dos thesauri parece ser também reconhecido na distinção que faz D. Soergel no livro mencionado anteriormente (1). Soergel estabelece uma diferença entre dois tipos de thesauri, segundo seu arranjo. Ele os chama de "modelo TEST" e "modelo Roget-Soergel".

Estes modelos possuem as partes seguintes:

a) Modelo TEST

     (0) Introdução
     (2) Thesaurus de termos (parte principal em arranjo alfabético)
     (3) Indice permutado (Indice alfabético)
     (1) Indices classificados
          (1.1) Indice de categorias de assunto
          (1.2) Indice hierárquico

b) Modelo Roget-Soergel

     (0) Introdução
     (1) Indice classificado
     (2) Parte principal em arranjo classificado
     (3) Indice alfabético

Soergel prova, através de um fluxograma operacional, a superioridade do segundo tipo de thesaurus sobre o que apresenta arrajno alfabético na parte principal (5). Ele mostra não só que o primeiro tipo é de uso pouco prático mas também que tem seus custos aumentados nas etapas de indexação e recuperação. soergel aconselha enfaticamente a que não sejam mais construídos thesauri conforme o modelo TEST.

Seria necessário compreender que o desenvolvimento da organização de thesauri de acordo com o modelo Roget-Soergel mnos leva de volta ao ponto de partida: aos sistemas de classificação, quando muito aos do tipo que o classificacionista indiano S. R. Ranganathan já havia estabelecido em sua Classificação dos Dois Pontos em 1933; a sexta edição foi publicada em 1960, e a sétima está agora sendo preparada (6) e (7). Donde a semelhança com os sistemas de classificação facetada, que têm sido divulgados pelo British Classification Research Groupe através de recomendações que constam do Anexo ao volume da reunião de Forking em 1957 (8). Significará isto que estamos andando em círculo, que estamos voltando ao ponto de partida?

Não existe dúvida de que têm havido progressos no estudo da teoria da classificação, especialmente através do desenvolvimento de thesauri. Foi principalmente através do exercício intelectual de tentar identificar as relações entre termos que foi criada uma nova compreensão da estrutura conceitual do conhecimento; uma vez que um thesaurus é definido como uma lista de conceitos e termos correspondentes numa determinana área do conhecimento, com a indicação das relações entre os conceitos e os termos que os denotam.

Podemos hoje, sem dújvida, afirmar que uma nova base para a construção de sistemas de classificação foi criada, de um lado através do desenvolvimento da classificação facetada segundo Ranganathan, e de outro através do desenvolvimento da teoria de conceitos, derivada da determinação de tipos diferentes de relações entre os conceitos de um thesaurus.

Juntamente com estas novas percepções sobre a abordagem por categorias para a organização dos elementos do conhecimento (conceitos), estamos agora prestes a explorar a melhor maneira de arrumar esses conceitos em enunciados classificatórios destinados a representar a informação encontrada em novos documentos. A busca da "Sintaxe Absoluta", que já havia sido estudada por Ranganathan há algum tempo (9), e que também levou J. C. Gardin e seu grupo, em 1962, a desenvolver o SYNTOL Sintagmatic Oriented Language" (10), foi identificada como uma das mais importantes linhas de pesquisa na Terceira Conferência Internacional de Estudos sobre Pesquisa em Classificação, em Bombaim (11). Assim, novas experiências podem ser obtidas a partir de sistemas como o de D. Austin (PRECIS - Preserved Context Indexing System) (12), ou como o sistema multilingüe TITUS (13), que utilizam frases codificadas para a descrição do conteúdo de documentos.

CONSIDERAÇÕES PROSPECTIVAS

Possuidores dessas novas percepções sobre a atual situação da apresentação da informação, aonde iremos a partir de agora? Quais são as perspectivas referentes às distintas aplicações do novo conhecimento sobre construção de thesauri, ou sobre construção de sistemas de classificação facetada com índices do tipo thesaurus?

Quais são, por exemplo, as propostas do Relatório de Estudos do UNISIST de 1971 (14)? Na verdade, podemos encontrar, nesse programas para uma rede mundial de sistemas de informação, pelo menos duas propostas muito importantes para atividades ulteriores na organização de identificação de assuntos em sistemas de informação. O capítulo 6 do relatório apresenta as seguintes recomendações:

uma lista padronizada de cabeçalhos de asunto genéricos pode revelar-se útil mais para localizar e transferir grandes grupos de informação do que documentos ou dados específicos",

e isso deveria ser feito particularmente a fim de

- facilitar o intercâmbio de documentos e de informação entre diferentes âmbitos da documentação científica (regional, lingüístico, setorial),
- caracterizar as coleções de bibliotecas e catálogos coletivos,
- especificar as áreas cobertas pelos períodos através de um registro mundial,
- determinar superposições e duplicações nas características operacionais dos sistemas de informação",

e também para servir como um

"amplo filtro para processamento de pedidos sobre fontes de informação através de uma rede referencial internacional".

Além de uma lista padronizada de cabeçalhos de assunto para a ampla organização de documentos, ou "indexação pouco produnda", recomenda-se a realização de pesquisas com o objetivo de "desenvolver uma estrutura formal comum para analisar a convertibilidade e desenvolver linguagens intermediárias ad hoc, que dizem respeito aos componentes tanto semânticos quanto sintéticos".

Portanto, com o fito de reunir o conteúdo de diferentes thesauri em um único e mesmo assunto, de diversos países, em diversas línguas, de diversas instituições e de diversos sistemas de informação; e a fim de estabelecer compatibilidades entre estes thesauri para o intercâmbio de informações entre os produtos que foram descritos com seus elementos, o relatório do UNISIST recomendou a formação de uma organização permanente composta de:

a) Grupos setoriais de trabalho para:
- realizar ou supervisionar estudos sobre a convertibilidade dos thesauri existentes numa determinada área de conhecimento;
- sugerir ajustes que aumentarão a compatibilidade entre alguns ou entre todos;
- produzir thesauri-mestres a serem utilizados com vocabulários intermediários para estabelecer conexões entre thesauri individuais de cobertura similar, e
- fornecer um mecanismo para revisões correntes e atualizações de todos esses instrumentos de indexação. b) Escritórios centrais ou centros de distribuição para coletar, analisar e disseminar classificações, thesauri, listas de descritores, etc., em âmbito mundial e interdisciplinar, bem como para divulgar os resultados das atividades dos grupos setoriais de trabalho considerados em a) de preferência em mais de uma língua com uma notação simbólica comum baseada no conteúdo estruturado dos thesauri-mestres. Esses centros de distribuição poderiam também ser encarregados de realizar estudos sobre as inter-relações de thesauri-mestres usados em áreas superpostas (conexões horizaontais), bem como sobre as relações com a lista padronizada de cabeçalhos de assunto considerada acima (conexões verticais"(14, p. 96)

Com referência à elaboração da lista padronizada de cabeçalhos de assunto genéricos, a FID recebeu o encargo, em 1972, de desenvolver um Broad System of Ordering - BSO. Os resultados do trabalho de um pequeno grupo de especialistas foram apresentados à Unesco somente no corrente ano (maio de 1976). Em relação às outras recomentações mencionadas em a) e b) acima, praticamente nada foi feito ainda, com exceção do estabelecimento, em Varsóvia, de um centro depositário de sistemas de classificação em outras línguas que não o inglês. A pequena biblioteca especializada em sistemas de classificação em Cleveland, Ohio, que já existia bem antes do relatório do UNISIST, recebeu em 1970 auxílio financeiro da Unesco para a entrada em computador de sua coleção. Ela não pode ser considerada hoje como um centro depositário da Unesco para sistemas de classificação porque não está financeiramente em condições de efetuar essa coleta de forma sistemática, como foi proposto pelo relatório do UNISIST.

O programa de trabalho de classificação a ser realizado, tal como foi estabelecido pelo Relatório de Estudo do UNISIST, parece realmente muito satisfatório. Entretanto, somos levados a perguntar por que razão a Secretaria do UNISIST ainda não tomou as medidas necessárias para a realização de suas recomendações. Talvez ela precisasse de um apoio maior por parte dos interessados na aplicação da classificação em bibliotecas e sistemas de informação, especialmente através de uma recomendação proveniente das vozes combinadas dos participantes de uma grande conferência como a que ora se realiza aqui no Rio de Janeiro.

Deveríamos nos dar conta de que o conhecimento e a informação transmitida pelos documentos necessitam a máxima atenção, a fim de que possam ser identificados e estar disponíveis para o progresso da ciência e da tecnologia. Os instrumentos para a identificação e a organização desse conhecimento merecem também muito mais cuidado e, eventualmente, uma revisão completa, bem como uma adaptação ao nosso novo conhecimento sobre sua estrutura. Poder-se-ia, talvez, afirmar que um sistema de informação é tão bom quanto o sistema de classificação ou linguagem de indexação com o auxílio dos quais suas informações são identificadas, organizadas e recuperadas. Deste ponto de vista, deveríamos nos dar conta de que hoje nos encontramos ainda equipados com instrumentos do séulo passado.

4. O TRABALHO A SER REALIZADO

Uma grande quantidade de trablho se nos depara, referente não só às tarefas esboçadas nas recomendações do relatório do UNISTST, mas sobretudo à criação de uma maior conscientização da necessidade de trabalho e de organização do trabalho nessa área. Se continuarmos com uma atitude de não interferência, no chamado "desenvolvimento natural", como tem ocorrido nos últimos anos, confiando cada vez mais na linguagem dos documentos e utilizando apenas as palavras dos títulos dos documentos e/ou alguns termos não relacionados para indexação dos assuntos, nossos sistemas não serão capazes, no futuro, de manipular adequadamente grandes quantidades de informação. Fugmann (15) mostrou que existe uma lei para a recuperação da informação segundo a qual quanto maior for a quantidade de informações a ser manipulada por um sistema, mais rigorosa deve ser a ordem nessa quantidade de informação, se se quiser encontrar algo novamente neste volume crescente. E todos sabemos que bibliotecas e sistemas de informação são organismos crescentes.

É por isto que, se deixarmos a construção de thesauri se desenvolver da maneira como tem sido feita até agora, não fomentaremos a ordem, mas estaremos contribuindo para a desordem, pois cada novo sistema que não for baseado em princípios sólidos apenas contribuirá para isto.

O futuro das linguagens de indexação não deve ser julgado do ponto de vista de um "desenvolvimento natural" necessário ou desnecessário, mas de preferência de um ponto de vista de responsabilidade social e intelectual. Os recursos humanos e financeiros em cada país deveriam ser utilizados para esse fimn.

Podemos sem dúvida interferir no "desenvolvimento natural" e utilizar nossos cérebros para criar conscienciosamente os sistemas de conceitos que necessitamos para a expressão de novos conhecimentos e informações. Suas "linguagens" deveriam ser compreendidas por todo o mundo, isto é, através de sistemas de sinais, como a notação numérica que representa diretamente os conceitos.

Muitos de nós têm consciência da necessidade de compatibilidade entre sistemas de informação para que exista uma cooperação entre estes sistemas. Os instrumentos para o estabelecimento dessa compatibilidade ainda precisam ser elaborados.

Dever-se-ia estabelecer regras para a construção de léxicos intermediários (thesauri-mestres); dever-se-ia levar em consideração a idéia de um Thesaurus-Fonte-Universal como ela é proposta por Soergel (16); e dever-se-ia estabelecer princípios para a construção de um sistema universal de ordenação e utilizá-los na subsequente implementação deste novo sistema.

Um lampejo de esperança parece vir do "desenvolvimento natural": o fato de que, cada vez mais, thesauri multilingües devem ser estabelecidos em sistemas de informação cooperativos, leva ao reconhecimento de que não se pode traduzir termos em ordem alfabética para outra língua sem se conhecer as definições e as anotações das relações entre os conceitos desses termos. Além disso, quando se quer encontrar esses conceitos numa lista de termos, precisa-se de uma linguagem intermediária, de uma notação que correlacione os termos nas diferentes línguas. A notação, então, é a linguagem conceptual desses termos. Portanto, usando-se uma notação consistente que reflita o sistema conceptual em uma determinada área, não só localizar-se-ão os termos diretamente nas diferentes línguas de um thesaurus multilingüe, mas também encontrar-se-ia os termos relacionados de uma determinada hierarquia muito mais fácil e rapidamente.

Esperemos pois que, pelo menos desse desenvolvimento de sistemas de informação cooperativos surja uma compreensão geral da necessidade de um arranjo sistemático de "linguagens de indexação", e a partir daí uma possibilidade melhor e muito mais econômica de organização da informação e do conhecimento.

Que me seja permitido concluir da seguinte maneira: o futuro das linguagens de indexação será determinado pela força e pelo poder de nossa percepção da necessidade de classificação.

Referências bibliográficas

(1) SOERGEL, D. Indexing languages and thesauri: construction and maintenance. Los Angeles, Cal., Melville PUbl., 1974. 632 p.

(2) YUGOSLAV CENTER FOR TECHNICAL AND SCIENTIFIC DOCUMENTATION & INTERNATIONAL FEDERATION FOR DOCUMENTATION. Proceedings of the international symposium "UDC in relation to other intexing languages. Herceg Novi, Yugoslavia, June 28-July 1, 1971. Beograd, 1972.

(3) UNESCO. UNISIST indexing principles. Paris, 1975. First draft. 10 p.

(4) AITCHISON,J. & GILCHRIST, A. Thesaurus construction; a practical manual. London, ASLIB, 1972. 95 p.

(5) Ver também o resumo do livro em Information Processing and Management 11:255-257, 1975.

(6) RANGANATHAN, S. R. Colon Ranganathan. Bombay, Asia Publ. House, 1933; 2. ed 1939, 4. ed. 1950, 5. ed. 1957, 6. ed 1960, reimpr. 1963 e 1964.

(7) NEELAMEGHAN, A. Colon Classification. In: Encyclopedia of Library and Information Science 5: 316-340, 1971.

(8) INTERNATIONAL STUDY CONFERENCE ON CLASSIFICATION FOR INFORMATION RETRIEVAL, Dorking, 1957. Proceedings. London, ASLIB; New York, Pergamon Press, 1957. p. 137-147.

(9) Ver a contribuição de Ranganathan em: Perrault, J. M. (ed). Proceedings of the International Symposium on Relational Factors in Classification. University of Maryland, 8-11 June 1966. Information Storage and Retrieva, 3: 177-410, 1967.

(10) GARDIN, J. C. SYNTOL. New Brunswick, N. J. Graduate School of Library Science, Rutgers, The State University, 1965. 106 p.

(11) DAHLBERG, I. Some reflections on the Bombay Conference. International classification 2: 41-44, 1971.

(12) AUSTIN, D. The development of PRECIS: a theorical and technical history. Journal of documentation 30 (1):97-102, 1974.

(13) ZINGEL, M. J. The computer speaks four languages. [Computer spricht vier Sprachen] [em alemão]: VDI-Nachrichten, 16: 2, 1974. (relatório resumido sobre o sistema TITUS. Para esta referência ver Ducrot na LISA)

(14) UNESCO. UNISIST. - Study report on the feasibility of a world science information system. Paris, UNESCO, 1971, 161 p.

(15) FUGMANN, R. The theoretical foundation of the IDC-System: Six postulates for information retrieval. ASLIB Proceedings" 24 (2): 123-138, 1972. Ver também seu artigo The glamour and the misery of the thesaurus approach. Treatise IV on Information retrieval theory. International classification 2 (2): 76-86, 1974. 20 refs.

(16) SOERGEL, D. A universal source thesaurus as a classification generator. Journal of the ASIS 23 (5): 299-305, 1972.

* Tradução do inglês por Henry B. Cox. Palestra apresentada à Conferência Brasileira de Classificação Bibliográfica, Rio de Janeiro, 12-17 de setembro de 1972. Anais. Brasilia, IBICT/ABDF, 1979. v. 1, p. 323-334.

HOME

Página mantida por Conexão Rio