Nas organizações em geral, e nas indústrias em particular, grande quantidade de documentos são manipulados. Exemplos são documentos de projeto de engenharia, normas de controle de qualidade, normas de produção, instruções para preparação de produção, instruções para teste, especificações de produtos para vendas, etc.

                O objetivo do projeto GDOC é a construção de um sistema gestor de documentos a ser comercializado pela POLO de Software de Curitiba e destinado primaria, mas não exclusivamente, a aplicações industriais no controle e armazenamento de documentos, levando em conta também o proposto a este respeito nas normas das séries ISO 9000 e ISO 14000.

Toda a documentação da empresa será agrupada, estruturada e constituirá um único Hiperdocumento. Estes documentos são caracterizados por: Por exemplo, as dimensões de um produto podem aparecer nos documentos de projeto, nas especificações para venda, nas instruções de produção, etc. Os documentos de um determinado tipo devem obedecer a uma estrutura lógica estabelecida pela organização. A documentação como um todo compõe uma hiperdocumento, no qual um documento pode conter referências a outros documentos A criação, a modificação e a utilização dos documentos segue um fluxo de trabalho ("workflow") determinado Documentos são modificados ao longo do tempo. Com isso surgem novas versões e é importante registrar que partes do documento foram modificadas e quem foi o responsável pela modificação.

Dentro do processo de aumento de produtividade e de implantação de mecanismos de incremento de qualidade, muitas indústrias tem procurado soluções informatizadas para a gestão de seus documentos. Tendo reconhecido esta necessidade, aumentada pela implantação da ISO 9001 em muitas indústrias, a POLO de Software de Curitiba desenvolveu, a partir de uma solução específica para um cliente, um produto (DocControl) destinado ao Controle de Documentos. Este software em sua versão atual serve para registrar os documentos em uso na organização e para controlar sua tramitação dentro da organização. Entretanto, o software não armazena os documentos propriamente ditos. A POLO deseja transformar este produto em um software mais completo, destinado a toda gestão dos documentos, incluindo a criação, a edição o armazenamento, a disponibilização e o controle da tramitação de documentos.

Por outro lado, grupos de pesquisa de diversas Universidades no país têm atuado em temas de pesquisa necessários à concepção e construção de um Sistema Gestor de Documentos.

O grupo da UFRGS realizou diversas pesquisas envolvendo diretamente a gestão de documentos ou técnicas necessárias à sua gestão. Prof. Valdeni, na UFRGS, vem já há diversos anos trabalhando no problema de armazenamento, intercâmbio e modelagem de hiperdocumentos. O Prof. Tom Price desenvolveu um sistema para modelagem de hiperdocumentos e do fluxo de trabalho baseado na tecnologia OO e voltado ao uso em Ambientes de Desenvolvimento de Software. O Prof. Heuser, atuando na área de modelagem de sistemas de informação, trabalhou na modelagem de hiperdocumentos e na disponibilização de hiperdocumentos na Internet. A Profa. Lia tem estudado o problema de versões em modelos OO.

O grupo de São Carlos (Prof. Masiero) acumulou grande experiência na modelagem de processos em Engenharia de Software e tem atuado na modelagem de hiperdocumentos e de fluxo de documentos com técnicas baseadas em "statecharts". Uma proposta para modelagem de hiperdocumentos dinâmicos já foi desenvolvida e publicada e um modelo para hipertextos baseado na técnica statecharts está em desenvolvimento.

O grupo da PUC/PR (Prof. Flávio e Prof. Nabeel) tem atuado na área de aquisição de documentos, em aplicações como reconhecimentos de dígitos, reconhecimentos de caracteres e reconhecimentos de assinaturas.

Já o grupo do CEFET/PR (Prof. Douglas) tem atuado em diversas técnicas de modelagem de processos e de dados voltadas a Engenharia de Software e úteis na modelagem de hiperdocumentos.

Portanto, o presente projeto reúne em parceria uma empresa, que deseja estender um produto já existente e para o qual necessita novas tecnologias, a diversos grupos de pesquisa, que já há tempos vem trabalhando no desenvolvimento da tecnologia necessária ao desenvolvimento do produto.

Especificamente, o projeto de pesquisa objetiva desenvolver os seguintes aspectos do produto da POLO:

Será definido um modelo de hiperdocumentos que atenda aos requisitos da aplicação que se tem em vista e que seja realizável nas plataformas de hardware/software que serão usadas pelo produto da POLO. A definição do modelo envolve não só a técnica de modelagem(conceitos de modelagem), mas também uma linguagem de definição dos hiperdocumentos e o mapeamento desta linguagem para a técnica de armazenamento a ser utilizada. Além de definir a estrutura dos hiperdocumentos, é necessário poder definir o fluxo de documentos, envolvendo todas as fases de sua utilização, desde a criação do documentos, passando por seu uso, modificações e armazenamento final. O uso do gestor de documentos a construir não deverá substituir completamente os documentos em papel, pelo menos em suas versões iniciais. A aquisição de dados, inclusive de assinaturas e autenticações, a partir de papel, deverá estar prevista. O projeto definirá técnicas para reconhecimentos de dados em documentos. Com a propagação do uso da Internet comercial, será importante disponibilizar partes dos documentos usados na indústria (por exemplo, catálogos e especificações de produtos) na rede. O projeto tem o objetivo de definir uma forma de geração automática de páginas WW que acessem o banco de hiperdocumentos e de dados da organização. O produto da POLO deverá utilizar, dentro do possível, softwares de armazenamento (banco de dados) e de aquisição (processador de textos, CAD) já existentes. Assim, o projeto não tem como objetivo central desenvolver novas técnicas de autoria de documentos, que integrem soluções já existentes.

Para atingir estas metas, o projeto foi dividido em duas grandes etapas: (1) investigação de alternativas e (2) consolidação de soluções.

As atividades no projeto iniciarão com um "workshop" que reunirá todos participantes do projeto e durante o qual serão detalhados os requisitos do software que a POLO deseja construir. A partir daí, os grupos envolvidos estudarão diferentes alternativas de atendimento dos requisitos impostos. Exemplificando, o grupo de São Carlos deverá investigar a modelagem de fluxo de documentos com "statecharts", o grupo de Porto Alegre fará o mesmo com redes de Petri e o grupo do CEFET trabalhará com técnicas baseadas em fluxo de dados. Paralelamente, a POLO estará construindo novas versões do produto hoje existente (DocControl) e investigando em maior detalhe as necessidades do mercado.

Ao final desta fase, que deverá estender-se ao longo de dez meses, em um novo "workshop", serão fixados os requisitos definitivos do software e os grupos passarão a detalhar o produto agora em uma única alternativa de solução. Nessa fase, o pessoal da POLO envolvido no projeto iniciará o desenvolvimento do novo produto já incorporando os resultados do projeto.


 

A seguir descreveremos a tecnologia envolvida na gerência de documentos, a arquitetura e o modelo de dados do sistema GDOC, um sistema de gestão de documentos. O principal campo de aplicação do sistema GDOC é o gerenciamento de documentos usados na garantia dos padrões de qualidade, como documentos técnicos cuja autoria é baseada no conjunto de normas ISO 9000 [UFR 97]. O projeto GDOC está sendo desenvolvido pelo núcleo de pesquisa em modelagem de dados do Instituto de Informática da Universidade Federal do Rio Grande do Sul.

    O termo GDOC, que significa Gestão de DOCumentos, define um sistema composto por:

- um modelo de dados conceitual para representação de documentos eletrônicos
- uma arquitetura distribuída na qual baseia-se um sistema de gereciamento de documentos desenvolvido especificamente para a autoria e o armazenamento dos documentos
- uma base de dados que facilita o armazenamento e a recuperação dos documentos

O trabalho foca os dois aspectos do sistema GDOC, sua arquitetura e o seu modelo de dados.

Apresentar o problema da gerência de documentos

Soluções disponíveis

A solução GDOC

    A arquitetura do sistema GDOC distingue-se de outras propostas de sistemas de gerência de documentos [BOH 94, MIL 96, DIE 96, BAL 97] pelo uso combinado de uma base de dados relacional e as linguagens HTML [BER 93] e Java [SUN 97]. GDOC é um sistema projetado para ser usado em uma rede local baseada no conjunto de protocolos da Internet, a chamada Intranet. Os usuários acessam o sistema GDOC através de um browser web. Os documentos são armazenados em uma base de dados relacional e os seus conteúdos são representados em HTML.

    Os documentos do sistema GDOC são documentos virtuais [HAA 92, VER 97]. Um documento virtual é gerado por demanda em resposta a uma consulta do usuário.

    A outra característica do sistema GDOC é o seu modelo de documentos. O sistema GDOC manipula documentos estruturados, como aqueles encontrados em outros modelos de documentos como ODA (Office Document Architecture) e SGML (Standard Generalized Markup Language) [BRO 89, HOR 84]. O que é específico ao modelo GDOC é que os documentos são armazenados como uma combinação de tabelas relacionais com strings HTML, de maneira a permitir que uma aplicação de base de dados relacional consiga manipular a estrutura de documentos e um browser web apresentar e editar o conteúdo dos documentos.

    O trabalho é organizado da seguinte maneira: no capítulo x, os requisitos do sistema de documentos são descritos. O capítulo y apresenta a arquitetura do sistema GDOC focando a distribuição dos componentes do sistema através de uma Intranet. O capítulo z descreve o modelo de documentos nestes três aspectos: armazenamento das instâncias, da apresentação e dos tipos de documentos. O capítulo k apresenta as conclusões.

1.2 Contribuições
    O trabalho possui duas contribuições importantes: a definição de um modelo de dados para representar documentos e o desenvolvimento de um protótipo de um sistema de gestão de documentos.

    A explosão da informação eletrônica está revolucionando a criação de documentos e a distribuição de processos, e obriga as organizações a produzirem os seus documentos de maneira mais rápida e com menor quantidade de recursos. Os documentos, tradicionalmente vistos como páginas impressas estáticas, têm se tornado repositórios digitais de texto, gráficos e multimídia. Além disso, as tecnologias recentes de bases de dados com capacidade de armazenamento de objetos não-convencionais, como imagens, som e vídeo, assim como as tecnologias de documentos tais como SGML (Standard Generalized Markup Language) e HTML (Hypertext Markup Language) e a própria utilização global dos recursos da Internet, têm aberto as portas para novos produtos e soluções que combinam os limites entre banco de dados, editoração eletrônica, e workflow. Esta revolução desafia os fornecedores de informação, desde grupos de documentação técnica até editoras comerciais, que produzem diversos documentos como manuais de produtos, livros de referência, propostas, jornais, catálogos e outros.

Respondendo ao Desafio da Informação

Quando se produz algum tipo de documentação, como manuais ou catálogos, o processo de autoria envolve tipicamente:

1. Criação, armazenamento, e gerenciamento da informação.
2. Recuperação, revisão, e organização da informação.
3. Distribuição dos documentos.
4. Gerenciamento dos documentos através dos ciclos de revisão.

    O maior desafio da criação de documentos é achar a melhor solução que consolide os esforços para criação da informação, agilizar o processo de revisão, e produzir o maior diversidade de documentos em múltiplos meios de saída, sem com isso aumentar os custos de produção.
 
    Atualmente, as organizações se deparam com o problema do gerenciamento de grandes volumes de documentos de forma eficiente. Embora existam diversas soluções proprietárias para criação, armazenamento e recuperação de documentos, elas não suprem necessidades comuns do processamento de documentos. Várias questões ainda persistem quando se escolhe a ferramenta para o gerenciamento de docuemntos:

- Como fazer para vários autores trabalharem de maneira produtiva sobre o mesmo documento simultaneamente ?
- Como as revisões dos documentos são armazenadas, aprovadas e arquivadas ?
- Como são gerenciados os documentos que são muito grandes para serem carregados completamente na memória ?
- Como são gerenciados os elos entre documentos a fim de assegurar que eles sejam consistentes ?
- Como são gerenciados os elos entre os documentos e outros tipos de dados, como ilustrações, gráficos, planilhas, tabelas da base de dados e outros ?
- Como um documento pode ser distribuído simultaneamente em diferentes formatos ?
 

    Componentes são pedaços de informação. Eles podem ser elementos SGML, elementos HTML, grupos de elementos, outros tipos de arquivos como gráficos, vídeo e áudio, e mesmo documentos inteiros. Quando o usuário tem a possibilidade de gerenciar componentes, não apenas arquivos, ele pode:

- Trabalhar com componentes individuais ou uma coleção de componentes para eliminar a interferência do trabalhos de outros usuários.
- Interligar componentes entre si economizando tempo de localização da informação desejada.
- Reconfigurar componentes existentes para construir novos documentos para novos propósitos.
- Reusar componentes para eliminar a redundância e garantir a validade do componente.

Autoria Cooperativa

    Pela reorganização da maneira com que a informação é criada e armazenada, uma empresa pode estruturar os seus grupos de trabalho de autoria por assunto ou produto, ao contrário de fazer a divisão por departamento ou tipo de documento, eliminando a duplicação do esforço que freqüentemente ocorre quando vários departamentos produzem documentos com informações comuns. A autoria cooperativa, por exemplo, só tem sucesso se houver um macanismo muito bem adequado de compartilhamento dos documentos da base de dados, e técnicas que auxiliam esse uso compartilhado (por exemplo, operações de check-out e check-in).
 
Criando e Acessando as Informações

    A abundância de aplicações de autoria de documentos dá liberdade ao usuário para escolher a melhor ferramenta para o seu trabalho, mas introduz novos problemas ao câmbio de informações e consistência de dados.
 
Achando a Informação Necessária

    Cada objeto de informação armazenado na base de dados tem o seu próprio conjunto de atributos definidos pelo usuário, tais como "assunto" e "data de expiração". O sistema de gerenciamento de documentos deve permitir a procura de componentes ou textos através desses atributos específicos ou pelo próprio conteúdo do documento (full text search).

Automatizando o Processo de Revisão

    Em um ambiente de autoria complexo, centenas de autores podem ser responsáveis pela atualização de milhares de pedaços de informação que aparecem em dezenas de documentos, e que podem ser publicados em diferentes instantes de tempo.
 
Construindo Documentos Virtuais

    Os documentos do sistema GDOC são documentos virtuais porque não existem materializadaos na base de dados. Ao contrário, apenas na exibição do documento eles são construídos agregando-se suas partes (componentes) abaixo do documento raíz. Esta é a principal característica do modelo de documentos estruturados.

    O mercado de produção de documentos eletrônicos é um dos mais complexos e voláteis mercados da indústria da computação. Uma grande quantidade de produtos e tecnologias variadas dominam o segmento, e como os computadores são vistos como ferramentas com capacidade de produzir algo mais do que documentos em papel, os produtores de software estão competindo entre si para integrar capacidades de autoria de documentos nos seus produtos. A variedade de abordagens é tão grande quanto incompatível. Alguns produtos consideram SGML como apenas uma das opções disponíveis, enquanto outros tomam SGML como o núcleo mais fundamental da sua tecnologia.

O Ciclo de Vida de um Documento

    Existem várias maneiras diferentes de se descrever o ciclo de vida de um documento. No que se refere a produção de documentos eletrônicos, a seguinte classificação é mais apropriada:
 
Pesquisa A aquisição de informação, incluindo a interpretação da informação contida nos documentos.
Autoria Criação dos novos documentos.
Edição Revisão dos documentos com a finalidade de fazê-los conformantes com uma certa estrutura e padrão de conteúdo.
Formatação Revisão dos documentos a fim de deixá-los coerentes com um certo padrão de apresentação ou codificação.
Publicação Transformação dos documentos em uma forma de publicação específica (por exemplo: papel, CD-ROM, Internet).
Entrega Distribuição dos documentos.
Armazenamento Nesta etapa os documentos são guardados em um meio permanente de armazenamento.
Recuperação Localização e acesso dos documentos.
Visualização Leitura dos documentos.
Tabela 1. Etapas do ciclo de vida do documento

    Ao contrário de outras visões para o ciclo de vida de documentos, a divisão nas nove etapas anteriores ajuda a diferenciar os passos que envolvem o processo automatizado daqueles que envolvem interações humanas com a informação contida nos documentos.

    Os custos para geração de documentos crescem devido a inúmeras razões durante o processo de autoria. A análise de documentos, o desenvolvimento das definições de tipos de documentos (DTD), e os requisitos para novas ferramentas e treinamento, e a conversão dos dados legados são despesas significantes. A imposição de novos requisitos de controle de qualidade também aumenta os custos durante as fases de autoria e edição. Se os autores e editores não utilizarem ferramentas estruturadas, custos adicionais de conversão são acrescidos durante a fase de formatação do documento.

    SGML dá maneiras melhores para publicar, entregar, armazenar, recuperar, visualizar, e interagir com os documentos. Alguns   destes benefícios são relacionados a eficiência mecânica, outros com a interação humana. As escolhas feitas pela organização quando avaliam essas medidas tem grande impacto em como (e mesmo se) os benefícios pretendidos e alcançados são percebidos.

    Os meta-dados (dados a respeito de outros dados) representam o grande peso levado em consideração por todas essas escolhas. A informação sozinha não possui grande valor pois não se consegue representar as características semânticas associadas a ela. Os meta-dados, ao contrário, fornece as informações necessárias ao computador para determinar como processar e como classificar o dado. As marcas de SGML dentro de uma instância de um documento são meta-dados. Elas descrevem o papel de cada elemento dentro do contexto do documento. Os atributos de cada uma das marcas são também considerados como meta-dados, pois eles descrevem características específicas do dado dentro da instância de SGML. Os títulos, nomes de autor, datas de publicação e numeração de índice são meta-dados, assim como anotações, bookmarks e outros recursos para navegação do documento.

    Os consumidores da informação, por outro lado, desejam conjuntos de meta-dados mais ricos e mais complexos. Ao invés de ficarem satisfeitos com um DTD que reflete a estrutura genérica do documento,  (como um capítulo ou um título), as marcas que capturam o significado do dado (por exemplo, propósito, escopo, código da peça, voltagem, autor, pacote de software, empresa) são preferidos. Conjuntos mais ricos de meta-dados permitem que a base de documentos adquira benefícios importantes quando são usadas ferramentas para recuperação que suportam pesquisas sensíveis ao contexto. Por fazer a recuperação mais simples e mais barata, SGML melhora a maneira com a qual as pessoas interagem com os documentos para enriquecer a colaboração, o aprendizado, a tomada de decisão, a inovação, e a aquisição e o desenvolvimento do conhecimento. Estes benefícios não podem ser medidos facilmente em termos estritamente financeiros, e desde que tal abordagem é mais cara do que o desenvolvimento e uso de um DTD orientado a estrutura, muitas organizações acham difícil justificar o custo adicional. Ao mesmo tempo, estas medidas de valor podem ser centrais no esforço de implementação em SGML e uma maior fonte de valores estratégicos. Como a densidade de informações sobre as transações de negócio continuam a crescer, as empresas que entregam informações mais ricas e úteis aos seus clientes estão mais aptas a perceber vantagens de competitividade.

    Nos processos tradicionais de autoria e publicação, os vários passos envolvidos no ciclo de vida do documento eram finitos e discretos, e cada fase produzia um artefato que requeria a o envolvimento humano. Com a introdução da informática na automatização do processo de produção de documentos houve um aumento de eficiência significativo, mas o envolvimento humano continuou sendo exigido para integrar e interpretar pedaços individuais de informação através do ciclo de vida do documento. Embora as grandes quantidades de papel tenham sido substituídas por procedimentos automatizados, os diferentes formatos proprietários sempre oferecem barreiras ao intercâmbio e reuso de documentos. As abordagens de gerência de documentos baseadas em SGML, por outro lado, têm provado reduzir a necessidade de interação humana para executar transformação de dados e permite que estes se concentrem em atividades mais específicas, como a própria autoria. Os browsers de HTML integram uma vasta variedade de ferramentas para visualização, recuperação, navegação e coleção de dados. Isto ajuda a cruzar o abismo entre a visualização e a autoria e faz o ciclo de vida do documento verdadeiramente um ciclo.

Visualizadores e Browsers

    Uma grande variedade de ferramentas pode ser usada na exibição de dados SGML. Geralmente, essas ferramentas são classificadas em três categorias: Leitores, Visualizadores e Browsers. Os leitores são usados para mostrar o conteúdo do documento sem qualquer interpretação ou processamento. Os visualizadores incluem capacidades de interpretação e processamento, embora utilizem um padrão de interpretação desenvolvido para suportar a impressão em papel ("hard copy"). Os browsers abandonam a metáfora de página e fornecem um ambiente de entrega eletrônica que é mais adequado com as características do meio de exibição digital. Além disso, os browsers são geralmente mais poderosos e melhor apropriados para explorar a informação contida no conteúdo do documento SGML, oferecendo navegação e recuperação. O seguinte esquema é usado para distinguir as categorias de leitores, visualizadores e browsers:

1. Leitores de texto
2. Visualizadores nativos de arquivos
3. Visualizadores de raster
4. Visualizadores de páginas
5. Browsers binários
6. Browsers de DTD fixos
7. Browsers de DTD arbitrários

    Estas categorias de ferramentas são diferenciadas principalmente pela maneira com a qual a informação é codificada e entregue. O formato de entrega é fortemente relacionado com a riqueza dos meta-dados que o software pode usar e este relacionamento tem importantes implicações sobre o ciclo de vida do documento. Não é incomum existirem DTDs de SGML projetados de acordo com as características positivas ou deficiências de um visualizador ou browser em particular. Por causa disso, os meta-dados que a ferramenta de entrega suporta pode não só limitar as opções de interação humana e o retorno em potencial do investimento, mas também a validade dos documentos SGML.

Leitores de Texto

    As ferramentas de leitura de texto simplesmente mostram o conteúdo de um arquivo. Neste caso, o documento a ser exibido deve ser convertido para um formato o qual o leitor seja capaz de manipular.Os leitores dão uma visão WYSIWOD ("What You See Is What's On Disk") dos dados. Se o arquivo contém apenas texto, o leitor mostra o conteúdo de maneira correta. Se o arquivo contém dados binários, os caracteres não-ASCII podem não ser corretamente interpretados devido a diferenças de código entre diferentes ambientes e com isso a visão do arquivo pode não ser homogênea. Na maioria dos casos, quando dados SGML são mostrados usando leitores de texto, as marcas de SGML são mostradas como parte do conteúdo, e por isso os leitores de texto não são muito utilizados devido a sua incapacidade de fornecer uma representação visual formatada do documento. Um exemplo de produto desta categoria é o programa Vernon Beurg's List. Embora não existam muitas implementações de SGML que usam leitores de texto como ferramenta primária de entrega de documentos, um filtro de arquivo muito simples pode ser usado para converter um documento SGML em uma representação ASCII sem marcas. Este filtro pode usar, por exemplo, quebras de linha, espaços, tabulações e mesmo pontuação para a formatação visual, semelhante as páginas "man" do sistema operacional Unix. Aquele sistema é baseado em arquivos de texto que contém uma formatação baseada em um conjunto simples de caracteres de controle e um estrutura implícita.
 

Visualizadores Nativos de Arquivos

    Esta classe de software de visualização é usada para mostrar o conteúdo do documento no seu formato nativo. O sistema de correio eletrônico cc:Mail [LOT 97], por exemplo, usa visualizadores nativos de arquivos (Outside In e Quickview Plus) para exibir arquivos anexados a mensagem. O Microsoft Windows 95 inclui um utilitário chamado Quickview, que pode também ser usado para visualizar uma variedade de formatos nativos de aqrquivo. Em alguns casos, os visualizadores nativos de arquivos não existem como produtos independentes, mas são disponíveis como funções dentro de outros produtos de software. Outros exemplos de visualizadores nativos são o Word Viewer e o Powerpoint Viewer [MIC 97]. Muitas vezes a qualidade da visualização de um documento é limitada pelos visualizadores nativos. Em alguns casos, a interpretação de códigos de formatação proprietários é imperfeita e não coincide com o formato do ambiente nativo de edição. Além disso, o suporte para gráficos embutidos no conteúdo do documento tende a ser problemático. Porém, para muitas aplicações isto não chega a ser um problema, pois o objetivo principal é a visualização dos documentos legados a baixo custo.
 
Visualizadores Raster

    Os visualizadores raster são projetados para exibir imagens bitmap (formatos TIFF e CCITT Grupo 4). Esta característica atribui aos visualizadores raster a capacidade de fornecer uma boa representação da página do documento, preservando a sua apresentação, tipografia, ilustrações e outros elementos visuais. Alguns visualizadores raster são encontrados combinados com visualizadores nativos de arquivos no mesmo produto, como por exemplo o AutoVue Professional [CIM 97]. Os visualizadores raster são muito utilizados nas aplicações de empresas de seguros, onde os sistemas de gerenciamento de documentos oferecem uma alternativa de baixo custo ao roteamento de papel. Os visualizadores raster são também usados em conjunto com ferramentas SGML mais robustas para visualização de imagens que são referenciadas em diferentes instâncias de documentos SGML. Entretanto, os visualizadores raster não são uma alternativa eficiente para a exibição de dados textuais. Por serem apenas uma coleção de pontos, as imagens rasterizadas não são muito úteis para pesquisa e recuperação. Para contornar este problema, alguns sistemas híbridos usam uma abodagem que combina imagens e texto, e na qual a técnica de OCR (Optical Character Recognition) é usada para converter as imagens escaneadas em arquivos texto.
 
Visualizadores de Páginas

    Adobe Acrobat, WordPerfect Envoy, e No Hands Common Ground são exemplos de produtos para visualização de documentos na forma de imagens de páginas. Todos esses produtos usam formatos proprietários de arquivos que armazenam as páginas do documento. Em muitos casos, estes arquivos são produzidos não por scanning do documento em papel, mas pela impressão do documento através de filtros especiais. Esta abordagem oferece uma exibição visual de qualidade superior a dos visualizadores nativos de arquivos, pois os visualizadores de páginas não se envolvem com a interpretação das imagens. Os visualizadores de páginas possuem algumas vantagens sobre a visualização pelos visualizadores raster. Além da capacidade de suportar marcação de texto e anotações, alguns visualizadores de páginas oferecem mecanismos para embutir hyperlinks nos documentos. Estes são normalmente usados para ligar partes do conteúdo entre si, como por exemplo ligar as entradas da tabela de conteúdos a sua localização no docuemento, ou então ligar termos do texto a suas entradas no glossário.

Browsers Binários

    Os browsers binários usam formatos binários proprietários, assim como os visualizadores de páginas, mas eles não são limitados a representação de imagens de páginas. Alguns exemplos de produtos desta categoria são o Folio VIEWS, Lotus SmarText, HyperWriter, e o Microsoft Help. Alguns browsers binários podem ser usados na visualização de documentos SGML, mas para que isso possa ser realizado, o dado SGML deve primeiro ser convertido para um formato binário de arquivos não-SGML reconhecido pelo browser. Na medida que filtros são usados para fazer a conversão dos documentos, muitos browsers binários são mais propriamente considerados como ambientes de autoria do que ambientes para entrega de documentos.

Browsers de DTD Fixos

    Um browser de DTD fixo é uma ferramenta que utiliza SGML como parte do produto mas apenas manipula um número reduzido de DTDs. Oracle Book, InfoAccess Guide, e Day and Zimmerman's Interactive Presentation Manager (DZIS-IPM) são exemplos de produtos pertencentes a esta categoria. O conhecido Netscape Navigator, o Microsoft Internet Explorer e o HotJava também pertencem a esta categoria. Estes três últimos produtos operam contra um conjunto finito de DTDs de HTML. Entretanto, cada um deles utiliza DTDs proprietários que, por sua vez, não são totalmente compatíveis entre si. O Netscape Navigator, por exemplo, usa uma versão proprietária de HTML conhecida popularmante como Netscape Extensions. A Microsoft, semelhantemente, implementa certas características na linguagem HTML que somente são interpretadas pelo Internet Explorer, e o HotJava da Sun Microsystems adota recursos adicionais na interpretação de applets Java que não são reconhecidos pela máquinas virtuais de Java dos browsers concorrentes.

Browsers de DTD Arbitrários

    Estes browsers são projetados para interpretar dados SGML conforme a filosofia de SGML. Por manipular DTDs arbitrários, estes produtos não requerem que uma instância de um documento seja reestruturada, convertida ou mapeada para um formato específico. Estas ferramentas manipulam todos os meta-dados da instância do documento SGML, e mantém uma clara separação entre a estrutura do documento, o conteúdo, e a visualização. Exemplos de produtos desta categoria são o Electronic Book Technologies DynaText e o  SoftQuad Panorama. O processo de edição dos documentos, segundo a abordagem dos browsers de DTD arbitrários, é concentrado no DTD usado para estruturar a instância do documento. Os estilos de apresentação são definidos para cada tipo de elemento do DTD e armazenados em arquivos separados, chamados "style sheets". Múltiplas style sheets podem ser definidas para o mesmo DTD. Uma das funções primárias do browser é reunir os dados do conteúdo e estilos no momento da visualização, característica que não está presente nos demais visualizadores ou browsers.
 
 

História da Tecnologia de Documentos (Enterprise Document Management System)
Tecnologias Existentes Hoje no Mercado de Document Management
Utilidade dos Documentos
 Office Documents
 Manufacturing Documents
 Financial Documents
 Imaging Documents
A Proposta GDOC para um Gerenciador de Documentos Estruturados