
O objetivo do projeto GDOC é a construção de um sistema gestor de documentos a ser comercializado pela POLO de Software de Curitiba e destinado primaria, mas não exclusivamente, a aplicações industriais no controle e armazenamento de documentos, levando em conta também o proposto a este respeito nas normas das séries ISO 9000 e ISO 14000.
Dentro do processo de aumento de produtividade e de implantação de mecanismos de incremento de qualidade, muitas indústrias tem procurado soluções informatizadas para a gestão de seus documentos. Tendo reconhecido esta necessidade, aumentada pela implantação da ISO 9001 em muitas indústrias, a POLO de Software de Curitiba desenvolveu, a partir de uma solução específica para um cliente, um produto (DocControl) destinado ao Controle de Documentos. Este software em sua versão atual serve para registrar os documentos em uso na organização e para controlar sua tramitação dentro da organização. Entretanto, o software não armazena os documentos propriamente ditos. A POLO deseja transformar este produto em um software mais completo, destinado a toda gestão dos documentos, incluindo a criação, a edição o armazenamento, a disponibilização e o controle da tramitação de documentos.
Por outro lado, grupos de pesquisa de diversas Universidades no país têm atuado em temas de pesquisa necessários à concepção e construção de um Sistema Gestor de Documentos.
O grupo da UFRGS realizou diversas pesquisas envolvendo diretamente a gestão de documentos ou técnicas necessárias à sua gestão. Prof. Valdeni, na UFRGS, vem já há diversos anos trabalhando no problema de armazenamento, intercâmbio e modelagem de hiperdocumentos. O Prof. Tom Price desenvolveu um sistema para modelagem de hiperdocumentos e do fluxo de trabalho baseado na tecnologia OO e voltado ao uso em Ambientes de Desenvolvimento de Software. O Prof. Heuser, atuando na área de modelagem de sistemas de informação, trabalhou na modelagem de hiperdocumentos e na disponibilização de hiperdocumentos na Internet. A Profa. Lia tem estudado o problema de versões em modelos OO.
O grupo de São Carlos (Prof. Masiero) acumulou grande experiência na modelagem de processos em Engenharia de Software e tem atuado na modelagem de hiperdocumentos e de fluxo de documentos com técnicas baseadas em "statecharts". Uma proposta para modelagem de hiperdocumentos dinâmicos já foi desenvolvida e publicada e um modelo para hipertextos baseado na técnica statecharts está em desenvolvimento.
O grupo da PUC/PR (Prof. Flávio e Prof. Nabeel) tem atuado na área de aquisição de documentos, em aplicações como reconhecimentos de dígitos, reconhecimentos de caracteres e reconhecimentos de assinaturas.
Já o grupo do CEFET/PR (Prof. Douglas) tem atuado em diversas técnicas de modelagem de processos e de dados voltadas a Engenharia de Software e úteis na modelagem de hiperdocumentos.
Portanto, o presente projeto reúne em parceria uma empresa, que deseja estender um produto já existente e para o qual necessita novas tecnologias, a diversos grupos de pesquisa, que já há tempos vem trabalhando no desenvolvimento da tecnologia necessária ao desenvolvimento do produto.
Especificamente, o projeto de pesquisa objetiva desenvolver os seguintes aspectos do produto da POLO:
Para atingir estas metas, o projeto foi dividido em duas grandes etapas: (1) investigação de alternativas e (2) consolidação de soluções.
As atividades no projeto iniciarão com um "workshop" que reunirá todos participantes do projeto e durante o qual serão detalhados os requisitos do software que a POLO deseja construir. A partir daí, os grupos envolvidos estudarão diferentes alternativas de atendimento dos requisitos impostos. Exemplificando, o grupo de São Carlos deverá investigar a modelagem de fluxo de documentos com "statecharts", o grupo de Porto Alegre fará o mesmo com redes de Petri e o grupo do CEFET trabalhará com técnicas baseadas em fluxo de dados. Paralelamente, a POLO estará construindo novas versões do produto hoje existente (DocControl) e investigando em maior detalhe as necessidades do mercado.
Ao final desta fase, que deverá estender-se ao longo de dez meses, em um novo "workshop", serão fixados os requisitos definitivos do software e os grupos passarão a detalhar o produto agora em uma única alternativa de solução. Nessa fase, o pessoal da POLO envolvido no projeto iniciará o desenvolvimento do novo produto já incorporando os resultados do projeto.
A seguir descreveremos a tecnologia envolvida na gerência de documentos, a arquitetura e o modelo de dados do sistema GDOC, um sistema de gestão de documentos. O principal campo de aplicação do sistema GDOC é o gerenciamento de documentos usados na garantia dos padrões de qualidade, como documentos técnicos cuja autoria é baseada no conjunto de normas ISO 9000 [UFR 97]. O projeto GDOC está sendo desenvolvido pelo núcleo de pesquisa em modelagem de dados do Instituto de Informática da Universidade Federal do Rio Grande do Sul.
O termo GDOC, que significa Gestão de DOCumentos, define um sistema composto por:
- um modelo de dados conceitual para representação de
documentos eletrônicos
- uma arquitetura distribuída na qual baseia-se um sistema de
gereciamento de documentos desenvolvido especificamente para a autoria
e o armazenamento dos documentos
- uma base de dados que facilita o armazenamento e a recuperação
dos documentos
O trabalho foca os dois aspectos do sistema GDOC, sua arquitetura e o seu modelo de dados.
Apresentar o problema da gerência de documentos
Soluções disponíveis
A solução GDOC
A arquitetura do sistema GDOC distingue-se de outras propostas de sistemas de gerência de documentos [BOH 94, MIL 96, DIE 96, BAL 97] pelo uso combinado de uma base de dados relacional e as linguagens HTML [BER 93] e Java [SUN 97]. GDOC é um sistema projetado para ser usado em uma rede local baseada no conjunto de protocolos da Internet, a chamada Intranet. Os usuários acessam o sistema GDOC através de um browser web. Os documentos são armazenados em uma base de dados relacional e os seus conteúdos são representados em HTML.
Os documentos do sistema GDOC são documentos virtuais [HAA 92, VER 97]. Um documento virtual é gerado por demanda em resposta a uma consulta do usuário.
A outra característica do sistema GDOC é o seu modelo de documentos. O sistema GDOC manipula documentos estruturados, como aqueles encontrados em outros modelos de documentos como ODA (Office Document Architecture) e SGML (Standard Generalized Markup Language) [BRO 89, HOR 84]. O que é específico ao modelo GDOC é que os documentos são armazenados como uma combinação de tabelas relacionais com strings HTML, de maneira a permitir que uma aplicação de base de dados relacional consiga manipular a estrutura de documentos e um browser web apresentar e editar o conteúdo dos documentos.
O trabalho é organizado da seguinte maneira: no capítulo x, os requisitos do sistema de documentos são descritos. O capítulo y apresenta a arquitetura do sistema GDOC focando a distribuição dos componentes do sistema através de uma Intranet. O capítulo z descreve o modelo de documentos nestes três aspectos: armazenamento das instâncias, da apresentação e dos tipos de documentos. O capítulo k apresenta as conclusões.
1.2 Contribuições
O trabalho possui duas contribuições
importantes: a definição de um modelo de dados para representar
documentos e o desenvolvimento de um protótipo de um sistema de
gestão de documentos.
A explosão da informação eletrônica está revolucionando a criação de documentos e a distribuição de processos, e obriga as organizações a produzirem os seus documentos de maneira mais rápida e com menor quantidade de recursos. Os documentos, tradicionalmente vistos como páginas impressas estáticas, têm se tornado repositórios digitais de texto, gráficos e multimídia. Além disso, as tecnologias recentes de bases de dados com capacidade de armazenamento de objetos não-convencionais, como imagens, som e vídeo, assim como as tecnologias de documentos tais como SGML (Standard Generalized Markup Language) e HTML (Hypertext Markup Language) e a própria utilização global dos recursos da Internet, têm aberto as portas para novos produtos e soluções que combinam os limites entre banco de dados, editoração eletrônica, e workflow. Esta revolução desafia os fornecedores de informação, desde grupos de documentação técnica até editoras comerciais, que produzem diversos documentos como manuais de produtos, livros de referência, propostas, jornais, catálogos e outros.
Respondendo ao Desafio da Informação
Quando se produz algum tipo de documentação, como manuais ou catálogos, o processo de autoria envolve tipicamente:
1. Criação, armazenamento, e gerenciamento da informação.
2. Recuperação, revisão, e organização
da informação.
3. Distribuição dos documentos.
4. Gerenciamento dos documentos através dos ciclos de revisão.
O maior desafio da criação de documentos
é achar a melhor solução que consolide os esforços
para criação da informação, agilizar o processo
de revisão, e produzir o maior diversidade de documentos em múltiplos
meios de saída, sem com isso aumentar os custos de produção.
Atualmente, as organizações se deparam
com o problema do gerenciamento de grandes volumes de documentos de forma
eficiente. Embora existam diversas soluções proprietárias
para criação, armazenamento e recuperação de
documentos, elas não suprem necessidades comuns do processamento
de documentos. Várias questões ainda persistem quando se
escolhe a ferramenta para o gerenciamento de docuemntos:
- Como fazer para vários autores trabalharem de maneira produtiva
sobre o mesmo documento simultaneamente ?
- Como as revisões dos documentos são armazenadas, aprovadas
e arquivadas ?
- Como são gerenciados os documentos que são muito grandes
para serem carregados completamente na memória ?
- Como são gerenciados os elos entre documentos a fim de assegurar
que eles sejam consistentes ?
- Como são gerenciados os elos entre os documentos e outros
tipos de dados, como ilustrações, gráficos, planilhas,
tabelas da base de dados e outros ?
- Como um documento pode ser distribuído simultaneamente em
diferentes formatos ?
Componentes são pedaços de informação. Eles podem ser elementos SGML, elementos HTML, grupos de elementos, outros tipos de arquivos como gráficos, vídeo e áudio, e mesmo documentos inteiros. Quando o usuário tem a possibilidade de gerenciar componentes, não apenas arquivos, ele pode:
- Trabalhar com componentes individuais ou uma coleção
de componentes para eliminar a interferência do trabalhos de outros
usuários.
- Interligar componentes entre si economizando tempo de localização
da informação desejada.
- Reconfigurar componentes existentes para construir novos documentos
para novos propósitos.
- Reusar componentes para eliminar a redundância e garantir a
validade do componente.
Autoria Cooperativa
Pela reorganização da maneira com que
a informação é criada e armazenada, uma empresa pode
estruturar os seus grupos de trabalho de autoria por assunto ou produto,
ao contrário de fazer a divisão por departamento ou tipo
de documento, eliminando a duplicação do esforço que
freqüentemente ocorre quando vários departamentos produzem
documentos com informações comuns. A autoria cooperativa,
por exemplo, só tem sucesso se houver um macanismo muito bem adequado
de compartilhamento dos documentos da base de dados, e técnicas
que auxiliam esse uso compartilhado (por exemplo, operações
de check-out e check-in).
Criando e Acessando as Informações
A abundância de aplicações de
autoria de documentos dá liberdade ao usuário para escolher
a melhor ferramenta para o seu trabalho, mas introduz novos problemas ao
câmbio de informações e consistência de dados.
Achando a Informação Necessária
Cada objeto de informação armazenado na base de dados tem o seu próprio conjunto de atributos definidos pelo usuário, tais como "assunto" e "data de expiração". O sistema de gerenciamento de documentos deve permitir a procura de componentes ou textos através desses atributos específicos ou pelo próprio conteúdo do documento (full text search).
Automatizando o Processo de Revisão
Em um ambiente de autoria complexo, centenas de autores
podem ser responsáveis pela atualização de milhares
de pedaços de informação que aparecem em dezenas de
documentos, e que podem ser publicados em diferentes instantes de tempo.
Construindo Documentos Virtuais
Os documentos do sistema GDOC são documentos virtuais porque não existem materializadaos na base de dados. Ao contrário, apenas na exibição do documento eles são construídos agregando-se suas partes (componentes) abaixo do documento raíz. Esta é a principal característica do modelo de documentos estruturados.
O mercado de produção de documentos eletrônicos é um dos mais complexos e voláteis mercados da indústria da computação. Uma grande quantidade de produtos e tecnologias variadas dominam o segmento, e como os computadores são vistos como ferramentas com capacidade de produzir algo mais do que documentos em papel, os produtores de software estão competindo entre si para integrar capacidades de autoria de documentos nos seus produtos. A variedade de abordagens é tão grande quanto incompatível. Alguns produtos consideram SGML como apenas uma das opções disponíveis, enquanto outros tomam SGML como o núcleo mais fundamental da sua tecnologia.
O Ciclo de Vida de um Documento
Existem várias maneiras diferentes de se descrever
o ciclo de vida de um documento. No que se refere a produção
de documentos eletrônicos, a seguinte classificação
é mais apropriada:
Pesquisa A aquisição de informação, incluindo
a interpretação da informação contida nos documentos.
Autoria Criação dos novos documentos.
Edição Revisão dos documentos com a finalidade
de fazê-los conformantes com uma certa estrutura e padrão
de conteúdo.
Formatação Revisão dos documentos a fim de deixá-los
coerentes com um certo padrão de apresentação ou codificação.
Publicação Transformação dos documentos
em uma forma de publicação específica (por exemplo:
papel, CD-ROM, Internet).
Entrega Distribuição dos documentos.
Armazenamento Nesta etapa os documentos são guardados em um
meio permanente de armazenamento.
Recuperação Localização e acesso dos documentos.
Visualização Leitura dos documentos.
Tabela 1. Etapas do ciclo de vida do documento
Ao contrário de outras visões para o ciclo de vida de documentos, a divisão nas nove etapas anteriores ajuda a diferenciar os passos que envolvem o processo automatizado daqueles que envolvem interações humanas com a informação contida nos documentos.
Os custos para geração de documentos crescem devido a inúmeras razões durante o processo de autoria. A análise de documentos, o desenvolvimento das definições de tipos de documentos (DTD), e os requisitos para novas ferramentas e treinamento, e a conversão dos dados legados são despesas significantes. A imposição de novos requisitos de controle de qualidade também aumenta os custos durante as fases de autoria e edição. Se os autores e editores não utilizarem ferramentas estruturadas, custos adicionais de conversão são acrescidos durante a fase de formatação do documento.
SGML dá maneiras melhores para publicar, entregar, armazenar, recuperar, visualizar, e interagir com os documentos. Alguns destes benefícios são relacionados a eficiência mecânica, outros com a interação humana. As escolhas feitas pela organização quando avaliam essas medidas tem grande impacto em como (e mesmo se) os benefícios pretendidos e alcançados são percebidos.
Os meta-dados (dados a respeito de outros dados) representam o grande peso levado em consideração por todas essas escolhas. A informação sozinha não possui grande valor pois não se consegue representar as características semânticas associadas a ela. Os meta-dados, ao contrário, fornece as informações necessárias ao computador para determinar como processar e como classificar o dado. As marcas de SGML dentro de uma instância de um documento são meta-dados. Elas descrevem o papel de cada elemento dentro do contexto do documento. Os atributos de cada uma das marcas são também considerados como meta-dados, pois eles descrevem características específicas do dado dentro da instância de SGML. Os títulos, nomes de autor, datas de publicação e numeração de índice são meta-dados, assim como anotações, bookmarks e outros recursos para navegação do documento.
Os consumidores da informação, por outro lado, desejam conjuntos de meta-dados mais ricos e mais complexos. Ao invés de ficarem satisfeitos com um DTD que reflete a estrutura genérica do documento, (como um capítulo ou um título), as marcas que capturam o significado do dado (por exemplo, propósito, escopo, código da peça, voltagem, autor, pacote de software, empresa) são preferidos. Conjuntos mais ricos de meta-dados permitem que a base de documentos adquira benefícios importantes quando são usadas ferramentas para recuperação que suportam pesquisas sensíveis ao contexto. Por fazer a recuperação mais simples e mais barata, SGML melhora a maneira com a qual as pessoas interagem com os documentos para enriquecer a colaboração, o aprendizado, a tomada de decisão, a inovação, e a aquisição e o desenvolvimento do conhecimento. Estes benefícios não podem ser medidos facilmente em termos estritamente financeiros, e desde que tal abordagem é mais cara do que o desenvolvimento e uso de um DTD orientado a estrutura, muitas organizações acham difícil justificar o custo adicional. Ao mesmo tempo, estas medidas de valor podem ser centrais no esforço de implementação em SGML e uma maior fonte de valores estratégicos. Como a densidade de informações sobre as transações de negócio continuam a crescer, as empresas que entregam informações mais ricas e úteis aos seus clientes estão mais aptas a perceber vantagens de competitividade.
Nos processos tradicionais de autoria e publicação, os vários passos envolvidos no ciclo de vida do documento eram finitos e discretos, e cada fase produzia um artefato que requeria a o envolvimento humano. Com a introdução da informática na automatização do processo de produção de documentos houve um aumento de eficiência significativo, mas o envolvimento humano continuou sendo exigido para integrar e interpretar pedaços individuais de informação através do ciclo de vida do documento. Embora as grandes quantidades de papel tenham sido substituídas por procedimentos automatizados, os diferentes formatos proprietários sempre oferecem barreiras ao intercâmbio e reuso de documentos. As abordagens de gerência de documentos baseadas em SGML, por outro lado, têm provado reduzir a necessidade de interação humana para executar transformação de dados e permite que estes se concentrem em atividades mais específicas, como a própria autoria. Os browsers de HTML integram uma vasta variedade de ferramentas para visualização, recuperação, navegação e coleção de dados. Isto ajuda a cruzar o abismo entre a visualização e a autoria e faz o ciclo de vida do documento verdadeiramente um ciclo.
Visualizadores e Browsers
Uma grande variedade de ferramentas pode ser usada na exibição de dados SGML. Geralmente, essas ferramentas são classificadas em três categorias: Leitores, Visualizadores e Browsers. Os leitores são usados para mostrar o conteúdo do documento sem qualquer interpretação ou processamento. Os visualizadores incluem capacidades de interpretação e processamento, embora utilizem um padrão de interpretação desenvolvido para suportar a impressão em papel ("hard copy"). Os browsers abandonam a metáfora de página e fornecem um ambiente de entrega eletrônica que é mais adequado com as características do meio de exibição digital. Além disso, os browsers são geralmente mais poderosos e melhor apropriados para explorar a informação contida no conteúdo do documento SGML, oferecendo navegação e recuperação. O seguinte esquema é usado para distinguir as categorias de leitores, visualizadores e browsers:
1. Leitores de texto
2. Visualizadores nativos de arquivos
3. Visualizadores de raster
4. Visualizadores de páginas
5. Browsers binários
6. Browsers de DTD fixos
7. Browsers de DTD arbitrários
Estas categorias de ferramentas são diferenciadas principalmente pela maneira com a qual a informação é codificada e entregue. O formato de entrega é fortemente relacionado com a riqueza dos meta-dados que o software pode usar e este relacionamento tem importantes implicações sobre o ciclo de vida do documento. Não é incomum existirem DTDs de SGML projetados de acordo com as características positivas ou deficiências de um visualizador ou browser em particular. Por causa disso, os meta-dados que a ferramenta de entrega suporta pode não só limitar as opções de interação humana e o retorno em potencial do investimento, mas também a validade dos documentos SGML.
Leitores de Texto
As ferramentas de leitura de texto simplesmente mostram
o conteúdo de um arquivo. Neste caso, o documento a ser exibido
deve ser convertido para um formato o qual o leitor seja capaz de manipular.Os
leitores dão uma visão WYSIWOD ("What You See Is What's On
Disk") dos dados. Se o arquivo contém apenas texto, o leitor mostra
o conteúdo de maneira correta. Se o arquivo contém dados
binários, os caracteres não-ASCII podem não ser corretamente
interpretados devido a diferenças de código entre diferentes
ambientes e com isso a visão do arquivo pode não ser homogênea.
Na maioria dos casos, quando dados SGML são mostrados usando leitores
de texto, as marcas de SGML são mostradas como parte do conteúdo,
e por isso os leitores de texto não são muito utilizados
devido a sua incapacidade de fornecer uma representação visual
formatada do documento. Um exemplo de produto desta categoria é
o programa Vernon Beurg's List. Embora não existam muitas implementações
de SGML que usam leitores de texto como ferramenta primária de entrega
de documentos, um filtro de arquivo muito simples pode ser usado para converter
um documento SGML em uma representação ASCII sem marcas.
Este filtro pode usar, por exemplo, quebras de linha, espaços, tabulações
e mesmo pontuação para a formatação visual,
semelhante as páginas "man" do sistema operacional Unix. Aquele
sistema é baseado em arquivos de texto que contém uma formatação
baseada em um conjunto simples de caracteres de controle e um estrutura
implícita.
Visualizadores Nativos de Arquivos
Esta classe de software de visualização
é usada para mostrar o conteúdo do documento no seu formato
nativo. O sistema de correio eletrônico cc:Mail [LOT 97], por exemplo,
usa visualizadores nativos de arquivos (Outside In e Quickview Plus) para
exibir arquivos anexados a mensagem. O Microsoft Windows 95 inclui um utilitário
chamado Quickview, que pode também ser usado para visualizar uma
variedade de formatos nativos de aqrquivo. Em alguns casos, os visualizadores
nativos de arquivos não existem como produtos independentes, mas
são disponíveis como funções dentro de outros
produtos de software. Outros exemplos de visualizadores nativos são
o Word Viewer e o Powerpoint Viewer [MIC 97]. Muitas vezes a qualidade
da visualização de um documento é limitada pelos visualizadores
nativos. Em alguns casos, a interpretação de códigos
de formatação proprietários é imperfeita e
não coincide com o formato do ambiente nativo de edição.
Além disso, o suporte para gráficos embutidos no conteúdo
do documento tende a ser problemático. Porém, para muitas
aplicações isto não chega a ser um problema, pois
o objetivo principal é a visualização dos documentos
legados a baixo custo.
Visualizadores Raster
Os visualizadores raster são projetados para
exibir imagens bitmap (formatos TIFF e CCITT Grupo 4). Esta característica
atribui aos visualizadores raster a capacidade de fornecer uma boa representação
da página do documento, preservando a sua apresentação,
tipografia, ilustrações e outros elementos visuais. Alguns
visualizadores raster são encontrados combinados com visualizadores
nativos de arquivos no mesmo produto, como por exemplo o AutoVue Professional
[CIM 97]. Os visualizadores raster são muito utilizados nas aplicações
de empresas de seguros, onde os sistemas de gerenciamento de documentos
oferecem uma alternativa de baixo custo ao roteamento de papel. Os visualizadores
raster são também usados em conjunto com ferramentas SGML
mais robustas para visualização de imagens que são
referenciadas em diferentes instâncias de documentos SGML. Entretanto,
os visualizadores raster não são uma alternativa eficiente
para a exibição de dados textuais. Por serem apenas uma coleção
de pontos, as imagens rasterizadas não são muito úteis
para pesquisa e recuperação. Para contornar este problema,
alguns sistemas híbridos usam uma abodagem que combina imagens e
texto, e na qual a técnica de OCR (Optical Character Recognition)
é usada para converter as imagens escaneadas em arquivos texto.
Visualizadores de Páginas
Adobe Acrobat, WordPerfect Envoy, e No Hands Common Ground são exemplos de produtos para visualização de documentos na forma de imagens de páginas. Todos esses produtos usam formatos proprietários de arquivos que armazenam as páginas do documento. Em muitos casos, estes arquivos são produzidos não por scanning do documento em papel, mas pela impressão do documento através de filtros especiais. Esta abordagem oferece uma exibição visual de qualidade superior a dos visualizadores nativos de arquivos, pois os visualizadores de páginas não se envolvem com a interpretação das imagens. Os visualizadores de páginas possuem algumas vantagens sobre a visualização pelos visualizadores raster. Além da capacidade de suportar marcação de texto e anotações, alguns visualizadores de páginas oferecem mecanismos para embutir hyperlinks nos documentos. Estes são normalmente usados para ligar partes do conteúdo entre si, como por exemplo ligar as entradas da tabela de conteúdos a sua localização no docuemento, ou então ligar termos do texto a suas entradas no glossário.
Browsers Binários
Os browsers binários usam formatos binários proprietários, assim como os visualizadores de páginas, mas eles não são limitados a representação de imagens de páginas. Alguns exemplos de produtos desta categoria são o Folio VIEWS, Lotus SmarText, HyperWriter, e o Microsoft Help. Alguns browsers binários podem ser usados na visualização de documentos SGML, mas para que isso possa ser realizado, o dado SGML deve primeiro ser convertido para um formato binário de arquivos não-SGML reconhecido pelo browser. Na medida que filtros são usados para fazer a conversão dos documentos, muitos browsers binários são mais propriamente considerados como ambientes de autoria do que ambientes para entrega de documentos.
Browsers de DTD Fixos
Um browser de DTD fixo é uma ferramenta que utiliza SGML como parte do produto mas apenas manipula um número reduzido de DTDs. Oracle Book, InfoAccess Guide, e Day and Zimmerman's Interactive Presentation Manager (DZIS-IPM) são exemplos de produtos pertencentes a esta categoria. O conhecido Netscape Navigator, o Microsoft Internet Explorer e o HotJava também pertencem a esta categoria. Estes três últimos produtos operam contra um conjunto finito de DTDs de HTML. Entretanto, cada um deles utiliza DTDs proprietários que, por sua vez, não são totalmente compatíveis entre si. O Netscape Navigator, por exemplo, usa uma versão proprietária de HTML conhecida popularmante como Netscape Extensions. A Microsoft, semelhantemente, implementa certas características na linguagem HTML que somente são interpretadas pelo Internet Explorer, e o HotJava da Sun Microsystems adota recursos adicionais na interpretação de applets Java que não são reconhecidos pela máquinas virtuais de Java dos browsers concorrentes.
Browsers de DTD Arbitrários
Estes browsers são projetados para interpretar
dados SGML conforme a filosofia de SGML. Por manipular DTDs arbitrários,
estes produtos não requerem que uma instância de um documento
seja reestruturada, convertida ou mapeada para um formato específico.
Estas ferramentas manipulam todos os meta-dados da instância do documento
SGML, e mantém uma clara separação entre a estrutura
do documento, o conteúdo, e a visualização. Exemplos
de produtos desta categoria são o Electronic Book Technologies DynaText
e o SoftQuad Panorama. O processo de edição dos documentos,
segundo a abordagem dos browsers de DTD arbitrários, é concentrado
no DTD usado para estruturar a instância do documento. Os estilos
de apresentação são definidos para cada tipo de elemento
do DTD e armazenados em arquivos separados, chamados "style sheets". Múltiplas
style sheets podem ser definidas para o mesmo DTD. Uma das funções
primárias do browser é reunir os dados do conteúdo
e estilos no momento da visualização, característica
que não está presente nos demais visualizadores ou browsers.
História da Tecnologia de Documentos (Enterprise Document Management
System)
Tecnologias Existentes Hoje no Mercado de Document Management
Utilidade dos Documentos
Office Documents
Manufacturing Documents
Financial Documents
Imaging Documents
A Proposta GDOC para um Gerenciador de Documentos Estruturados