UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICA
PROGRAMA DE POS-GRADUAÇÃO EM COMPUTAÇÃO
DEFESA DE DISSERTAÇÃO DE MESTRADO
Aluno: Luis Henrique Gonçalves de Oliveira
Orientador: Prof. Dr. José Palazzo Moreira de Oliveira
Titulo: Extração de Metadados Utilizando uma Ontologia de Domínio Área de Pesquisa: Sistemas de Informação
Data: 27/11/2009
Hora: 09:30h
Local: Sala 112 – Prédio 43425
Banca Examinadora:
Prof. Dr. Leandro Krug Wives (UFRGS)
Profa. Dra. Renata de Matos Galante (UFRGS) Prof. Dr. Stanley Loh (UCPel)
Presidente da Banca: Prof. Dr. José Palazzo Moreira de Oliveira
Resumo: O objetivo da Web Semântica é prover a descrição semântica dos recursos atráves de metadados processáveis por máquinas. Essa camada semântica estende a Web já existente agregando facilidades para a execução de pesquisas, filtragem, resumo ou intercâmbio de conhecimento de maior complexidade. Dentro deste contexto, as bibliotecas digitadas são as aplicações que estão iniciando o processo de agregar anotações semânticas as informações disponíveis na Web. Uma biblioteca digital pode ser definida como uma coleção de recursos digitais selecionados segundo critérios determinados, com alguma organização lógica e de modo acessível para recuperação distribuída em rede. Para facilitar o processo de recuperação é utilizado metadados para descrever o conteúdo armazenado. Porém, a geração manual de metadados é uma tarefa complexa e que demanda tempo, além de sujeita a falhas. Portanto a extração automática ou semi-automática desses metadados seria de grande ajuda para os autores, subtraindo uma tarefa do processo de publicação de documentos.
A pesquisa realizada na dissertação visou abordar esse problema, desenvolvendo um extrator de metadados que popula uma ontologia de documentos e classifica o documento segundo uma hierarquia pré-definida.
A ontologia de documentos OntoDoc foi criada para armazenar a disponibilizar os metadados extraídos, assim como a classificação obtida para o documento. A implementação realizada focou-se em artigos científicos de Ciência da Computação e utilizou a classificação das áreas da ACM na tarefa de classificação dos documentos. Um conjunto de exemplares retirados da Biblioteca Digital da ACM foi gerado para a realização do treinamento e de experimentos sobre a implementação.
As principais contribuições desta pesquisa são o modelo de extração de metadados e classificação de documentos de forma integrada e a descrição dos documentos através de metadados armazenados em um ontologia, a OntoDoc.
Palavras-Chave: Extração de metadados, classificação de documentos, ontologia.