Português English
Contato
Publicado em: 27/05/2014

Dissertação de Mestrado em Sistemas de Informação

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INSTITUTO DE INFORMÁTICA

PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO

———————————————————

DEFESA DE DISSERTAÇÃO DE MESTRADO

Aluno: Alan Pinto Souza

Orientador: Prof. Dr. Carlos Alberto Heuser

Coorientadora: Profa. Dra. Viviane Pereira Moreira


Título: Metadata extraction from Scientific Documents in PDF

Linha de Pesquisa: Sistemas de Informação


Data: 02/06/2014

Hora: 10:30h

Local: Prédio 43413- Auditório Inferior, Instituto de Informática

Banca Examinadora:

Prof. Dr. Leandro Krug Wives (UFRGS)

Profa. Dra. Renata de Matos Galante (UFRGS)

Prof. Dr. Ronaldo dos Santos Mello (UFSC)

Presidente da Banca:*Prof. Dr. Carlos Alberto Heuser

Resumo:

A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão per-
mite a geracão de metadados que são inclusos dentro do documento. Porém, muitos
autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este
fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração
automática de metadados foi classificada como uma das tarefas mais desafiadoras na área
de engenharia de documentos. Este trabalho propõe Artic, um método para extração de
metadados de artigos científicos que aplica um modelo probabilístico em duas camadas
baseado em Conditional Random Fields. A primeira camada visa identificar as secões
principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o
metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai
título, nome dos autores, emails, afiliações e informações sobre a conferência onde
o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os
resultados superaram a solução estado-da-arte usada como baseline, atingindo uma
precisão acima de 99%.

Palavras-chave: Extração de Metadados, PDF, Aprendizagem de Máquina.

_____________

Divulgação PPGC