UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO
———————————————————
DEFESA DE DISSERTAÇÃO DE MESTRADO
Aluno: Alan Pinto Souza
Orientador: Prof. Dr. Carlos Alberto Heuser
Coorientadora: Profa. Dra. Viviane Pereira Moreira
Título: Metadata extraction from Scientific Documents in PDF
Linha de Pesquisa: Sistemas de Informação
Data: 02/06/2014
Hora: 10:30h
Local: Prédio 43413- Auditório Inferior, Instituto de Informática
Banca Examinadora:
Prof. Dr. Leandro Krug Wives (UFRGS)
Profa. Dra. Renata de Matos Galante (UFRGS)
Prof. Dr. Ronaldo dos Santos Mello (UFSC)
Presidente da Banca:*Prof. Dr. Carlos Alberto Heuser
Resumo:
A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão per-
mite a geracão de metadados que são inclusos dentro do documento. Porém, muitos
autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este
fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração
automática de metadados foi classificada como uma das tarefas mais desafiadoras na área
de engenharia de documentos. Este trabalho propõe Artic, um método para extração de
metadados de artigos científicos que aplica um modelo probabilístico em duas camadas
baseado em Conditional Random Fields. A primeira camada visa identificar as secões
principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o
metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai
título, nome dos autores, emails, afiliações e informações sobre a conferência onde
o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os
resultados superaram a solução estado-da-arte usada como baseline, atingindo uma
precisão acima de 99%.
Palavras-chave: Extração de Metadados, PDF, Aprendizagem de Máquina.
_____________
Divulgação PPGC