Publicado em: 01/07/2013
Proposta de Tese em Banco de dados
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICA
PROGRAMA DE POS-GRADUAÇÃO EM COMPUTAÇÃO
———————————————————
DEFESA DE PROPOSTA DE TESE
Aluno: Eduardo Nunes Borges
Orientador: Profa. Dra. Renata de Matos Galante
Titulo: Um Método para Deduplicação de Metadados Bibliográficos baseado no Empilhamento de Classificadores
Linha de Pesquisa: Modelagem Conceitual e Bancos de Dados
Data: 05/07/2013
Hora: 14h
Local: Sala 215. Prédio 43412 – Instituto de Informática
Banca Examinadora:
Profa. Dra. Carina Friedrich Dorneles (UFSC)
Prof. Dr. Ricardo da Silva Torres (UNICAMP)
Profa. Dra. Viviane Pereira Moreira (UFRGS)
Presidente da Banca: Profa. Dra. Renata de Matos Galante
Resumo: Metadados bibliográficos duplicados são registros que correspondem a referências bibliográficas semanticamente equivalentes, ou seja, que descrevam a mesma publicação. Identificar metadados bibliográficos duplicados em uma ou mais bibliotecas digitais é uma tarefa essencial para garantir a qualidade de alguns serviços como busca, navegação e recomendação de conteúdo. Embora diversos padrões de metadados tenham sido propostos, eles não resolvem totalmente os problemas de interoperabilidade porque mesmo que exista um mapeamento entre diferentes esquemas de metadados, podem existir variações na representação do conteúdo.
Grande parte dos trabalhos propostos para identificar duplicatas aplica uma ou mais funções sobre o conteúdo de determinados campos no intuito de captar a similaridade entre os registros. Entretanto, é necessário escolher um limiar que defina se dois registros são suficientemente similares para serem considerados semanticamente equivalentes ou duplicados. Trabalhos mais recentes atacam a deduplicação de registros como um problema de classificação de dados, em que um modelo preditivo é treinado para estimar a que objeto do mundo real um registro faz referência.
O objetivo principal da tese resultante desta proposta é o desenvolvimento de um método efetivo e automático para identificar metadados bibliográficos duplicados, combinando o aprendizado de múltiplos classificadores supervisionados, sem a necessidade de intervenção humana na definição de limiares de similaridade. Sobre o conjunto de treinamento são aplicadas funções de similaridade desenvolvidas especificamente para o contexto de bibliotecas digitais e com baixo custo computacional. Os escores produzidos pelas funções são utilizados para treinar múltiplos modelos de classificação heterogêneos, ou seja, a partir de algoritmos de diversos tipos: baseados em árvores, regras, redes neurais artificiais, probabilísticos, etc. Os classificadores aprendidos são combinados através da estratégia empilhamento visando potencializar o resultado da deduplicação a partir do conhecimento heterogêneo adquirido por cada algoritmo de aprendizagem. O modelo de classificação final é aplicado aos pares candidatos ao casamento retornados por uma estratégia de blocagem de dois níveis bastante eficiente.
A solução proposta é baseada na hipótese de que o empilhamento de classificadores supervisionados pode aumentar a qualidade da deduplicação quando comparado a outras estratégias de combinação como a escolha do melhor classificador ou o voto da maioria. Como objetivo secundário, a tese visa esclarecer o ganho real do empilhamento frente às outras abordagens citadas. As métricas de avaliação de modelos de classificação são aplicadas diretamente como medida de qualidade de processo de deduplicação, comparando os resultados alcançados com métodos estado da arte.
Palavras-chave: deduplicação, casamento aproximado, similaridade, aprendizado supervisionado, empilhamento de classificadores.
Método de Bayes, Segmentação de pele, Segmentação de lábios, Operadores Morfológicos, Cadeia de Markov Ocultas.