UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO
———————————————-
DEFESA DE PROPOSTA DE TESE
Aluno: Guilherme Dal Bianco
Orientadora: Profa. Dra. Renata de Matos Galante
Coorientador: Prof. Dr. Carlos Alberto Heuser
Título: Uma Metodologia para Deduplicação de Grandes Bases de Dados
Linha de Pesquisa: Banco de dados
Data: 17/05/2012
Horário: 14h
Local: Sala 220 (conselhos). Prédio 43412 – Instituto de Informática
Banca Examinadora:
Prof. Dr. Leandro Krug Wives (UFRGS)
Prof. Dr. Marcos André Gonçalves (UFMG) Por videoconferência
Prof. Dr. Ricardo da Silva Torres (UNICAMP)
Presidente da Banca: Profa. Dra. Renata de Matos Galante
Resumo: A deduplicação tem como objetivo identificar quais entidades correspondem a um mesmo objeto. O processo de identificação de duplicatas é fundamental para a integração de dados, especialmente fomentada pela avalanche de fontes de dados oferecidas na Web. Entretanto, a deduplicação tradicionalmente depende da varredura completa da base de dados para identificar os pares duplicados. Tal análise, torna-se extremamente complexa quando o volume de dados é acentuado, especialmente quando se deseja obter uma alta eficácia com uma reduzida intervenção de um usuário não especialista. Esta proposta de tese apresenta o estágio atual de desenvolvimento de uma metodologia para deduplicação de grandes bases de dados cujo objetivo é reduzir a intervenção do usuário sem a depreciação da eficácia. A metodologia é posicionada junto ao estado-da-arte da bibliografia relacionada. A lacuna que esta proposta de tese visa alcançar é a deduplicação de grandes volumes de dados sem a necessidade de uma intervenção direta do usuário, ou seja, o usuário deve intervir somente através da rotulação de um conjunto de pares, selecionados de forma automática. Desta forma, o usuário é liberado da tarefa de conhecer o conjunto de dados e o método de deduplicação para a calibração dos diferentes limiares para que se obtenha a eficácia desejada. Juntamente com a metodologia proposta, são apresentados os resultados experimentais e o planejamento a ser desenvolvido durante a tese que irá resultar desta proposta.
Palavras-chave: Integração de dados, Deduplicação, Deduplicação por assinatura.