Português English
Contato

Dissertação de Mestrado de Hortênsia Costa de Barcelos


Detalhes do Evento


Aluna: Hortênsia Costa de Barcelos
Orientadora: Profª. Drª. Viviane Pereira Moreira
Coorientadora: Profª. Drª. Mariana Recamonde Mendoza Guerreiro

Título: Detecção e Fusão de Atributos Duplicados para Mineração de Dados
Linha de Pesquisa:
Mineração, Integração e Análise de Dados

Data: 30/10/2020
Horário:
09h
Esta banca ocorreu, excepcionalmente, de forma totalmente remota. Sala virtual pode ser acessada através do link: https://mconf.ufrgs.br/webconf/00149248.

Banca Examinadora:
– Profª. Drª. Helena Graziottin Ribeiro (UCS – por videoconferência)
– Prof. Dr. Leandro Krug Wives (UFRGS – por videoconferência)
– Profª. Drª. Renata de Matos Galante (UFRGS – por videoconferência)

Presidente da Banca: Profª. Drª. Viviane Pereira Moreira

Resumo: Atributos duplicados são um problema recorrente em várias bases de dados geradas de fontes de dados similares e decentralizadas. Esta duplicação de atributos resulta em grande dimensionalidade sem aumentar proporcionalmente o valor da informação contida na base de dados. Buscando lidar com esta questão, o presente trabalho procurou aplicar métodos de identificação e fusão de atributos duplicados em conjuntos de dados utilizando algoritmos de aprendizado de máquina para tornar esse processo menos custoso a um especialista. O objetivo foi avaliar a hipótese de que a fusão de atributos duplicados pode melhorar o poder preditivo dos modelos enquanto reduz o seu tempo de treinamento. Um método foi proposto para detecção de atributos duplicados usando classificadores para rotularem pares de atributos como duplicados ou não. Esse método tem como base evidências extraídas da base de dados sendo analisada. As evidências indicam a semelhança entre os atributos de cada par e são separadas em três categorias: baseadas nos nomes dos atributos, no seus conjuntos de valores e na coocorrência de cada par. Ao tornar essa fase de identificação automática, o trabalho dos especialistas se torna menos custoso, visto que é necessário rotular manualmente um conjunto pequeno de pares de atributos para o modelo conseguir rotular os demais. Após a fase de detecção, um método de fusão das duplicatas também foi proposto, de forma que as informações presentes nos atributos duplicados fossem mantidos em um único atributo. Uma avaliação comparando a detecção de duplicados com um ground truth gerado manualmente obteve F1 de 0,91. Em seguida, os efeitos da fusão foram medidos em uma tarefa de predição de mortalidade. Assim, observamos que embora nosso modelo tenha sido bem sucedido na tarefa de encontrar pares de atributos duplicados, a fusão destes atributos de acordo com a estratégia implementada não foi efetiva na melhoria da qualidade da classificação. Ainda que tenha sido constatada uma redução do tempo de treinamento com o método de fusão de atributos, a mesma não foi compensada pelo ganho de qualidade na tarefa de classificação. Concluímos que a hipótese investigada não é válida e uma análise foi feita com relação aos pontos a serem aprimorados na fase de detecção de atributos duplicados, que se mostrou como o principal gargalo a ser tratado.

Palavras-chave: Fusão de Atributos. Deduplicação. Mineração de Dados