UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO
———————————————-
DEFESA DE TESE DE DOUTORADO
Aluna: Solange de Lurdes Pertile
Orientadora: Profª. Drª. Viviane Pereira Moreira
Título: Combinando Métricas Baseadas em Conteúdo e em Referências para a Detecção de Plágio em Artigos Científicos
Linha de Pesquisa: Modelagem Conceitual e Banco de Dados
Data: 15/07/2015
Horário: 10:30
Local: Prédio 43413 – Auditório Inferior, Instituto de Informática.
Banca Examinadora:
Prof. Dr. Leandro Krug Wives (UFRGS)
Profª. Drª. Maria Jose Bocorny Finatto (UFRGS-Instituto de Letras)
Profª. Drª. Vera Lúcia Strube de Lima (PUCRS)
Presidente da Banca: Profª. Drª. Viviane Pereira Moreira
Resumo: A grande quantidade de artigos científicos disponíveis on-line faz com que seja mais fácil para estudantes e pesquisadores reutilizarem texto de outros autores, e torna mais difícil a verificação da originalidade de um determinado texto. Reutilizar texto sem creditar a fonte é considerado plágio. Uma série de estudos relatam a alta prevalência de plágio no meio acadêmico. Como consequência, inúmeras instituições e pesquisadores têm se dedicado à elaboração de sistemas para automatizar o processo de verificação de plágio. A maioria dos trabalhos existentes baseia-se na análise da similaridade do conteúdo textual dos documentos para avaliar a existência de plágio. Mais recentemente, foram propostas métricas de similaridade que desconsideram o texto e analisam apenas as citações e/ou referências bibliográficas compartilhadas entre documentos. Esta tese foca no problema da detecção de reuso de texto em artigos científicos. Neste contexto, a solução proposta é baseada na hipótese de que a combinação de métricas de similaridade de conteúdo e de citações/referências pode melhorar a qualidade da detecção de plágio. Duas formas de combinação são propostas: (i) os escores produzidos pelas métricas são utilizados para ranqueamento dos pares de documentos e (ii) os escores são utilizados para construir vetores de características que serão usados por algoritmos de aprendizagem de máquina para classificar os documentos. Realizamos experimentos com conjuntos de dados reais de artigos científicos, os quais mostraram que a combinação das métricas pode ser benéfica quando combinadas usando aprendizagem de máquina.