UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICA
PROGRAMA DE POS-GRADUAÇÃO EM COMPUTAÇÃO
———————————————————
DEFESA DE DISSERTAÇÃO DE MESTRADO
Aluno: Miriam Pizzatto Colpo
Orientador: Profa. Dra. Renata de Matos Galante
Título: OPIS: Um Método para Identificação e Busca de Páginas-Objeto
Linha de Pesquisa: Modelagem Conceitual e Banco de Dados
Data: 30/05/2014
Hora: 14:00h
Local: Prédio 43413 – Auditório Inferior, Instituto de Informática
Banca Examinadora:
Prof. Dr. Carlos Alberto Heuser (UFRGS)
Profa. Dra. Carina Friedrich Dorneles (UFSC)
Profa. Dra. Viviane Pereira Moreira (UFRGS)
Presidente da Banca: Profa. Dra. Renata de Matos Galante
Resumo:
Páginas-objeto são páginas que representam exatamente um objeto inerente do mundo real na web, considerando um domínio específico, e a busca por essas páginas é chamada de busca-objeto. Os motores de busca convencionais (do Inglês, General Search Engine – GSE) conseguem responder, de forma satisfatória, à maioria das consultas realizadas na web atualmente, porém, isso dificilmente ocorre no caso de buscas-objeto, uma vez que, em geral, a quantidade de páginas-objeto recuperadas é bastante limitada. Essa dissertação propõe um novo método para a identificação e a busca de páginas-objeto, denominado OPIS (acrônimo para Object Page Identifying and Searching). O cerne do OPIS está na adoção de técnicas de realimentação de relevância e aprendizagem de máquina na tarefa de classificação baseada em conteúdo de páginas web. O OPIS não descarta o uso de GSEs e, ao invés disso, em sua etapa de busca, propõe a integração de um classificador a um GSE, adicionando uma etapa de filtragem ao processo de busca tradicional. Essa simples abordagem permite que somente páginas identificadas como páginas-objeto sejam recuperadas pelas consultas dos usuários, melhorando, assim, os resultados de buscas-objeto. Experimentos, considerando conjuntos de dados reais, mostram que o OPIS supera o baseline com ganho médio de 44% de precisão média.
Palavras-chave: Página-objeto, busca-objeto, realimentação de relevância, classificação de páginas web.
_____________
Divulgação PPGC