Português English
Contato
Publicado em: 26/05/2014

Dissertação de Mestrado em Modelagem Conceitual e Banco de Dados

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INSTITUTO DE INFORMÁTICA

PROGRAMA DE POS-GRADUAÇÃO EM COMPUTAÇÃO

———————————————————

DEFESA DE DISSERTAÇÃO DE MESTRADO

 

Aluno: Miriam Pizzatto Colpo

Orientador: Profa. Dra. Renata de Matos Galante

Título: OPIS: Um Método para Identificação e Busca de Páginas-Objeto

 

Linha de Pesquisa: Modelagem Conceitual e Banco de Dados

Data: 30/05/2014

Hora: 14:00h

Local: Prédio 43413 – Auditório Inferior, Instituto de Informática

 

Banca Examinadora:

Prof. Dr. Carlos Alberto Heuser (UFRGS)

Profa. Dra. Carina Friedrich Dorneles (UFSC)

Profa. Dra. Viviane Pereira Moreira (UFRGS)

 

Presidente da Banca: Profa. Dra. Renata de Matos Galante

 

Resumo:

Páginas-objeto são páginas que representam exatamente um objeto inerente do mundo real na web, considerando um domínio específico, e a busca por essas páginas é chamada de busca-objeto. Os motores de busca convencionais (do Inglês, General Search Engine – GSE) conseguem responder, de forma satisfatória, à maioria das consultas realizadas na web atualmente, porém, isso dificilmente ocorre no caso de buscas-objeto, uma vez que, em geral, a quantidade de páginas-objeto recuperadas é bastante limitada. Essa dissertação propõe um novo método para a identificação e a busca de páginas-objeto, denominado OPIS (acrônimo para Object Page Identifying and Searching). O cerne do OPIS está na adoção de técnicas de realimentação de relevância e aprendizagem de máquina na tarefa de classificação baseada em conteúdo de páginas web. O OPIS não descarta o uso de GSEs e, ao invés disso, em sua etapa de busca, propõe a integração de um classificador a um GSE, adicionando uma etapa de filtragem ao processo de busca tradicional. Essa simples abordagem permite que somente páginas identificadas como páginas-objeto sejam recuperadas pelas consultas dos usuários, melhorando, assim, os resultados de buscas-objeto. Experimentos, considerando conjuntos de dados reais, mostram que o OPIS supera o baseline com ganho médio de 44% de precisão média.

 

Palavras-chave:  Página-objeto, busca-objeto, realimentação de relevância, classificação de páginas web.

 

_____________

Divulgação PPGC