UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO
———————————————-
DEFESA DE PROPOSTA DE TESE
Aluno: Maurício Coutinho Moraes
Orientador: Carlos Alberto Heuser
Co-orientador: Viviane Pereira Moreira
Título: Um Método Não-supervisionado de Construção de Bases de Treinamento para Classificadores Supervisionados de Formulários
Linha de Pesquisa: Modelagem Conceitual e Bancos de Dados
Data: 18/05/2011
Horário: 16h30
Local: Sala 220 (S. Conselhos) – Prédio 43.412(65)
Banca Examinadora:
Profa. Dra. Renata de Matos Galante (UFRGS)
Prof. Dr. Denilson Barbosa (Universidade de Alberta/Canadá)
Profa. Dra. Juliana Freire (Universidade de Utah/USA)
Presidente da Banca: Carlos Alberto Heuser
Resumo:
A identificação de formulários de consulta naWeb é a primeira etapa do processo de coleta de informações contidas em bancos de dados on-line, que pode ser efetuado tanto por usuários em busca de informações sobre um domínio específico, quanto por motores de busca verticais. Este processo, porém, é muito custoso para ser executado manualmente, além de ser de difícil automatização. Esta proposta de tese apresenta o estágio atual de desenvolvimento de um método automático de coleta e classificação de formulários de domínio específico na Web. Tal método é contextualizado junto ao estado-da-arte na literatura científica relacionada. A principal vantagem entre o método proposto e seus trabalhos relacionados é que ele demanda pouco esforço do especialista humano, o que leva a uma maior escalabilidade. Além do método, são apresentados os resultados de experimentos preliminares e o plano de desenvolvimento da tese que deve resultar desta proposta. A tese deverá ser desenvolvida ao longo dos próximos dois anos.
Palavras-chave: Crawling, Web Profunda, Web Oculta, Coleta de Formulários, Classificação de Formulários, Construção Automática de Bases de Treinamento.
Abstract
An Unsupervised Method to Build Training Bases for Supervised Form Classifiers. The identification of search forms on the Web is the first step of the process of collecting data from on-line databases. This process can be executed by users looking for domain-specific information and by vertical search-engines which focus on specific topics. This task, however, is difficult to execute manually and it also difficult to automatize. This thesis proposal presents the current stage of development of a method for collecting and classifying domain-specific forms on the Web. The method is contextualized among the state-of-the-art in the related scientific literature. The main advantage of the proposed method compared to related work is that it requires little effort from the human expert, which brings more scalability. This proposal also presents results from preliminary experiments, together with the plan to develop the thesis. The thesis will be developed in the next two years.
Keywords: Crawling, Deep Web, Hidden Web, Form collection, Form Classification, Automatic building of forms training bases.