Dissertação de Eduardo Gabriel Côrtes

Contato

Detalhes do Evento

Date: 25/02/2019 16:00 – 18:00
Categorias: Defesas, Dissertação de Mestrado

Aluno: Eduardo Gabriel Côrtes
Orientador: Prof. Dr. Dante Augusto Couto Barone (por videoconferência)

Título: Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering
Linha de Pesquisa: Inteligência Artificial

Data: 25/02/2019
Hora: 16h
Local: AUD-1 (Auditório 1) do Prédio 43412 do Instituto de Informática da UFRGS

Banca Examinadora:
Profª. Drª. Viviane Pereira Moreira (UFRGS)
Prof. Dr. Leandro Krug Wives (UFRGS)
Profª. Drª. Silvia Maria Wanderley Moraes (PUCRS)

Presidente da Banca: Prof. Dr. Dante Augusto Couto Barone

Resumo: Sistemas de Question Answering é um campo de pesquisa das áreas de Recuperação de Informações e Processamento de Linguagem Natural que propõe, de forma autônoma, responder perguntas feitas por humanos em linguagem natural. Uma das principais etapas destes sistemas é a classificação de perguntas, em que o sistema busca identificar o tipo de resposta que a pergunta refere-se, facilitando a localização de informações específicas em sua base de dados. Comumente, modelos supervisionados de aprendizado de máquina são empregados nesta tarefa, em que o texto da pergunta é representado através de um vetor de características, como Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF) ou word embeddings. Entretanto, a qualidade dos resultados produzidos por estes modelos são dependentes da existência de um grande conjunto de dados anotados para o treinamento, como também recursos computacionais e linguísticos externos. Estes recursos muitas vezes não estão acessíveis, devido a intensos esforços manuais na anotação de conjunto de dados ou pela falta de disponibilidade de recursos de qualidade para línguas não inglesa. Normalmente, word embedding apresenta um melhor desempenho em pequenos conjuntos de treinamento, enquanto que Bag-of-words e TF-IDF apresentam melhores resultados em um grande conjunto. Assim, este trabalho propõe uma abordagem híbrida para representação de texto que combina TF-IDF e Word2vec na tarefa de classificação de perguntas para sistemas de QA, de modo a prover o tipo de resposta para perguntas em texto, utilizando diferentes tamanhos de conjuntos de treinamento com também sem a utilização de recursos computacionais e linguísticos complexos de serem adquiridos. Os experimentos realizados utilizando dados de testes em Português, e variando o tamanho do conjunto de dados para treinamento, mostram estatisticamente que o modelo proposto atinge resultados robustos aplicado em diferentes modelos supervisionados.

Palavra-chave: Classificação de texto, representação de texto, aprendizado de máquina e word2vec.