Português English
Contato
Publicado em: 09/12/2013

Dissertação de Mestrado em Reconhecimento de Padrões

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO
———————————————————
DEFESA DE DISSERTAÇÃO DE MESTRADO
Aluno: Sérgio Montazzolli Silva
Orientador: Prof. Dr.Dante Augusto Couto Barone
Coorientador: Prof. Dr. Andre Gustavo Adami
Título: Redução de Dimensionalidade Aplicada à Diarização de Locutor
Linha de Pesquisa: Reconhecimento de Padrões
Data:  16/12/2013
Hora:  9h
Local:  Prédio 43413 – sala Auditório Inferior, Instituto de Informática
Banca Examinadora:
Prof. Dr. Rubem Dutra Ribeiro Fagundes  (IPA)
Prof. Dr. Altamiro Amadeu Susin (UFRGS)
Prof. Dr. Claudio Rosito Jung (UFRGS)
Presidente da Banca: Prof. Dr. Dante Augusto Couto Barone
Resumo:
Atualmente existe uma grande quantidade de dados multimídia sendo geradas todos os dias.
Estes dados são oriundos de diversas fontes, como transmissões de rádio ou televisão, gravações de palestras, encontros, conversas telefônicas,
vídeos e fotos capturados por celular, entre outros. Com isto, nos últimos anos o interesse pela transcrição de dados multimídia tem crescido, onde,
no processamento de voz, podemos destacar as áreas de Reconhecimento de Locutor, Reconhecimento de Fala, Diarização de Locutor e Rastreamento de Locutores.
O desenvolvimento destas áreas vem sendo impulsionado e direcionado pelo NIST, que periodicamente realiza avaliações sobre o estado-da-arte. Desde 2000, a tarefa de Diarização de
Locutor tem se destacado como uma das principáis frentes de pesquisa em transcrição de dados de voz, tendo sido avaliada pelo NIST por diversas vezes na última década.
O objetivo desta tarefa é encontrar o número de locutores presentes em um áudio, e rotular seus respectivos trechos de fala, sem que nenhuma informação tenha sido previamente fornecida.
Em outras palavras, costuma-se dizer que o objetivo é responder a questão “Quem falou e quando?”. Um dos grandes problemas nesta área é se conseguir obter um bom modelo para cada
locutor presente no áudio, dada a pouca quantidade de informações e a alta dimensionalidade dos dados. Neste trabalho, além da criação de um Sistema de Diarização de Locutor,
iremos tratar este problema mediante à redução de dimensionalidade através de análises estatísticas. Usaremos a Análise de Componentes Principais, a Análise de Discriminantes Lineares e a
recém apresentada Análise de Semi-Discriminantes Lineares. Esta última utiliza um método de inicialização estático, iremos propor o uso de um método dinâmico, através da detecção de pontos de troca de locutor.
Também investigaremos o comportamento destas análises sob o uso simultâneo de múltiplas parametrizações de curto prazo do sinal acústico. Os resultados obtidos mostram que é possível
preservar – ou até melhorar – o desempenho do sistema, mesmo reduzindo substâncialmente o número de dimensões. Isto torna mais rápida a execução de algoritmos de Aprendizagem de Máquina e
reduz a quantidade de memória necessária para armazenar os dados.
Palavras-Chave: Diarização de Locutor, Análise de Discriminantes, Redução de Dimensionalidade

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO
———————————————————
DEFESA DE DISSERTAÇÃO DE MESTRADO

Aluno: Sérgio Montazzolli Silva
Orientador: Prof. Dr.Dante Augusto Couto Barone
Coorientador: Prof. Dr. Andre Gustavo Adami
Título: Redução de Dimensionalidade Aplicada à Diarização de Locutor 
Linha de Pesquisa: Reconhecimento de Padrões

Data:  16/12/2013
Hora:  9h
Local:  Prédio 43413 – sala Auditório Inferior, Instituto de Informática

Banca Examinadora:
Prof. Dr. Rubem Dutra Ribeiro Fagundes  (IPA)
Prof. Dr. Altamiro Amadeu Susin (UFRGS)
Prof. Dr. Claudio Rosito Jung (UFRGS)

Presidente da Banca: Prof. Dr. Dante Augusto Couto Barone

Resumo:
Atualmente existe uma grande quantidade de dados multimídia sendo geradas todos os dias. Estes dados são oriundos de diversas fontes, como transmissões de rádio ou televisão, gravações de palestras, encontros, conversas telefônicas, vídeos e fotos capturados por celular, entre outros. Com isto, nos últimos anos o interesse pela transcrição de dados multimídia tem crescido, onde, no processamento de voz, podemos destacar as áreas de Reconhecimento de Locutor, Reconhecimento de Fala, Diarização de Locutor e Rastreamento de Locutores. O desenvolvimento destas áreas vem sendo impulsionado e direcionado pelo NIST, que periodicamente realiza avaliações sobre o estado-da-arte. Desde 2000, a tarefa de Diarização de Locutor tem se destacado como uma das principáis frentes de pesquisa em transcrição de dados de voz, tendo sido avaliada pelo NIST por diversas vezes na última década. O objetivo desta tarefa é encontrar o número de locutores presentes em um áudio, e rotular seus respectivos trechos de fala, sem que nenhuma informação tenha sido previamente fornecida. Em outras palavras, costuma-se dizer que o objetivo é responder a questão “Quem falou e quando?”. Um dos grandes problemas nesta área é se conseguir obter um bom modelo para cada locutor presente no áudio, dada a pouca quantidade de informações e a alta dimensionalidade dos dados. Neste trabalho, além da criação de um Sistema de Diarização de Locutor, iremos tratar este problema mediante à redução de dimensionalidade através de análises estatísticas. Usaremos a Análise de Componentes Principais, a Análise de Discriminantes Lineares e a recém apresentada Análise de Semi-Discriminantes Lineares. Esta última utiliza um método de inicialização estático, iremos propor o uso de um método dinâmico, através da detecção de pontos de troca de locutor. Também investigaremos o comportamento destas análises sob o uso simultâneo de múltiplas parametrizações de curto prazo do sinal acústico. Os resultados obtidos mostram que é possível preservar – ou até melhorar – o desempenho do sistema, mesmo reduzindo substâncialmente o número de dimensões. Isto torna mais rápida a execução de algoritmos de Aprendizagem de Máquina e reduz a quantidade de memória necessária para armazenar os dados. 

Palavras-Chave: Diarização de Locutor, Análise de Discriminantes, Redução de Dimensionalidade