Descrição: C:\Users\Viviane\Documents\HomePage\marca principal15.png

Viviane P. Moreira – Pesquisa

 

Faço parte do Grupo de Sistemas de Informações da UFRGS.

Áreas de Interesse

Minhas áreas de pesquisa são: Recuperação de InformaçõesBancos de Dados, Mineração de dados  e a integração entre essas áreas. Mais especificamente, os tópicos em que estou trabalhando atualmente são:

·         Casamento de dados multilíngues

·         Mineração de Opiniões

·         Identificação de Perfis de Autoria

 

Trabalhos Anteriores:

Em Recuperação de Informações, meu trabalho concentrou-se em Recuperação de Informações Multilíngües, que é a recuperação de documentos em um idioma em resposta a uma consulta em outro idioma, por exemplo, a recuperação de um documento em inglês a partir de uma consulta em português. 

Também pesquisei bastante sobre  Algoritmos de Stemming para a língua portuguesa. Como parte do meu doutorado, desenvolvi o "Removedor de Sufixos da Língua Portuguesa" RSLP Stemmer, que está disponível gratuitamente.

Em Bancos de Dados, minha pesquisa concentrou-se em Funções de Similaridade e como avaliar seus desempenhos.

Em Detecção de Plágio, focamos na combinação de técnicas que avaliam o texto e as citações dos documentos.

Para saber mais sobre meu trabalho, por favor, acesse minhas publicações.

 

Projetos de Pesquisa

2012 - 2015

Multi-Match – casamento de dados multilíngues
Informações multilíngues estão disponíveis nas mais diversas fontes e formatos. Este fato tem motivado pesquisas que visam encontrar mapeamentos entre dados representados em idiomas diferentes nas áreas de Recuperação de Informações, Processamento de Linguagem Natural, e mais recentemente, Banco de Dados. Este projeto tem como foco a investigação e proposta de novos métodos para o casamento (matching) de dados multilíngues em diferentes cenários e contempla três objetivos específicos: (i) coleta de corpora paralelos na web, (ii) determinação de correspondências multilíngues na Wikipédia e (iii) detecção de plágio multilíngue. Os resultados deste projeto representarão contribuições para as áreas de Recuperação de Informações e Processamento de Linguagem Natural através do fornecimento de corpora paralelos que são recursos muito importantes para o avanço dessas áreas. No contexto de Banco de Dados, pretende-se propor métodos para a determinação de casamentos multilíngues utilizando dados estruturados. A grande disponibilidade de dados multilíngues também facilita o plágio. A detecção de plágio multilíngue também será alvo de estudo neste projeto. Neste tema, nosso principal diferencial será a inclusão de análise de citações e referências que é fundamental para a confirmação do plágio.
Financiado pelo CNPq (Edital Universal)

2010 - presente

Cameleon
O objetivo deste projeto é investigar, propor, aplicar e validar técnicas automáticas e de colaboração para o desenvolvimento de recursos lexicais e ontológicos que podem ser úteis no contexto de aplicações multilingues, particularmente para francês, português e inglês.
Página do projeto: http://cameleon.imag.fr
Financiado pela CAPES
Coordenado por Aline Villavicencio

2010 - 2012

DP-ML Detecção de Plágio Multilíngüe
Com a popularização da Internet, milhares de pessoas diariamente ganham acesso a informações das mais variadas áreas do conhecimento. Com isso, o número de documentos digitais aumentou de forma significativa. Entretanto, apesar de fornecer inúmeros benefícios, a Internet pode ser considerada um dos meios mais fáceis e propícios para a realização de atos ilícitos como, por exemplo, o plágio. Plágio é o ato de apresentar, sem a devida referência, uma obra de qualquer espécie. Pesquisas recentes mostram que este tipo de ofensa ocorre cada vez com mais frequência no meio acadêmico. Por esta razão, técnicas para detecção automática de plágio começaram a ser desenvolvidas. O foco deste projeto é na detecção de plágio multilingue em documentos textuais. Neste tipo de plágio, o conteúdo de um documento em um idioma fonte é traduzido para outro idioma sem fazer referência à obra original. O objetivo deste projeto de pesquisa é desenvolver um método eficiente e eficaz para o problema da detecção de plágio multilingue. Para atingir este objetivo, quatro atividades estão previstas: (i) recuperação de documentos candidatos; (ii) análise de plágio entre o documento suspeito e os documentos da coleção de referência; (iii) criação de coleções de teste para possibilitar a realização de experimentos; e (iv) desenvolvimento e disponibilização da ferramenta que implemente os métodos propostos.
Financiado pelo CNPq (Edital Universal)

2009 - Presente

INCT Web
Os Institutos Nacionais de Ciência e Tecnologia deverão ocupar posição estratégica no Sistema Nacional de Ciência e Tecnologia (SNCT) desenvolvendo programas de pesquisas consistentes e prioritários para o desenvolvimento científico e tecnológico e, particularmente, para a sociedade. O ICNT Web é uma rede integrada de pesquisadores de quatro instituições, coordenada pelo prof. Virgilio Almeida, do Departamento de Ciência da Computação da UFMG. A Web é o maior sistema de informação e comunicação já construído, e interfere de forma significativa nas atividades humanas. O INCT Web foi criado para projetar e desenvolver sistemas, tecnologias e aplicações que permitam explorar as possibilidades de uso da Web no futuro de forma benéfica para a sociedade. O INCT Web visa estudar e entender os fundamentos científicos e tecnológicos da Web, bem como suas repercussões sociais, para propor e desenvolver sistemas e tecnologias que poderão compor a Web do futuro.
Coordenado por Virgílio Almeida (UFMG).
Página do Projeto: http://www.inweb.org.br/
Financiado por: CNPq, MCT e Fapemig

2008 - 2010

Recuperação de Informações Multilíngües
O objetivo deste projeto de pesquisa é contribuir para o desenvolvimento da Recuperação de Informações Multilíngües envolvendo a língua Portuguesa. A motivação vem da crescente necessidade que experienciamos atualmente de explorar documentos em outros idiomas. Com a disseminação da Internet, a distância física entre o usuário e a informação foi removida. Contudo, a barreira da linguagem ainda precisa ser ultrapassada. A pesquisa nesta área tem se desenvolvido rapidamente desde o final dos anos 90. Apesar dos recentes avanços, ainda existem muitos aspectos não explorados, em especial sobre a utilização da língua portuguesa. Espera-se como resultado deste projeto gerar um sistema de recuperação de informações que aceite consultas na língua portuguesa e busque documentos em inglês. Além disso, algumas questões atuais relativas a estes sistemas serão investigadas: (i) desenvolvimento de algoritmos de stemming para português; (ii) extração de técnicas de mapeamento de conceitos entre idiomas por meio da utilização de corpus comparável e paralelo; (iii) estudo do processo de realimentação de relevantes em um contexto de sistemas multilíngües e (iv) desenvolvimento de técnicas para identificação de termos compostos.
Financiado pelo CNPq (Edital Universal)

2008 - Presente

GPU Cluster
Este projeto de pesquisa tem por objetivo construir um cluster computacional baseado em Graphics Processing Units (GPUs) no Instituto de Informática da Universidade Federal do Rio Grande do Sul. A configuração solicitada consiste em 6 máquinas com processadores quad-core (4 CPUs), cada qual conectada via PCI-X a uma unidade externa contendo 4 GPUs. O cluster terá portanto 24 CPUs e 24 GPUs conectadas por switches de alta velocidade Infiniband. Dado que cada GPU é composta internamente por 128 processadores, teremos efetivamente 3072 processadores internos de GPU, com poder computacional de aproximadamente 12 TFLOPS. O recurso computacional proporcionado por este cluster irá permitir o processamento de tarefas computacionais extremamente complexas, e será vital para a pesquisa a ser realizada nos próximos anos na Universidade.
Financiado pelo CNPq (Edital Jovens Pesquisadores)
Coordenado por João Luiz Dihl Comba

2008 - Presente

ApproxMatch - Casamento Aproximado de Grandes Volumes de Dados
Casamento aproximado de dados é uma técnica que objetiva definir se duas instâncias diferentes de dados representam uma mesma entidade da vida real. Esta técnica é empregada em muitas aplicações de gestão de dados, como deduplicação de registros, consultas aproximadas, junção por similaridade e integração de esquemas. O presente projeto objetiva atacar três problemas em aberto na área de casamento aproximado de dados: (1) definir funções de similaridade adequadas para objetos complexos, como árvores XML, (2) definir medidas quantitativas para comparar funções de similaridade no contexto de casamento aproximado de dados e (3) estudar como métodos de decomposição de consultas devem se comportar em ambientes em que o casamento de esquemas acontece em tempo de consulta..
Financiado pelo CNPq (Edital Universal)
Coordenado por Carlos A. Heuser

2008 - Presente

Gerência de Grandes Volumes de Documentos Textuais
O projeto está inserido no grande desafio da Sociedade Brasileira de Computação (SBC) Gestão da informação em grandes volumes de dados multimídia distribuídos . Dentro deste desafio, o projeto trata especificamente da gestão de documentos textuais, como páginas WEB ou documentos eletrônicos, gerados em organizações públicas ou privadas. Um problema central na gestão de documentos eletrônicos, tanto na WEB, quanto em computadores pessoais ou servidores organizacionais, é o de estabelecer relações e associações entre documentos. Neste projeto dois tipos de relacionamentos são considerados: (1) o versionamento de documentos, com o objetivo de determinar grupos de documentos que podem ser considerados como diferentes versões de uma mesma informação, e (2) o da semelhança de conteúdo, com o objetivo de agrupar documentos que tratam de mesmo assunto em conglomerados
Financiado pelo CNPq (Edital Grandes Desafios)
Coordenado por J. Palazzo M. de Oliveira





2005 - Presente

Integrando Técnicas de Recuperação de Informações em Bancos de Dados
Na visão clássica, as áreas de sistemas Bancos de Dados (BD) e sistemas de Recuperação de Informações(RI) possuem pouco em comum. BD tratam de dados estruturados enquanto que RI lida com dados não estruturados, tipicamente em forma de texto. Considerando-se que os dados armazenados pela maioria das organizações estão tanto na forma estruturada quanto na forma não estruturada, e que os usuários freqüentemente precisam consultar dados em ambos formatos, existe uma grande necessidade de integração destas duas áreas. O objetivo deste projeto é aplicar conceitos de Recuperação de Informações em sistemas de Bancos de Dados para facilitar o processo de resolução de consultas imprecisas. O desafio é modificar o método de processamento de consultas para incluir as noções de similaridade e relevância .
Financiado pela CAPES-PRODOC 




2003 - 2003

Cell Assemblies
Reverberating circuits of neurons can explain many psychological phenomena; as the neural representation of concepts, they may be the basis of thought. While evidence exists for neural Cell Assemblies (CAs), there has been very little work on the computational modelling of CAs. The goal of this project is to explore models of CAs, metrics and uses of CAs.
My contribution was to adapt the CAs model to perform Information Retrieval.
Financiado pela EPSRC (Inglaterra)
Coordenado por Christian Huyck