Viviane P. Moreira – Pesquisa

 

Áreas de Interesse

Minhas áreas de pesquisa são: Mineração de Dados, Recuperação de InformaçõesProcessamento de Linguagem Natural, Bancos de Dados  e a integração entre essas áreas. Mais especificamente, os tópicos em que estou trabalhando atualmente são:

·         Mineração de dados aplicada à área médica

·         Recuperação de informação multimodal

·         Casamento de dados multilíngues

·         Text Summarizarion

·         Mineração de Opiniões

·         Detecção de Plágio

 

 

Trabalhos Anteriores:

Em Recuperação de Informações, meu trabalho concentrou-se em Recuperação de Informações Multilíngües, que é a recuperação de documentos em um idioma em resposta a uma consulta em outro idioma, por exemplo, a recuperação de um documento em inglês a partir de uma consulta em português. 

Também pesquisei bastante sobre  Algoritmos de Stemming para a língua portuguesa. Como parte do meu doutorado, desenvolvi o "Removedor de Sufixos da Língua Portuguesa" RSLP Stemmer, que está disponível gratuitamente.

Em Bancos de Dados, minha pesquisa concentrou-se em Funções de Similaridade e como avaliar seus desempenhos.

Para saber mais sobre meu trabalho, por favor acesse minhas publicações.

 

Projetos de Pesquisa

2020 - Atual

CIDIA-19 - CIência de Dados e Inteligência Artificial para combater a COVID-19

A aplicação da Ciência de Dados na área da saúde tem se tornado cada vez mais frequente, dado o seu potencial de gerar insights que auxiliam na tomada de decisão, melhoram as condições de saúde dos pacientes e otimizam as operações hospitalares. No contexto da COVID-19, a rapidez com que a doença se disseminou pelo mundo, acometendo mais de 1,5 milhões de pessoas e causando mais de 100 mil óbitos, demanda soluções ágeis para acelerar o diagnóstico de pacientes com sintomas suspeitos e estimar a evolução da doença. Diante das limitações associadas à aplicação de exames laboratoriais e do acentuado aumento na demanda por serviços de saúde em um cenário de pandemia, é imprescindível o desenvolvimento de estratégias para alavancar a análise de dados clínicos, histórico epidemiológico, e exames por imagem, a fim de mais rapidamente diagnosticar COVID-19 entre casos suspeitos, principalmente em estágios iniciais da doença. Desta maneira, o objetivo desse projeto é aplicar técnicas do estado-da-arte de aprendizado de máquina para o auxílio ao diagnóstico e à melhoria da compreensão acerca da COVID-19. As contribuições do projeto estão distribuídas em cinco metas, a saber: (i) classificação automática de imagens de tomografia computadorizada de tórax; (ii) desenvolvimento de modelos preditivos e identificação de novos fatores de risco a partir da mineração de dados clínicos; (iii) integração de dados clínicos e de imagens utilizando abordagens multimodais para aprimorar diagnóstico; (iv) busca semântica de artigos científicos relacionados à COVID-19; e (v) monitoramento e predição da evolução da COVID-19 por meio da visualização de informações. Este projeto enquadra-se em dois dos temas priorizados no Edital. No escopo do tema ?6-Criação de soluções digitais para controle, monitoramento e previsão da disseminação do vírus", propomos a utilização da visualização de dados para explorar padrões temporais e regionais de disseminação do vírus, de acordo com estatísticas divulgadas pelos órgãos municipais, estaduais e federais. No contexto do tema ?7-Uso de inteligência artificial e de tecnologias digitais para referenciamento de pacientes e para melhoria da gestão do sistema de saúde", enquadram-se nossas propostas de utilização de técnicas de aprendizado de máquina para a aceleração do processo de diagnóstico a partir das imagens e de descoberta de conhecimento e realização de predições a partir dos dados clínicos.

2019 - Atual

Geologia Digital: Busca Integrada de Dados Geocientíficos Heterogêneos

Especialistas em gerenciamento de dados de E&P concordam que as informações mais valiosas para uma organização estão representadas sob a forma de dados não estruturados. Documentos textuais, e-mails, imagens e diagramas são exemplos típicos dessas informações. Com o objetivo de reduzir o esforço na busca por informações relevantes, o objetivo geral do projeto é fornecer uma solução para recuperação de informação multimodal (MIR). MIR é o processo de organizar e permitir a pesquisa de diferentes tipos de dados, ou seja, modalidades, como texto, imagem, áudio, vídeo ou modelos 3D. Aqui, nosso foco está em textos e figuras. Diferentes estratégias estão previstas para fornecer a busca multimodal, incluindo a busca por metadados e o mapeamento de características textuais e visuais para o mesmo espaço vetorial. O escopo do trabalho também envolve a construção de ontologias de domínio e a organização do conhecimento com princípios de arquivística.

2012 - 2015

Multi-Match – casamento de dados multilíngues
Informações multilíngues estão disponíveis nas mais diversas fontes e formatos. Este fato tem motivado pesquisas que visam encontrar mapeamentos entre dados representados em idiomas diferentes nas áreas de Recuperação de Informações, Processamento de Linguagem Natural, e mais recentemente, Banco de Dados. Este projeto tem como foco a investigação e proposta de novos métodos para o casamento (matching) de dados multilíngues em diferentes cenários e contempla três objetivos específicos: (i) coleta de corpora paralelos na web, (ii) determinação de correspondências multilíngues na Wikipédia e (iii) detecção de plágio multilíngue. Os resultados deste projeto representarão contribuições para as áreas de Recuperação de Informações e Processamento de Linguagem Natural através do fornecimento de corpora paralelos que são recursos muito importantes para o avanço dessas áreas. No contexto de Banco de Dados, pretende-se propor métodos para a determinação de casamentos multilíngues utilizando dados estruturados. A grande disponibilidade de dados multilíngues também facilita o plágio. A detecção de plágio multilíngue também será alvo de estudo neste projeto. Neste tema, nosso principal diferencial será a inclusão de análise de citações e referências que é fundamental para a confirmação do plágio.
Financiado pelo CNPq (Edital Universal)

2010 - 2015

Cameleon
O objetivo deste projeto é investigar, propor, aplicar e validar técnicas automáticas e de colaboração para o desenvolvimento de recursos lexicais e ontológicos que podem ser úteis no contexto de aplicações multilingues, particularmente para francês, português e inglês.
Página do projeto: http://cameleon.imag.fr
Financiado pela CAPES
Coordenado por Aline Villavicencio

2010 - 2012

DP-ML Detecção de Plágio Multilíngüe
Com a popularização da Internet, milhares de pessoas diariamente ganham acesso a informações das mais variadas áreas do conhecimento. Com isso, o número de documentos digitais aumentou de forma significativa. Entretanto, apesar de fornecer inúmeros benefícios, a Internet pode ser considerada um dos meios mais fáceis e propícios para a realização de atos ilícitos como, por exemplo, o plágio. Plágio é o ato de apresentar, sem a devida referência, uma obra de qualquer espécie. Pesquisas recentes mostram que este tipo de ofensa ocorre cada vez com mais frequência no meio acadêmico. Por esta razão, técnicas para detecção automática de plágio começaram a ser desenvolvidas. O foco deste projeto é na detecção de plágio multilingue em documentos textuais. Neste tipo de plágio, o conteúdo de um documento em um idioma fonte é traduzido para outro idioma sem fazer referência à obra original. O objetivo deste projeto de pesquisa é desenvolver um método eficiente e eficaz para o problema da detecção de plágio multilingue. Para atingir este objetivo, quatro atividades estão previstas: (i) recuperação de documentos candidatos; (ii) análise de plágio entre o documento suspeito e os documentos da coleção de referência; (iii) criação de coleções de teste para possibilitar a realização de experimentos; e (iv) desenvolvimento e disponibilização da ferramenta que implemente os métodos propostos.
Financiado pelo CNPq (Edital Universal)

2009 - Presente

INCT Web
Os Institutos Nacionais de Ciência e Tecnologia deverão ocupar posição estratégica no Sistema Nacional de Ciência e Tecnologia (SNCT) desenvolvendo programas de pesquisas consistentes e prioritários para o desenvolvimento científico e tecnológico e, particularmente, para a sociedade. O ICNT Web é uma rede integrada de pesquisadores de quatro instituições, coordenada pelo prof. Virgilio Almeida, do Departamento de Ciência da Computação da UFMG. A Web é o maior sistema de informação e comunicação já construído, e interfere de forma significativa nas atividades humanas. O INCT Web foi criado para projetar e desenvolver sistemas, tecnologias e aplicações que permitam explorar as possibilidades de uso da Web no futuro de forma benéfica para a sociedade. O INCT Web visa estudar e entender os fundamentos científicos e tecnológicos da Web, bem como suas repercussões sociais, para propor e desenvolver sistemas e tecnologias que poderão compor a Web do futuro.
Coordenado por Virgílio Almeida (UFMG).
Página do Projeto: http://www.inweb.org.br/
Financiado por: CNPq, MCT e Fapemig

2008 - 2010

Recuperação de Informações Multilíngües
O objetivo deste projeto de pesquisa é contribuir para o desenvolvimento da Recuperação de Informações Multilíngües envolvendo a língua Portuguesa. A motivação vem da crescente necessidade que experienciamos atualmente de explorar documentos em outros idiomas. Com a disseminação da Internet, a distância física entre o usuário e a informação foi removida. Contudo, a barreira da linguagem ainda precisa ser ultrapassada. A pesquisa nesta área tem se desenvolvido rapidamente desde o final dos anos 90. Apesar dos recentes avanços, ainda existem muitos aspectos não explorados, em especial sobre a utilização da língua portuguesa. Espera-se como resultado deste projeto gerar um sistema de recuperação de informações que aceite consultas na língua portuguesa e busque documentos em inglês. Além disso, algumas questões atuais relativas a estes sistemas serão investigadas: (i) desenvolvimento de algoritmos de stemming para português; (ii) extração de técnicas de mapeamento de conceitos entre idiomas por meio da utilização de corpus comparável e paralelo; (iii) estudo do processo de realimentação de relevantes em um contexto de sistemas multilíngües e (iv) desenvolvimento de técnicas para identificação de termos compostos.
Financiado pelo CNPq (Edital Universal)

2008 - Presente

GPU Cluster
Este projeto de pesquisa tem por objetivo construir um cluster computacional baseado em Graphics Processing Units (GPUs) no Instituto de Informática da Universidade Federal do Rio Grande do Sul. A configuração solicitada consiste em 6 máquinas com processadores quad-core (4 CPUs), cada qual conectada via PCI-X a uma unidade externa contendo 4 GPUs. O cluster terá portanto 24 CPUs e 24 GPUs conectadas por switches de alta velocidade Infiniband. Dado que cada GPU é composta internamente por 128 processadores, teremos efetivamente 3072 processadores internos de GPU, com poder computacional de aproximadamente 12 TFLOPS. O recurso computacional proporcionado por este cluster irá permitir o processamento de tarefas computacionais extremamente complexas, e será vital para a pesquisa a ser realizada nos próximos anos na Universidade.
Financiado pelo CNPq (Edital Jovens Pesquisadores)
Coordenado por João Luiz Dihl Comba

2008 - Presente

ApproxMatch - Casamento Aproximado de Grandes Volumes de Dados
Casamento aproximado de dados é uma técnica que objetiva definir se duas instâncias diferentes de dados representam uma mesma entidade da vida real. Esta técnica é empregada em muitas aplicações de gestão de dados, como deduplicação de registros, consultas aproximadas, junção por similaridade e integração de esquemas. O presente projeto objetiva atacar três problemas em aberto na área de casamento aproximado de dados: (1) definir funções de similaridade adequadas para objetos complexos, como árvores XML, (2) definir medidas quantitativas para comparar funções de similaridade no contexto de casamento aproximado de dados e (3) estudar como métodos de decomposição de consultas devem se comportar em ambientes em que o casamento de esquemas acontece em tempo de consulta..
Financiado pelo CNPq (Edital Universal)
Coordenado por
Carlos A. Heuser

2008 - Presente

Gerência de Grandes Volumes de Documentos Textuais
O projeto está inserido no grande desafio da Sociedade Brasileira de Computação (SBC) Gestão da informação em grandes volumes de dados multimídia distribuídos . Dentro deste desafio, o projeto trata especificamente da gestão de documentos textuais, como páginas WEB ou documentos eletrônicos, gerados em organizações públicas ou privadas. Um problema central na gestão de documentos eletrônicos, tanto na WEB, quanto em computadores pessoais ou servidores organizacionais, é o de estabelecer relações e associações entre documentos. Neste projeto dois tipos de relacionamentos são considerados: (1) o versionamento de documentos, com o objetivo de determinar grupos de documentos que podem ser considerados como diferentes versões de uma mesma informação, e (2) o da semelhança de conteúdo, com o objetivo de agrupar documentos que tratam de mesmo assunto em conglomerados
Financiado pelo CNPq (Edital Grandes Desafios)
Coordenado por
J. Palazzo M. de Oliveira





2005 - Presente

Integrando Técnicas de Recuperação de Informações em Bancos de Dados
Na visão clássica, as áreas de sistemas Bancos de Dados (BD) e sistemas de Recuperação de Informações(RI) possuem pouco em comum. BD tratam de dados estruturados enquanto que RI lida com dados não estruturados, tipicamente em forma de texto. Considerando-se que os dados armazenados pela maioria das organizações estão tanto na forma estruturada quanto na forma não estruturada, e que os usuários freqüentemente precisam consultar dados em ambos formatos, existe uma grande necessidade de integração destas duas áreas. O objetivo deste projeto é aplicar conceitos de Recuperação de Informações em sistemas de Bancos de Dados para facilitar o processo de resolução de consultas imprecisas. O desafio é modificar o método de processamento de consultas para incluir as noções de similaridade e relevância .
Financiado pela CAPES-PRODOC 




2003 - 2003

Cell Assemblies
Reverberating circuits of neurons can explain many psychological phenomena; as the neural representation of concepts, they may be the basis of thought. While evidence exists for neural Cell Assemblies (CAs), there has been very little work on the computational modelling of CAs. The goal of this project is to explore models of CAs, metrics and uses of CAs.
My contribution was to adapt the CAs model to perform Information Retrieval.
Financiado pela EPSRC (Inglaterra)
Coordenado por Christian Huyck