|
2020 - Atual
|
CIDIA-19 -
CIência de Dados e Inteligência Artificial para
combater a COVID-19
A aplicação da Ciência de Dados na área da saúde tem
se tornado cada vez mais frequente, dado o seu potencial de gerar insights
que auxiliam na tomada de decisão, melhoram as condições de saúde dos
pacientes e otimizam as operações hospitalares. No contexto da COVID-19, a
rapidez com que a doença se disseminou pelo mundo, acometendo mais de 1,5
milhões de pessoas e causando mais de 100 mil óbitos, demanda soluções ágeis
para acelerar o diagnóstico de pacientes com sintomas suspeitos e estimar a
evolução da doença. Diante das limitações associadas à aplicação de exames
laboratoriais e do acentuado aumento na demanda por serviços de saúde em um
cenário de pandemia, é imprescindível o desenvolvimento de estratégias para
alavancar a análise de dados clínicos, histórico epidemiológico, e exames por
imagem, a fim de mais rapidamente diagnosticar COVID-19 entre casos
suspeitos, principalmente em estágios iniciais da doença. Desta maneira, o
objetivo desse projeto é aplicar técnicas do estado-da-arte de aprendizado de
máquina para o auxílio ao diagnóstico e à melhoria da compreensão acerca da
COVID-19. As contribuições do projeto estão distribuídas em cinco metas, a
saber: (i) classificação automática de imagens de tomografia computadorizada
de tórax; (ii) desenvolvimento de modelos
preditivos e identificação de novos fatores de risco a partir da mineração de
dados clínicos; (iii) integração de dados clínicos
e de imagens utilizando abordagens multimodais para aprimorar diagnóstico; (iv) busca semântica de artigos científicos relacionados à
COVID-19; e (v) monitoramento e predição da evolução da COVID-19 por meio da
visualização de informações. Este projeto enquadra-se em dois dos temas priorizados
no Edital. No escopo do tema ?6-Criação de soluções digitais para controle,
monitoramento e previsão da disseminação do vírus", propomos a
utilização da visualização de dados para explorar padrões temporais e
regionais de disseminação do vírus, de acordo com estatísticas divulgadas
pelos órgãos municipais, estaduais e federais. No contexto do tema ?7-Uso de
inteligência artificial e de tecnologias digitais para referenciamento de
pacientes e para melhoria da gestão do sistema de saúde", enquadram-se
nossas propostas de utilização de técnicas de aprendizado de máquina para a
aceleração do processo de diagnóstico a partir das imagens e de descoberta de
conhecimento e realização de predições a partir dos dados clínicos.
|
|
2019
- Atual
|
Geologia
Digital: Busca Integrada de Dados Geocientíficos
Heterogêneos
Especialistas em gerenciamento de dados de E&P
concordam que as informações mais valiosas para uma organização estão
representadas sob a forma de dados não estruturados. Documentos textuais,
e-mails, imagens e diagramas são exemplos típicos dessas informações. Com o
objetivo de reduzir o esforço na busca por informações relevantes, o objetivo
geral do projeto é fornecer uma solução para recuperação de informação
multimodal (MIR). MIR é o processo de organizar e permitir a pesquisa de
diferentes tipos de dados, ou seja, modalidades, como texto, imagem, áudio,
vídeo ou modelos 3D. Aqui, nosso foco está em textos e figuras. Diferentes
estratégias estão previstas para fornecer a busca multimodal, incluindo a
busca por metadados e o mapeamento de características textuais e visuais para
o mesmo espaço vetorial. O escopo do trabalho também envolve a construção de
ontologias de domínio e a organização do conhecimento com princípios de
arquivística.
|
|
2012 - 2015
|
Multi-Match
– casamento de dados multilíngues
Informações multilíngues estão disponíveis nas mais
diversas fontes e formatos. Este fato tem motivado pesquisas que visam
encontrar mapeamentos entre dados representados em idiomas diferentes nas
áreas de Recuperação de Informações, Processamento de Linguagem Natural, e
mais recentemente, Banco de Dados. Este projeto tem como foco a investigação
e proposta de novos métodos para o casamento (matching)
de dados multilíngues em diferentes cenários e contempla três objetivos
específicos: (i) coleta de corpora paralelos na web, (ii)
determinação de correspondências multilíngues na Wikipédia e (iii) detecção de plágio multilíngue. Os resultados deste
projeto representarão contribuições para as áreas de Recuperação de
Informações e Processamento de Linguagem Natural através do fornecimento de
corpora paralelos que são recursos muito importantes para o avanço dessas
áreas. No contexto de Banco de Dados, pretende-se propor métodos para a
determinação de casamentos multilíngues utilizando dados estruturados. A
grande disponibilidade de dados multilíngues também facilita o plágio. A
detecção de plágio multilíngue também será alvo de estudo neste projeto.
Neste tema, nosso principal diferencial será a inclusão de análise de
citações e referências que é fundamental para a confirmação do plágio.
Financiado pelo CNPq (Edital
Universal)
|
|
2010 - 2015
|
Cameleon
O objetivo deste projeto é investigar,
propor, aplicar e validar técnicas automáticas e de colaboração para o
desenvolvimento de recursos lexicais e ontológicos que podem ser úteis no
contexto de aplicações multilingues, particularmente para francês, português
e inglês.
Página do
projeto: http://cameleon.imag.fr
Financiado pela CAPES
Coordenado por Aline Villavicencio
|
|
2010 - 2012
|
DP-ML
Detecção de Plágio Multilíngüe
Com a popularização da Internet, milhares de pessoas
diariamente ganham acesso a informações das mais variadas áreas do
conhecimento. Com isso, o número de documentos digitais aumentou de forma significativa.
Entretanto, apesar de fornecer inúmeros benefícios, a Internet pode ser
considerada um dos meios mais fáceis e propícios para a realização de atos
ilícitos como, por exemplo, o plágio. Plágio é o ato de apresentar, sem a
devida referência, uma obra de qualquer espécie. Pesquisas recentes mostram
que este tipo de ofensa ocorre cada vez com mais frequência no meio
acadêmico. Por esta razão, técnicas para detecção automática de plágio
começaram a ser desenvolvidas. O foco deste projeto é na detecção de plágio multilingue em documentos textuais. Neste tipo de plágio,
o conteúdo de um documento em um idioma fonte é traduzido para outro idioma
sem fazer referência à obra original. O objetivo deste projeto de pesquisa é
desenvolver um método eficiente e eficaz para o problema da detecção de
plágio multilingue. Para atingir este objetivo,
quatro atividades estão previstas: (i) recuperação de documentos candidatos;
(ii) análise de plágio entre o documento suspeito e
os documentos da coleção de referência; (iii)
criação de coleções de teste para possibilitar a realização de experimentos;
e (iv) desenvolvimento e disponibilização da
ferramenta que implemente os métodos propostos.
Financiado pelo CNPq (Edital
Universal)
|
|
2009 - Presente
|
INCT
Web
Os Institutos Nacionais de Ciência e Tecnologia
deverão ocupar posição estratégica no Sistema Nacional de Ciência e
Tecnologia (SNCT) desenvolvendo programas de pesquisas consistentes e
prioritários para o desenvolvimento científico e tecnológico e,
particularmente, para a sociedade. O ICNT Web é uma rede integrada de
pesquisadores de quatro instituições, coordenada pelo prof. Virgilio Almeida, do Departamento de Ciência da
Computação da UFMG. A Web é o maior sistema de informação e comunicação já
construído, e interfere de forma significativa nas atividades humanas. O INCT
Web foi criado para projetar e desenvolver sistemas, tecnologias e aplicações
que permitam explorar as possibilidades de uso da Web no futuro de forma
benéfica para a sociedade. O INCT Web visa estudar e entender os fundamentos
científicos e tecnológicos da Web, bem como suas repercussões sociais, para
propor e desenvolver sistemas e tecnologias que poderão compor a Web do
futuro.
Coordenado por Virgílio Almeida (UFMG).
Página do Projeto: http://www.inweb.org.br/
Financiado por: CNPq, MCT e Fapemig
|
|
2008 - 2010
|
Recuperação
de Informações Multilíngües
O objetivo deste projeto de pesquisa é contribuir
para o desenvolvimento da Recuperação de Informações Multilíngües
envolvendo a língua Portuguesa. A motivação vem da crescente necessidade que
experienciamos atualmente de explorar documentos em outros idiomas. Com a
disseminação da Internet, a distância física entre o usuário e a informação
foi removida. Contudo, a barreira da linguagem ainda precisa ser
ultrapassada. A pesquisa nesta área tem se desenvolvido rapidamente desde o
final dos anos 90. Apesar dos recentes avanços, ainda existem muitos aspectos
não explorados, em especial sobre a utilização da língua portuguesa.
Espera-se como resultado deste projeto gerar um sistema de recuperação de
informações que aceite consultas na língua portuguesa e busque documentos em
inglês. Além disso, algumas questões atuais relativas a estes sistemas serão
investigadas: (i) desenvolvimento de algoritmos de stemming
para português; (ii) extração de técnicas de
mapeamento de conceitos entre idiomas por meio da utilização de corpus
comparável e paralelo; (iii) estudo do processo de
realimentação de relevantes em um contexto de sistemas multilíngües
e (iv) desenvolvimento de técnicas para
identificação de termos compostos.
Financiado pelo CNPq (Edital
Universal)
|
|
2008 - Presente
|
GPU
Cluster
Este projeto de pesquisa tem por objetivo construir
um cluster computacional baseado em Graphics Processing Units (GPUs) no Instituto de Informática da Universidade Federal
do Rio Grande do Sul. A configuração solicitada consiste em 6 máquinas com
processadores quad-core (4 CPUs), cada qual
conectada via PCI-X a uma unidade externa contendo 4 GPUs.
O cluster terá portanto 24 CPUs e 24 GPUs conectadas por switches de alta velocidade Infiniband. Dado que cada GPU é composta internamente por
128 processadores, teremos efetivamente 3072 processadores internos de GPU,
com poder computacional de aproximadamente 12 TFLOPS. O recurso computacional
proporcionado por este cluster irá permitir o processamento de tarefas
computacionais extremamente complexas, e será vital para a pesquisa a ser
realizada nos próximos anos na Universidade.
Financiado pelo CNPq (Edital Jovens Pesquisadores)
Coordenado por João Luiz Dihl
Comba
|
|
2008 - Presente
|
ApproxMatch
- Casamento Aproximado de Grandes Volumes de Dados
Casamento aproximado de dados é uma técnica que objetiva
definir se duas instâncias diferentes de dados
representam uma mesma entidade da vida real. Esta técnica é empregada em
muitas aplicações de gestão de dados, como deduplicação
de registros, consultas aproximadas, junção por similaridade e integração de
esquemas. O presente projeto objetiva atacar três problemas em aberto na área
de casamento aproximado de dados: (1) definir funções de similaridade
adequadas para objetos complexos, como árvores XML, (2) definir medidas
quantitativas para comparar funções de similaridade no contexto de casamento
aproximado de dados e (3) estudar como métodos de decomposição de consultas
devem se comportar em ambientes em que o casamento de esquemas acontece em
tempo de consulta..
Financiado pelo CNPq (Edital Universal)
Coordenado por Carlos A. Heuser
|
|
2008 - Presente
|
Gerência
de Grandes Volumes de Documentos Textuais
O projeto está inserido no grande desafio da
Sociedade Brasileira de Computação (SBC) Gestão da informação em grandes
volumes de dados multimídia distribuídos . Dentro deste desafio, o projeto
trata especificamente da gestão de documentos textuais, como páginas WEB ou
documentos eletrônicos, gerados em organizações públicas ou privadas. Um
problema central na gestão de documentos eletrônicos, tanto na WEB, quanto em
computadores pessoais ou servidores organizacionais, é o de estabelecer
relações e associações entre documentos. Neste projeto dois tipos de
relacionamentos são considerados: (1) o versionamento de documentos, com o
objetivo de determinar grupos de documentos que podem ser considerados como
diferentes versões de uma mesma informação, e (2) o da semelhança de
conteúdo, com o objetivo de agrupar documentos que tratam de mesmo assunto em
conglomerados
Financiado pelo CNPq (Edital Grandes Desafios)
Coordenado por J. Palazzo M. de Oliveira
|
|
2005 - Presente
|
Integrando
Técnicas de Recuperação de Informações em Bancos de Dados
Na visão clássica, as áreas de sistemas Bancos de
Dados (BD) e sistemas de Recuperação de Informações(RI) possuem pouco em
comum. BD tratam de dados estruturados enquanto que
RI lida com dados não estruturados, tipicamente em forma de texto.
Considerando-se que os dados armazenados pela maioria das organizações estão
tanto na forma estruturada quanto na forma não estruturada, e que os usuários
freqüentemente precisam consultar dados em ambos
formatos, existe uma grande necessidade de integração destas duas áreas. O
objetivo deste projeto é aplicar conceitos de Recuperação de Informações em
sistemas de Bancos de Dados para facilitar o processo de resolução de
consultas imprecisas. O desafio é modificar o método de processamento de
consultas para incluir as noções de similaridade e relevância .
Financiado pela
CAPES-PRODOC
|
|
2003 - 2003
|
Cell
Assemblies
Reverberating circuits of neurons can explain many psychological
phenomena; as the neural representation of concepts, they may be the basis of
thought. While evidence exists for neural Cell Assemblies (CAs), there has
been very little work on the computational modelling of CAs. The goal of this
project is to explore models of CAs, metrics and uses of CAs.
My contribution was to adapt the CAs model to perform Information Retrieval.
Financiado
pela EPSRC (Inglaterra)
Coordenado por Christian Huyck
|