Português English
Contato

Lista de Disciplinas | CMP611

Cmp611 – Tópicos especiais em computação: Análise de agrupamento de dados (clustering)

Docente responsável: Joel Luís Carbonera
Carga Horária: 60 hs
Créditos: 4
Pré-requisitos: Não há
Súmula/ementa: Esta disciplina apresenta conceitos fundamentais relacionados à tarefa de agrupamento em aprendizado de máquina e ciência de dados. A disciplina também apresenta diferentes famílias de abordagens para agrupamento. Também são discutidas abordagens de pré-processamento e avaliação de agrupamentos. Finalmente, a disciplina discute tendências no estado da arte de análise de agrupamentos.

Objetivos: O objetivo da disciplina é fornecer ao aluno uma visão mais abrangente de detalhada sobre a área de análise de agrupamento de dados. A disciplina visa fornecer ao aluno:
• Noções fundamentais relacionadas à tarefa de análise de agrupamento de dados no contexto de aprendizado de máquina e ciência de daos.
• Noções de manipulação de diferentes tipos de dados (dados estruturados, textos, imagens, etc) em tarefas de clustering.
• Noções de métricas de similaridade aplicadas à tarefa de agrupamento de dados.
• Noções de técnicas de pré-processamento de dados aplicadas à tarefa de agrupamento de dados.
• Visão abrangente de diversas famílias de abordagens para agrupamento de dados.
• Noções de avaliação de agrupamento de dados.
• Noções a respeito do estado da arte em agrupamento de dados.

Programa (conteúdo):
• Introdução geral sobre a tarefa de agrupamento de dados
• Representação de dados para a tarefa de agrupamento de dados
• Métricas de similaridade aplicadas à agrupamento de dados
• Pré-processamento para agrupamento de dados
• Abordagens clássicas de agrupamento: Particionamento, hierárquico, por densidade,…
• Agrupamento em espaço único e em subespaços (hard e soft)
• Agrupamento irrestrito e restrito
• Agrupamento estático e dinâmico (data stream clustering)
• Tendências em técnicas de agrupamento

Método de trabalho (principais atividades): A disciplina consiste em:
• Um conjunto de aulas expositivas, em que serão apresentados e discutidos os conteúdos definidos no programa.
• Realização de seminários onde são discutidos artigos recentes sobre o tema da disciplina.
• Realização de um projeto prático em grupo sobre os temas da disciplina e que deve ser estabelecido com o professor.

Procedimentos e/ou critérios de avaliação: A avaliação final do aluno é realizada em função das suas avaliações individuais em duas tarefas principais:
• Apresentação e participação dos seminários.
• Realização e apresentação do projeto final da disciplina.

Bibliografia:
Bibliografia básica:
AGGARWAL, Charu C; REDDY, Chandan K.. Data Clustering: Algorithms and Applications. Chapman & Hall/CRC, 2013
GAN, Guojun; MA, Chaoqun; WU, Jianhong. Data clustering: theory, algorithms, and applications, volume 20 of ASA-SIAM Series on Statistics and Applied Probability. Philadelphia, PA: Society for Industrial and Applied Mathematics and Alexandria, 2007.
BASU, Sugato; DAVIDSON, Ian; WAGSTAFF, Kiri (Ed.). Constrained clustering: Advances in algorithms, theory, and applications. CRC Press, 2008.
KING, Ronald S. Cluster analysis and data mining: An introduction. Stylus Publishing, LLC, 2015.
BOLLA, Marianna. Spectral clustering and biclustering: Learning large graphs and contingency tables. John Wiley & Sons, 2013.
KANTARDZIC, Mehmed. Data mining: concepts, models, methods, and algorithms. John Wiley & Sons, 2011.
WITTEN, Ian H.; FRANK, Eibe; HALL, Mark A.; PAL, Christopher J.. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers; 4th ed., 2016.
Bibliografia suplementar:
Artigos recentes de revistas e conferências da área.