Lista de Disciplinas | CMP633

CMP633 — Interpretabilidade de Aprendizado de Máquina

Código da disciplina	CMP633
Responsável	Bruno Iochins Grisci
Pré-requisitos	Não
Carga horária	60h
Créditos	4 CR
Semestres oferecidos	2026/2
Matrícula de graduandos	Sim

Súmula

Fundamentos da interpretação de modelos de aprendizado de máquina. Seleção de atributos. Modelos naturalmente interpretáveis. Técnicas de interpretação post-hoc. Técnicas modernas de explicação aplicáveis a modelos complexos. Métodos de interpretação globais e locais. Métodos de interpretação agnósticos ou específicos ao modelo. Ataques adversariais. Interpretabilidade mecanicista. AI Fairness e AI Safety. Reflexões críticas sobre limitações e boas práticas no uso dessas ferramentas.

Objetivos

Desenvolver os seguintes tópicos: Transparência e Explicabilidade em sistemas de IA. Redução de dimensionalidade. Aspectos éticos em IA. Métodos de aprendizado supervisionado. Redes neurais. Avaliação de modelos. Conceitos de Filosofia em IA.

Capacitar o estudante a compreender os fundamentos da interpretabilidade em aprendizado de máquina, incluindo seus aspectos conceituais, filosóficos, éticos e práticos, bem como sua relevância para a transparência, a confiabilidade e o uso responsável de sistemas de inteligência artificial. Desenvolver habilidades para analisar modelos supervisionados e redes neurais sob a perspectiva da interpretabilidade, relacionando desempenho preditivo, avaliação de modelos, redução de dimensionalidade e extração de conhecimento.

Habilitar o aluno a conhecer, comparar e aplicar métodos de seleção de atributos, modelos naturalmente interpretáveis e técnicas de interpretação post-hoc, tanto globais quanto locais, agnósticas ou específicas ao modelo, com ênfase em explicações aplicáveis a modelos complexos. Promover a reflexão crítica sobre limitações, riscos e boas práticas no uso de ferramentas de explicabilidade, incluindo questões de vieses, justiça, segurança, ataques adversariais e interpretabilidade mecanicista.

Ao final, espera-se que o estudante seja capaz de selecionar, empregar e avaliar criticamente diferentes abordagens de interpretabilidade em problemas reais de aprendizado de máquina, de forma tecnicamente fundamentada, eticamente responsável e cientificamente rigorosa.

Programa (Conteúdo)

Semana	Título	Conteúdo
1 a 2	Introdução à Interpretabilidade	Introdução à disciplina. Seleção de atributos e análise de dados. Interpretabilidade e explicabilidade (shortcut learning, Clever Hans effect, Rashomon effect).
3 a 4	Métodos interpretáveis	Regressão linear. Regressão logística. Modelos baseados em árvores e decision rules.
5 a 7	Interpretabilidade post-hoc	Modelos agnósticos locais (CP, ICE, LIME, counterfactual explanations, Shapley Values, SHAP). Modelos agnósticos globais (PDP, ALE, feature interaction, Permutation Feature Importance, LOFO, surrogate models, prototypes and criticisms).
8 a 10	Interpretando redes neurais	Learned Features. Saliency Maps. Detecting Concepts. Ataques adversariais. Influential Instances.
11 a 12	Interpretabilidade mecanicista	Features, circuits, universality. Sparse Autoencoder (SAE).
13 a 14	AI Fairness e AI Safety	AI Fairness. AI Safety. Vieses em aprendizado de máquina. Ética em IA.
15	Apresentações dos projetos	Apresentação dos projetos avaliados desenvolvidos pelos alunos.
16	Recuperação	Exame de recuperação.

Método de Trabalho (Principais Atividades)

A disciplina poderá utilizar o sistema Moodle/UFRGS ou similares para distribuição de material, entrega de trabalhos, organização de grupos de discussão e acompanhamento geral da disciplina, como informado pelo professor ministrante ao início do semestre.

A disciplina poderá usar ferramentas como o Moodle/UFRGS, sistemas de submissão de problemas de programação online (como online judges) ou similares para avaliações e atividades didáticas.

A disciplina é apresentada em aulas teórico-práticas, em que se combina a apresentação dos conceitos e técnicas com o desenvolvimento de eventuais exercícios e discussões. Algumas das aulas podem ser realizadas em laboratórios, para a implementação e visualização dos conceitos vistos em aula. Em algumas das aulas, poderão ser feitas demonstrações de ferramentas e códigos ou exibição de vídeos ou filmes pertinentes ao conteúdo.

As 60 horas previstas para atividades teóricas e práticas indicadas neste Plano de Ensino incluem 30 encontros de 100 minutos de duração, correspondentes a dois períodos de 50 minutos por encontro e dois encontros por semana, durante 15 semanas, em um total de 3.000 minutos. Incluem, ainda, 10 horas (600 minutos) de atividades autônomas, realizadas sem contato direto com o professor, correspondentes a exercícios, trabalhos ou projetos extraclasse a serem avaliados.

Experiências de Aprendizagem

Participar de aulas expositivas dialogadas.
Resolver listas de exercícios extraclasse, implementar trabalhos ou responder questionários.
Realizar leitura de material disponibilizado ou assistir a vídeos e videoaulas.
Implementar, apresentar e relatar projetos relacionados aos tópicos vistos em aula.
Seguir as regras definidas pelo professor responsável sobre o uso de ferramentas de Inteligência Artificial (IA). As diretrizes relativas ao uso de IA podem variar entre os diferentes trabalhos e atividades práticas ou teóricas que compõem as experiências de aprendizagem e os critérios de avaliação da disciplina.

Procedimentos e/ou Critérios de Avaliação

Estão previstas as seguintes avaliações:

Questionário teórico (Quest);
Atividades autônomas a serem realizadas durante o semestre (Proj);
Avaliações em laboratório (Lab).

A nota final do aluno (NF) é composta pela soma ponderada:

NF = 0,2 × Quest + 0,4 × Proj + 0,4 × Lab

Com base na nota final, será atribuído ao aluno um dos seguintes conceitos:

A — Conceito Ótimo: 9,0 ≤ NF
B — Conceito Bom: 7,5 ≤ NF < 9,0
C — Conceito Regular: 6,0 ≤ NF < 7,5
D — Conceito Insatisfatório: NF < 6,0
FF — Falta de Frequência: menos de 75% de presença.

O aluno estará aprovado na disciplina se obtiver conceito A, B ou C e possuir ao menos 75% de presença em aula.

Atividades de Recuperação Previstas

Está previsto um Exame de Recuperação (EXAME) a ser realizado após o fechamento da NF, versando sobre todo o conteúdo da disciplina. Após a realização do exame, a nota do aluno será recalculada (NE) como segue:

NE = 0,2 × NF + 0,8 × EXAME

O novo conceito será atribuído sobre NE conforme os critérios apresentados anteriormente.

Os resultados das avaliações serão divulgados em até sete dias antes da data prevista para a avaliação subsequente e três dias antes no caso da prova de recuperação.

Bibliografia

Básica Essencial

Molnar, C. (2025). Interpretable Machine Learning: A Guide for Making Black Box Models Explainable (3. ed.). Disponível em: christophm.github.io/interpretable-ml-book/.

Básica

Prince, S. J. D. (2023). Understanding Deep Learning. The MIT Press. Disponível em: udlbook.com.
Barbieri, M. C., Grisci, B. I., & Dorn, M. (2024). Analysis and comparison of feature selection methods towards performance and stability. Expert Systems with Applications, 249 (Parte B), 123667. https://doi.org/10.1016/j.eswa.2024.123667.
Olah, C., Cammarata, N., et al. (2020). Zoom In: An introduction to circuits. Distill, 5(3), e00024-001.

Complementar

Roscher, R. et al. (2020). Explainable machine learning for scientific insights and discoveries. IEEE Access, 8, 42200–42216.
Montavon, G.; Samek, W.; Müller, K.-R. (2018). Methods for interpreting and understanding deep neural networks. Digital Signal Processing, 73, 1–15.
Lindsey, J. et al. (2025). On the Biology of a Large Language Model. Acessado em 11/11/2025. Disponível em: transformer-circuits.pub/2025/attribution-graphs/biology.html.
Grisci, B. I.; Inostroza-Ponta, M.; Dorn, M. (2025). Assessing feature scorer results on high-dimensional datasets with t-SNE. Neurocomputing, p. 130561.
Geirhos, R. et al. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence, 2(11), 665–673.
Lapuschkin, S. et al. (2019). Unmasking Clever Hans predictors and assessing what machines really learn. Nature Communications, 10, 1096.
Ribeiro, M. T.; Singh, S.; Guestrin, C. (2016a). Why should I trust you? In: Proceedings of SIGKDD, p. 1135–1144.
Rai, D. et al. (2024). A practical review of mechanistic interpretability for transformer-based language models. arXiv preprint, arXiv:2407.02646.