Proposta de Tese de Doutorado
Aluno(a): Breno William Santos Rezende de Carvalho
Orientador(a): Luis da Cunha Lamb
Título: Towards a Local Interpretation of Attention Based Neural Models
Linha de Pesquisa: Aprendizado de Máquina, Representação de Conhecimento e Raciocínio
Data: 06/03/2026
Hora: 10:00
Local: Esta banca ocorrerá de forma híbrida (virtual e presencial), na sala VIRTUAL do Instituto de Informática/UFRGS e pelo link https://meet.google.com/bmh-qiqr-jet.
Banca Examinadora:
-Ricardo Matsumura Araujo (Ufpel)
-Gabriel de Oliveira Ramos (Unisinos)
-Joel Luis Carbonera (Ufrgs)
Presidente da Banca: Luis da Cunha Lamb
Resumo: Modelos neurais baseados em atenção (como Transformers) exibem mudanças abruptas de comportamento ao longo do treinamento, por exemplo, generalização tardia (grokking), e também sob mudanças de distribuição ou perturbações adversariais. Apesar do sucesso prático desses modelos, ainda faltam explicações locais e mecanísticas sobre o que muda internamente quando a performance “vira a chave”. Esta tese investiga como estruturas interpretáveis emergem e se reorganizam dentro desses modelos e como tais estruturas podem ser usadas para interpretação local (por instância) e diagnóstico de comportamento. Propomos um pipeline de interpretabilidade que combina: (i) descoberta de características esparsas (via sparse autoencoders), (ii) cross-layer transcoders para mapear ativações de múltiplas camadas em um espaço de características consistente, e (iii) validadores baseados em lógica suave inspirados em Logic Tensor Networks (LTNs) para expressar e testar restrições interpretáveis sobre representações e saídas. O trabalho é organizado em três objetivos: (1) caracterizar transições de representação ao longo do treinamento (com foco em grokking), rastreando estabilidade e composição de características esparsas; (2) estudar sinais internos associados a procedimentos de steering e decodificação com restrições, avaliando se existem assinaturas detectáveis do processo de controle; e (3) detectar mudanças de distribuição e ataques adversariais identificando padrões consistentes em ativações/atenção que antecedem degradação de saída. A avaliação utilizará tarefas controladas (grokking), benchmarks de geração de linguagem (steering) e conjuntos de corrupção/adversarial (robustez), reportando métricas mecanísticas (esparsidade, estabilidade, consistência entre camadas, satisfação lógica) e comportamentais (acurácia, aderência a restrições, trade-offs de qualidade).
Palavras-Chave: Deep Learning interpretability, Neural-networks interpretability, Artificial Intelligence Alignment, High-dimensional time-series visualization, Attention-based models, Grokking, Sparse autoencoders, Cross-layer transcoders, Neuro-symbolic AI, Logic Tensor Networks