Português English
Contato

Defesa – Dissertação de Mariana Toledo Costa


Detalhes do Evento


Aluno(a): Mariana Toledo Costa
Orientador(a): Arthur Francisco Lorenzon
Coorientador(a): André Grahl Pereira

Título: Kernels Mais Rápidos, Aplicações Mais Lentas: Avaliando Estratégias de Gerenciamento de Energia em Sistemas Exascale
Linha de Pesquisa: Computação de Alto Desempenho e Sistemas Distribuídos

Data: 13/04/2026
Hora: 10:00
Local: Esta banca ocorrerá de forma híbrida (virtual e presencial), na sala Sala 215 / 43412 do Instituto de Informática/UFRGS e pelo link https://mconf.ufrgs.br/webconf/00230418.

Banca Examinadora:
-Lucas Mello Schnorr (UFRGS)
-Sandro Rigo (UNICAMP)
-Carla Osthoff Ferreira de Barros (LNCC)

Presidente da Banca: Arthur Francisco Lorenzon

Resumo: À medida que sistemas de computação de alto desempenho (HPC) acelerados por GPUs atingem escala exaescale, controlar o consumo energético sem comprometer o desempenho torna-se essencial. Arquiteturas como a AMD MI250X, presente no supercomputador Frontier, expõem mecanismos de power capping e frequency capping que permitem ajustar o orçamento energético sem modificar o código das aplicações. Embora ambos visem à redução de energia, operam por caminhos de controle distintos e afetam as cargas de trabalho de maneiras distintas. Estudos anteriores avaliaram esses mecanismos em kernels isolados, mas o comportamento em aplicações completas executadas em centenas de GPUs com comunicação distribuída permanece menos caracterizado, em especial porque métricas agregadas, como tempo total e energia total, não revelam quais fases computacionais se beneficiam de cada política, nem como os ganhos em nível de kernel interagem com a camada de comunicação MPI. Portanto, este trabalho apresenta uma caracterização multinível do impacto desses mecanismos em GPUs AMD MI250X no supercomputador Frontier. Sete aplicações científicas representativas foram avaliadas em 21 níveis de potência (140–560 W) e 31 níveis de frequência (500–1700 MHz), em execuções de nó único e de 32 nós (256 GCDs). A análise cobre três camadas: desempenho e eficiência energética por aplicação, no nível de kernel combinando o perfil de tempo MPI e contadores de hardware, e avaliação microarquitetural por meio de contadores por invocação de kernel. Na análise global, o frequency capping entre 900 e 1300 MHz apresenta a melhor relação eficiência-desempenho para aplicações memory-bound, enquanto para algumas aplicações, o power capping supera em nodo único (11,3% contra 9,6%). Em nível de kernel, o power capping acelera os kernels dominantes das aplicações mais representativas em até 20%, mas em 32 nós esses ganhos são abso rvidos pelo desbalanceamento MPI, evidenciando que ganhos de kernel podem se converter em degradação de aplicação quando avariabilidade de frequência se propaga às barreiras MPI.