Créditos: 4
Semestre: 2025/01
Professor: Anderson R. Tavares
A disciplina apresenta os fundamentos de aprendizado por reforço e suas aplicações para problemas de decisão sequencial. Os tópicos discutidos no curso incluem: multi-armed bandits; processos de decisão de Markov; resolução via programação dinâmica; métodos de Monte Carlo e de diferença temporal; integração de planejamento e aprendizado; métodos de aproximação de função; traços de elegibilidade; aprendizado por reforço profundo; tópicos avançados e aplicações modernas.
1) Introdução ao aprendizado por reforço
a) Aplicações, histórico e exemplos
b) Multi-armed bandits
c) Processos de Decisão de Markov
2) Métodos tabulares para predição e controle
a) Programação dinâmica
b) Métodos de Monte Carlo
c) Aprendizado por diferença temporal (TD)
d) Bootstrapping de n passos
e) Integrando planejamento e aprendizado
3) Métodos de aproximação de função
a) Aproximação da função de valor
b) Métodos lineares e não-lineares.
c) Predição e controle com aproximação de função
d) Traços de elegibilidade
e) Métodos de gradiente de política
4) Aprendizado por reforço profundo
a) Revisão de redes neurais
b) Aprendizado por reforço profundo baseado em valor
c) Aprendizado por reforço profundo baseado em política
5) Tópicos avançados
a) Aprendizado por reforço multiagente
b) Aplicações modernas
O desempenho individual será avaliado da seguinte forma:
Composição da nota final (NF): NF = 0.3*LE + 0.3*PT + 0.3*PF + 0.1 * S
O aluno que obtiver média NF igual ou superior a 6 será aprovado sem recuperação com conceito final definido de acordo com as regras abaixo:
Cálculo do conceito final no caso de aprovação sem recuperação:
Conceito A: NF >= 9.0
Conceito B: 7.5 <= NF < 9.0
Conceito C: 6.0 <= NF < 7.5
Conceito D: NF < 6.0
Conceito FF: caso o estudante não obtenha frequência mínima de 75%
Caso o aluno não obtenha média NF igual ou superior 6, dever obrigatoriamente fazer prova de recuperação. A prova consistirá em um exame escrito e o aluno ser aprovado com conceito C caso sua nota na prova de recuperação seja superior a 6; caso contrário, ser reprovado com conceito final D.