Português English
Contato

Lista de Disciplinas | CMP604

Tópicos Especiais em Computação DCIV: Aprendizado por Reforço
Responsáveis: Prof. Bruno Castro da Silva e Prof. Anderson R. Tavares
Semestre oferecido – segundo semestre
Número de créditos:
2
Carga Horária: 30 horas

 

Súmula: A disciplina apresenta os fundamentos de aprendizado por reforço e suas aplicações para problemas de decisão sequencial. Os tópicos discutidos no curso incluem: multi-armed bandits; processos de decisão de Markov; resolução via programação dinâmica; métodos de Monte Carlo e de diferença temporal; integração de planejamento e aprendizado; métodos de aproximação de função; traços de elegibilidade; e métodos baseados em gradiente de política.

1) Introdução ao aprendizado por reforço

  1. a) Aplicações, histórico e exemplos
  2. b) Multi-armed bandits
  3. c) Processos de Decisão de Markov

2) Métodos tabulares para predição e controle

  1. a) Programação dinâmica
  2. b) Métodos de Monte Carlo
  3. c) Aprendizado por diferença temporal (TD)
  4. d) Bootstrapping de n passos
  5. e) Integrando planejamento e aprendizado

3) Métodos de aproximação de função

  1. a) Aproximação da função de valor
  2. b) Métodos lineares e não-lineares: redes neurais artificiais
  3. c) Predição e controle com aproximação de função
  4. d) Traços de elegibilidade
  5. e) Métodos de gradiente de política

4) Tópicos avançados

  1. a) Aprendizado por reforço multiagente
  2. b) Aplicações modernas

Procedimentos didáticos:
– Aulas expositivas
– Projetos extra-classe: implementação de algoritmos apresentados em aula

Sistema de avaliação:
O desempenho individual será avaliado da seguinte forma:
– 8 implementações dos algoritmos apresentados em aula (I)
– Apresentações de tópicos especiais em forma de seminários (A)
Composição da nota final (NF):
NF = 0.8 * I + 0.2 * A
O aluno que obtiver média NF igual ou superior a 6 será aprovado sem recuperação
com conceito final definido de acordo com as regras abaixo:
Cálculo do conceito final no caso de aprovação sem recuperação:
Conceito A: NF >= 9.0
Conceito B: 7.5 <= NF < 9.0
Conceito C: 6.0 <= NF < 7.5
Conceito D: NF < 6.0
Conceito FF: caso o estudante não obtenha frequência mínima de 75%
Caso o aluno não obtenha média NF igual ou superior 6, deverá obrigatoriamente fazer prova de recuperação. A prova consistirá em um exame escrito e o aluno será aprovado com conceito C caso sua nota na prova de recuperação seja superior a 6; caso contrário, será reprovado com conceito final D.

Bibliografia Básica
– Sutton S., Barto A. Reinforcement learning: An introduction . MIT press, 2018. (link: http://incompleteideas.net/book/the-book-2nd.html )
– Russel S., Norvig P. Inteligência Artificial . Editora Campus, 2004