{"id":4076,"date":"2019-06-24T14:16:10","date_gmt":"2019-06-24T17:16:10","guid":{"rendered":"http:\/\/www.inf.ufrgs.br\/ppgc\/?page_id=4076"},"modified":"2019-12-13T15:40:47","modified_gmt":"2019-12-13T18:40:47","slug":"cmp604","status":"publish","type":"page","link":"https:\/\/www.inf.ufrgs.br\/ppgc\/disciplinas\/lista-de-disciplinas\/cmp604\/","title":{"rendered":"CMP604"},"content":{"rendered":"<p><strong><span style=\"font-size: 24px;\">T\u00f3picos Especiais em Computa\u00e7\u00e3o DCIV: Aprendizado por Refor\u00e7o<\/span><br \/>\nRespons\u00e1veis: Prof. <a href=\"http:\/\/www.inf.ufrgs.br\/site\/docente\/bruno-castro-da-silva\/\">Bruno Castro da Silva<\/a> e Prof. Anderson R. Tavares<br \/>\nSemestre oferecido \u2013 segundo semestre<br \/>\nN\u00famero de cr\u00e9ditos: <\/strong><strong>2<br \/>\nCarga Hor\u00e1ria: 30 horas<\/strong><\/p>\n<p style=\"text-align: justify;\"><strong>\u00a0<\/strong><\/p>\n<p style=\"text-align: justify;\"><strong>S\u00famula: <\/strong>A disciplina apresenta os fundamentos de aprendizado por refor\u00e7o e suas aplica\u00e7\u00f5es para problemas de decis\u00e3o sequencial. Os t\u00f3picos discutidos no curso incluem: multi-armed bandits; processos de decis\u00e3o de Markov; resolu\u00e7\u00e3o via programa\u00e7\u00e3o din\u00e2mica; m\u00e9todos de Monte Carlo e de diferen\u00e7a temporal; integra\u00e7\u00e3o de planejamento e aprendizado; m\u00e9todos de aproxima\u00e7\u00e3o de fun\u00e7\u00e3o; tra\u00e7os de elegibilidade; e m\u00e9todos baseados em gradiente de pol\u00edtica.<\/p>\n<p>1) Introdu\u00e7\u00e3o ao aprendizado por refor\u00e7o<\/p>\n<ol>\n<li>a) Aplica\u00e7\u00f5es, hist\u00f3rico e exemplos<\/li>\n<li>b) Multi-armed bandits<\/li>\n<li>c) Processos de Decis\u00e3o de Markov<\/li>\n<\/ol>\n<p>2) M\u00e9todos tabulares para predi\u00e7\u00e3o e controle<\/p>\n<ol>\n<li>a) Programa\u00e7\u00e3o din\u00e2mica<\/li>\n<li>b) M\u00e9todos de Monte Carlo<\/li>\n<li>c) Aprendizado por diferen\u00e7a temporal (TD)<\/li>\n<li>d) Bootstrapping de n passos<\/li>\n<li>e) Integrando planejamento e aprendizado<\/li>\n<\/ol>\n<p>3) M\u00e9todos de aproxima\u00e7\u00e3o de fun\u00e7\u00e3o<\/p>\n<ol>\n<li>a) Aproxima\u00e7\u00e3o da fun\u00e7\u00e3o de valor<\/li>\n<li>b) M\u00e9todos lineares e n\u00e3o-lineares: redes neurais artificiais<\/li>\n<li>c) Predi\u00e7\u00e3o e controle com aproxima\u00e7\u00e3o de fun\u00e7\u00e3o<\/li>\n<li>d) Tra\u00e7os de elegibilidade<\/li>\n<li>e) M\u00e9todos de gradiente de pol\u00edtica<\/li>\n<\/ol>\n<p>4) T\u00f3picos avan\u00e7ados<\/p>\n<ol>\n<li>a) Aprendizado por refor\u00e7o multiagente<\/li>\n<li>b) Aplica\u00e7\u00f5es modernas<\/li>\n<\/ol>\n<p><strong>Procedimentos did\u00e1ticos:<\/strong><br \/>\n&#8211; Aulas expositivas<br \/>\n&#8211; Projetos extra-classe: implementa\u00e7\u00e3o de algoritmos apresentados em aula<\/p>\n<p><strong>Sistema de avalia\u00e7\u00e3o:<\/strong><br \/>\nO desempenho individual ser\u00e1 avaliado da seguinte forma:<br \/>\n&#8211; 8 implementa\u00e7\u00f5es dos algoritmos apresentados em aula (I)<br \/>\n&#8211; Apresenta\u00e7\u00f5es de t\u00f3picos especiais em forma de semin\u00e1rios (A)<br \/>\nComposi\u00e7\u00e3o da nota final (NF):<br \/>\nNF = 0.8 * I + 0.2 * A<br \/>\nO aluno que obtiver m\u00e9dia NF igual ou superior a 6 ser\u00e1 aprovado sem recupera\u00e7\u00e3o<br \/>\ncom conceito final definido de acordo com as regras abaixo:<br \/>\nC\u00e1lculo do conceito final no caso de aprova\u00e7\u00e3o sem recupera\u00e7\u00e3o:<br \/>\nConceito A: NF &gt;= 9.0<br \/>\nConceito B: 7.5 &lt;= NF &lt; 9.0<br \/>\nConceito C: 6.0 &lt;= NF &lt; 7.5<br \/>\nConceito D: NF &lt; 6.0<br \/>\nConceito FF: caso o estudante n\u00e3o obtenha frequ\u00eancia m\u00ednima de 75%<br \/>\nCaso o aluno n\u00e3o obtenha m\u00e9dia NF igual ou superior 6, dever\u00e1 obrigatoriamente fazer prova de recupera\u00e7\u00e3o. A prova consistir\u00e1 em um exame escrito e o aluno ser\u00e1 aprovado com conceito C caso sua nota na prova de recupera\u00e7\u00e3o seja superior a 6; caso contr\u00e1rio, ser\u00e1 reprovado com conceito final D.<\/p>\n<p><strong>Bibliografia B\u00e1sica<\/strong><br \/>\n&#8211; Sutton S., Barto A. <em>Reinforcement learning: An introduction <\/em>. MIT press, 2018. (link: http:\/\/incompleteideas.net\/book\/the-book-2nd.html )<br \/>\n&#8211; Russel S., Norvig P. <em>Intelig\u00eancia Artificial <\/em>. Editora Campus, 2004<\/p>\n","protected":false},"excerpt":{"rendered":"<p>T\u00f3picos Especiais em Computa\u00e7\u00e3o DCIV: Aprendizado por Refor\u00e7o Respons\u00e1veis: Prof. Bruno Castro da Silva e Prof. Anderson R. Tavares Semestre oferecido \u2013 segundo semestre N\u00famero de cr\u00e9ditos: 2 Carga Hor\u00e1ria: 30 horas \u00a0 S\u00famula: A disciplina apresenta os fundamentos de aprendizado por refor\u00e7o e suas aplica\u00e7\u00f5es para problemas de decis\u00e3o sequencial. Os t\u00f3picos discutidos no [&hellip;]<\/p>\n","protected":false},"author":14,"featured_media":0,"parent":462,"menu_order":604,"comment_status":"closed","ping_status":"closed","template":"","meta":[],"_links":{"self":[{"href":"https:\/\/www.inf.ufrgs.br\/ppgc\/wp-json\/wp\/v2\/pages\/4076"}],"collection":[{"href":"https:\/\/www.inf.ufrgs.br\/ppgc\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/www.inf.ufrgs.br\/ppgc\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/www.inf.ufrgs.br\/ppgc\/wp-json\/wp\/v2\/users\/14"}],"replies":[{"embeddable":true,"href":"https:\/\/www.inf.ufrgs.br\/ppgc\/wp-json\/wp\/v2\/comments?post=4076"}],"version-history":[{"count":1,"href":"https:\/\/www.inf.ufrgs.br\/ppgc\/wp-json\/wp\/v2\/pages\/4076\/revisions"}],"predecessor-version":[{"id":4077,"href":"https:\/\/www.inf.ufrgs.br\/ppgc\/wp-json\/wp\/v2\/pages\/4076\/revisions\/4077"}],"up":[{"embeddable":true,"href":"https:\/\/www.inf.ufrgs.br\/ppgc\/wp-json\/wp\/v2\/pages\/462"}],"wp:attachment":[{"href":"https:\/\/www.inf.ufrgs.br\/ppgc\/wp-json\/wp\/v2\/media?parent=4076"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}