{"id":6974,"date":"2025-02-10T10:41:56","date_gmt":"2025-02-10T13:41:56","guid":{"rendered":"https:\/\/www.inf.ufrgs.br\/profcomp\/?page_id=6974"},"modified":"2025-02-10T10:41:56","modified_gmt":"2025-02-10T13:41:56","slug":"cmp629","status":"publish","type":"page","link":"https:\/\/www.inf.ufrgs.br\/profcomp\/lista-de-disciplinas\/cmp629\/","title":{"rendered":"CMP629"},"content":{"rendered":"<h2>CMP629: T\u00f3picos Especiais em Ci\u00eancia da Computa\u00e7\u00e3o DCXXIX &#8211; Aprendizado por Refor\u00e7o<\/h2>\n<p><strong>Cr\u00e9ditos:<\/strong> 4<br \/>\n<strong>Semestre:<\/strong> 2025\/01<br \/>\n<strong>Professor:<\/strong> Anderson R. Tavares<\/p>\n<h3><strong>Resumo:<\/strong><\/h3>\n<p>A disciplina apresenta os fundamentos de aprendizado por refor\u00e7o e suas aplica\u00e7\u00f5es para problemas de decis\u00e3o sequencial. Os t\u00f3picos discutidos no curso incluem: multi-armed bandits; processos de decis\u00e3o de Markov; resolu\u00e7\u00e3o via programa\u00e7\u00e3o din\u00e2mica; m\u00e9todos de Monte Carlo e de diferen\u00e7a temporal; integra\u00e7\u00e3o de planejamento e aprendizado; m\u00e9todos de aproxima\u00e7\u00e3o de fun\u00e7\u00e3o; tra\u00e7os de elegibilidade; aprendizado por refor\u00e7o profundo; t\u00f3picos avan\u00e7ados e aplica\u00e7\u00f5es modernas.<\/p>\n<p style=\"padding-left: 40px;\">1) Introdu\u00e7\u00e3o ao aprendizado por refor\u00e7o<\/p>\n<p style=\"padding-left: 80px;\">a) Aplica\u00e7\u00f5es, hist\u00f3rico e exemplos<\/p>\n<p style=\"padding-left: 80px;\">b) Multi-armed bandits<\/p>\n<p style=\"padding-left: 80px;\">c) Processos de Decis\u00e3o de Markov<\/p>\n<p style=\"padding-left: 40px;\">2) M\u00e9todos tabulares para predi\u00e7\u00e3o e controle<\/p>\n<p style=\"padding-left: 80px;\">a) Programa\u00e7\u00e3o din\u00e2mica<\/p>\n<p style=\"padding-left: 80px;\">b) M\u00e9todos de Monte Carlo<\/p>\n<p style=\"padding-left: 80px;\">c) Aprendizado por diferen\u00e7a temporal (TD)<\/p>\n<p style=\"padding-left: 80px;\">d) Bootstrapping de n passos<\/p>\n<p style=\"padding-left: 80px;\">e) Integrando planejamento e aprendizado<\/p>\n<p style=\"padding-left: 40px;\">3) M\u00e9todos de aproxima\u00e7\u00e3o de fun\u00e7\u00e3o<\/p>\n<p style=\"padding-left: 80px;\">a) Aproxima\u00e7\u00e3o da fun\u00e7\u00e3o de valor<\/p>\n<p style=\"padding-left: 80px;\">b) M\u00e9todos lineares e n\u00e3o-lineares.<\/p>\n<p style=\"padding-left: 80px;\">c) Predi\u00e7\u00e3o e controle com aproxima\u00e7\u00e3o de fun\u00e7\u00e3o<\/p>\n<p style=\"padding-left: 80px;\">d) Tra\u00e7os de elegibilidade<\/p>\n<p style=\"padding-left: 80px;\">e) M\u00e9todos de gradiente de pol\u00edtica<\/p>\n<p style=\"padding-left: 40px;\">4) Aprendizado por refor\u00e7o profundo<\/p>\n<p style=\"padding-left: 80px;\">a) Revis\u00e3o de redes neurais<\/p>\n<p style=\"padding-left: 80px;\">b) Aprendizado por refor\u00e7o profundo baseado em valor<\/p>\n<p style=\"padding-left: 80px;\">c) Aprendizado por refor\u00e7o profundo baseado em pol\u00edtica<\/p>\n<p style=\"padding-left: 40px;\">5) T\u00f3picos avan\u00e7ados<\/p>\n<p style=\"padding-left: 80px;\">a) Aprendizado por refor\u00e7o multiagente<\/p>\n<p style=\"padding-left: 80px;\">b) Aplica\u00e7\u00f5es modernas<\/p>\n<h3><strong>Procedimentos did\u00e1ticos:\u00a0<\/strong><\/h3>\n<ul>\n<li>Aulas expositivas<\/li>\n<li>Implementa\u00e7\u00e3o de algoritmos apresentados em aula<\/li>\n<li>Semin\u00e1rios e Projeto<\/li>\n<\/ul>\n<h3>Sistema de avalia\u00e7\u00e3o:<\/h3>\n<p>O desempenho individual ser\u00e1 avaliado da seguinte forma:<\/p>\n<ul>\n<li>Laborat\u00f3rios e exerc\u00edcios te\u00f3rico-pr\u00e1ticos (LE)<\/li>\n<li>Apresenta\u00e7\u00f5es de t\u00f3picos especiais em forma de semin\u00e1rios (S)<\/li>\n<li>Prova te\u00f3rica (PT)<\/li>\n<li>Projeto final (PF)<\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\">Composi\u00e7\u00e3o da nota final (NF):<\/span> NF = 0.3*LE + 0.3*PT + 0.3*PF + 0.1 * S<\/p>\n<p>O aluno que obtiver m\u00e9dia NF igual ou superior a 6 ser\u00e1 aprovado sem recupera\u00e7\u00e3o com conceito final definido de acordo com as regras abaixo:<\/p>\n<p><span style=\"text-decoration: underline;\">C\u00e1lculo do conceito final no caso de aprova\u00e7\u00e3o sem recupera\u00e7\u00e3o:<\/span><br \/>\nConceito A: NF &gt;= 9.0<br \/>\nConceito B: 7.5 &lt;= NF &lt; 9.0<br \/>\nConceito C: 6.0 &lt;= NF &lt; 7.5<br \/>\nConceito D: NF &lt; 6.0<br \/>\nConceito FF: caso o estudante n\u00e3o obtenha frequ\u00eancia m\u00ednima de 75%<\/p>\n<p>Caso o aluno n\u00e3o obtenha m\u00e9dia NF igual ou superior 6, dever obrigatoriamente fazer prova de recupera\u00e7\u00e3o. A prova consistir\u00e1 em um exame escrito e o aluno ser aprovado com conceito C caso sua nota na prova de recupera\u00e7\u00e3o seja superior a 6; caso contr\u00e1rio, ser reprovado com conceito final D.<\/p>\n<h3>Bibliografia B\u00e1sica:<\/h3>\n<ul>\n<li>Sutton S., Barto A. Reinforcement learning: An introduction. MIT press, 2018. (link: http:\/\/incompleteideas.net\/book\/the-book-2nd.html)<\/li>\n<li>Russel S., Norvig P. Intelig\u00eancia Artificial. Editora Campus, 2004.<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>CMP629: T\u00f3picos Especiais em Ci\u00eancia da Computa\u00e7\u00e3o DCXXIX &#8211; Aprendizado por Refor\u00e7o Cr\u00e9ditos: 4 Semestre: 2025\/01 Professor: Anderson R. Tavares Resumo: A disciplina apresenta os fundamentos de aprendizado por refor\u00e7o e suas aplica\u00e7\u00f5es para problemas de decis\u00e3o sequencial. Os t\u00f3picos discutidos no curso incluem: multi-armed bandits; processos de decis\u00e3o de Markov; resolu\u00e7\u00e3o via programa\u00e7\u00e3o din\u00e2mica; [&hellip;]<\/p>\n","protected":false},"author":11,"featured_media":0,"parent":462,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":[],"_links":{"self":[{"href":"https:\/\/www.inf.ufrgs.br\/profcomp\/wp-json\/wp\/v2\/pages\/6974"}],"collection":[{"href":"https:\/\/www.inf.ufrgs.br\/profcomp\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/www.inf.ufrgs.br\/profcomp\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/www.inf.ufrgs.br\/profcomp\/wp-json\/wp\/v2\/users\/11"}],"replies":[{"embeddable":true,"href":"https:\/\/www.inf.ufrgs.br\/profcomp\/wp-json\/wp\/v2\/comments?post=6974"}],"version-history":[{"count":2,"href":"https:\/\/www.inf.ufrgs.br\/profcomp\/wp-json\/wp\/v2\/pages\/6974\/revisions"}],"predecessor-version":[{"id":7175,"href":"https:\/\/www.inf.ufrgs.br\/profcomp\/wp-json\/wp\/v2\/pages\/6974\/revisions\/7175"}],"up":[{"embeddable":true,"href":"https:\/\/www.inf.ufrgs.br\/profcomp\/wp-json\/wp\/v2\/pages\/462"}],"wp:attachment":[{"href":"https:\/\/www.inf.ufrgs.br\/profcomp\/wp-json\/wp\/v2\/media?parent=6974"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}