Estudo de aprendizagem por reforço em jogo Tower Defense

Dias, Augusto Vicente Fernandes

http://hdl.handle.net/10198/22956

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
Dias_Augusto.pdf		2.64 MB	Adobe PDF	Download

Send Feedback

Authors

Dias, Augusto Vicente Fernandes

Advisor(s)

Lopes, Rui Pedro

Foleiss, Juliano Henrique

Abstract(s)

A aprendizagem por reforço está revolucionando a inteligência artificial, isso representa que sistemas autônomos estão compreendendo cada vez mais o mundo visual. A aprendizagem por reforço é uma das abordagens de aprendizagem de máquina que funciona alterando o comportamento do agente por meio de feedbacks, como recompensas ou penalidades por suas ações. Trabalhos recentes utilizam aprendizagem por reforço para treinar agentes capazes de jogar jogos eletrônicos e obter pontuações até mais altas que jogadores humanos profissionais. As aplicações para agentes inteligentes em jogos incluem propiciar desafios mais complexos aos jogadores, melhorar a ambientação dos jogos proporcionando interações mais complexas e até servem como forma de prever o comportamento dos jogadores quando o jogo está em fase de desenvolvimento. A maioria dos trabalhos atuais, derivados de uma arquitetura conhecida como rede Q profunda, trabalham usando técnicas de aprendizagem profunda para processar a imagem do jogo, criando uma representação intermediária. Esta representação é, então, processada por camadas de rede neural capazes de mapear situações do jogo em ações que visam maximizar a recompensa ao longo do tempo. Entretanto, este método é inviável em jogos modernos, renderizados em alta resolução com taxa de quadros cada vez maior. Além disto, este método não funciona para treinar agentes que não estão mostrados na tela. Desta forma, neste trabalhos propomos um pipeline de aprendizagem por reforço baseado em redes neurais cuja entrada são metadados fornecidos diretamente pelo jogo e as ações são mapeadas diretamente em ações de alto-nível do agente. Propomos esta arquitetura para um agente jogador de defesa de torre, um jogo de estratégia em tempo real cujo agente não é representado na tela diretamente.

Reinforcement learning is revolutionizing artificial intelligence, this means that autonomous systems are increasingly understanding the visual world. Reinforcement learning is one of the machine learning approaches that works by changing the agent’s behavior through feedbacks, such as rewards or penalties for his actions. Recent work using reinforcement learning to train agents capable of playing electronic games and obtain scores even higher than professional human players. As applications for intelligent agents in games can offer more complex challenges to players, improve the ambience of more complex interactive games and even visualize the behavior of players when the game is in development. Most current works, using an architecture known as the deep Q network, use deep learning techniques to process an image of the game, creating an intermediate representation. This representation is then processed by layers of neural network capable of mapping game situations into actions that aim to maximize a reward over time. However, this method is not feasible in modern games, rendered in high resolution with an increasing frame rate. In addition, this method does not work for training agents who are not shown on the screen. Thus, in this work we propose a reinforcement learning pipeline based on neural networks, whose input is metadata, selected directly by the game, and the actions are mapped directly into high-level actions by the agent. We propose this architecture for a tower defense player agent, a real time strategy game whose agent is not represented on the screen directly.

Description

Mestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do Paraná

Keywords

Aprendizagem por reforço Inteligência artificial Rede neural Tower Defense

URI

http://hdl.handle.net/10198/22956

Collections

ESTiG - Dissertações de Mestrado Alunos

CC License

cclicense-by-nc

Full item page