Aprendizado por Reforço: Ensinando Máquinas a Aprender com as Experiências da Vida

Otávio Augusto
4 de set. de 2024
5 min de leitura

Imagine tentar ensinar novos truques a um cachorro. Você dá um petisco quando ele senta e diz um firme “não” quando ele pula no sofá. Com o tempo, o cachorro aprende a maximizar seus petiscos ao sentar sob comando. Esta é a essência do aprendizado por reforço (RL), um tipo de aprendizado de máquina que treina algoritmos por meio de recompensas e penalidades, guiando-os a aprender comportamentos ótimos ao longo do tempo.

O que é Aprendizado por Reforço?

Aprendizado por Reforço (RL) é uma abordagem computacional onde um agente aprende a tomar decisões realizando certas ações e recebendo recompensas ou penalidades. É como a própria vida — aprender com experiências para maximizar recompensas a longo prazo. O RL é amplamente utilizado em áreas que vão da robótica às finanças, onde agentes precisam tomar decisões sequenciais em ambientes complexos.

Componentes Principais do RL

Agente: O aprendiz ou tomador de decisões. Pense nele como o cachorro aprendendo truques.
Ambiente: Tudo com o que o agente interage. É a sala de estar onde o cachorro circula.
Estado: Um instantâneo do ambiente em um dado momento. Como se o cachorro está sentado ou pulando.
Ação: O que o agente pode fazer. O cachorro pode sentar, rolar ou latir.
Recompensa: Feedback do ambiente baseado na ação tomada. Um petisco por sentar ou um “não” por pular.
Política: A estratégia que o agente emprega para decidir suas ações. O livro de regras interno do cachorro sobre como conseguir mais petiscos.
Função de Valor: Uma medida da recompensa a longo prazo que o agente pode esperar, dado um estado. Quantos petiscos o cachorro pode esperar se sempre sentar?
Modelo: A compreensão do agente sobre o ambiente. O mapa mental do cachorro sobre a sala de estar.

Estrutura de Modelagem de RL

O Aprendizado por Reforço é tipicamente modelado usando a estrutura do Processo de Decisão de Markov (MDP), que fornece uma abordagem matemática para problemas de tomada de decisão. O MDP consiste em:

Estados (S): Todas as situações possíveis em que o agente pode estar.
Ações (A): Todos os movimentos possíveis que o agente pode fazer.
Função de Transição (P): Probabilidade de mover de um estado para outro, dada uma ação.
Função de Recompensa (R): Recompensa imediata recebida após a transição de um estado para outro.

Modelos de RL

Vários modelos ajudam a resolver problemas de RL, incluindo:

Q-Learning: Um algoritmo off-policy onde o agente aprende o valor de uma ação em um determinado estado. É como o cachorro aprendendo o valor de sentar, mesmo que inicialmente tente latir.

SARSA (State-Action-Reward-State-Action): Um algoritmo on-policy onde o agente aprende o valor da política que está seguindo. O cachorro aprende o valor de sentar com base na sequência real de ações que realiza.
Deep Q-Networks (DQN): Combina Q-learning com redes neurais para lidar com grandes espaços de estado. Imagine o cachorro tendo um supercérebro para lembrar cada truque e suas consequências.
Gradientes de Política: Aprende diretamente a política otimizando a recompensa esperada. O cachorro aprende a melhor sequência de ações para maximizar petiscos.

Métodos Ator-Crítico: Combina a função de valor (crítico) e a política (ator) para melhor desempenho. O cachorro tem um treinador (crítico) dando feedback sobre seus truques enquanto ele descobre (ator) como obter mais petiscos.

Desafios Principais no RL

O Aprendizado por Reforço é poderoso, mas vem com vários desafios:

Exploração vs. “Exploitamento”: Equilibrar entre tentar novas ações para descobrir suas recompensas (exploração) e manter ações conhecidas que geram altas recompensas (“exploitamento”). Como o cachorro decidindo se tenta um “rolar” ou mantém o familiar “sentar”.

Eficiência de Amostra: Aprender com um número limitado de experiências. Cães (e agentes de RL) precisam aprender truques rapidamente sem infinitas tentativas.
Estabilidade e Convergência: Garantir que o processo de aprendizagem convirja para uma política ótima. Você não quer que o cachorro aprenda truques aleatórios que não maximizem petiscos.
Escalabilidade: Lidar com grandes espaços de estado e ação. Imagine treinar um elefante em vez de um cachorro — as coisas ficam complicadas!

Então, da próxima vez que você estiver treinando seu agente de RL (ou seu cachorro), lembre-se desses componentes e desafios. Com paciência e a abordagem correta, você terá um agente que não apenas aprende novos truques, mas os domina para maximizar recompensas.

Durante o meu MBA, tive a oportunidade de cursar uma disciplina sobre Aprendizado por Reforço (RL). Na época, muitos colegas, assim como eu, estavam ansiosos para entender como esse conceito se aplicaria em desafios reais, além dos tradicionais exemplos de jogos que eram constantemente abordados. Infelizmente, a abordagem do professor acabou se concentrando mais em problemas de jogos, como o famoso exemplo do agente jogando Atari, do que em aplicações práticas no mundo dos negócios ou finanças. Saí da aula com a sensação de que faltava uma conexão mais tangível entre o RL e os problemas que enfrentaríamos no mercado de trabalho.

Essa falta de exemplos práticos sempre ficou na minha cabeça, e foi só depois, mergulhando no mundo do trading, que comecei a ver o verdadeiro potencial do RL em situações reais, como a criação de um agente de trading que toma decisões de compra e venda no mercado financeiro. Imagine um agente que, ao invés de apenas jogar Atari, possa analisar indicadores financeiros como Abertura, Fechamento, Máxima, Mínima, Volume e Índice de Força Relativa (IFR) para tomar decisões que podem resultar em ganhos financeiros reais.

Esse agente de trading poderia operar em um cenário de “scalping”, uma estratégia onde o objetivo é capturar pequenos movimentos de preço durante o dia. A beleza do RL aqui é que ele pode aprender a maximizar seus ganhos e minimizar as perdas, ajustando sua estratégia com base nas recompensas que recebe — que, nesse caso, seriam os lucros obtidos em cada operação.

Agora, vamos ao código que exemplifica como construir esse agente. O exemplo a seguir será uma implementação básica de um agente de RL usando Q-Learning para operar no mercado, com decisões baseadas nos indicadores mencionados.

Implementação de um Agente de Trading com Q-Learning

Esse exemplo de um simples agente de trading usando Aprendizado por Reforço demonstra como o RL pode ser aplicado em desafios reais, especialmente em finanças, onde a capacidade de aprender com o mercado e adaptar estratégias pode ser extremamente valiosa. Se tivéssemos explorado esse tipo de aplicação durante as aulas, tenho certeza de que meus colegas teriam saído da aula tão empolgados quanto eu estou agora em compartilhar essa aplicação prática. Afinal, o RL não se limita a jogos — ele pode ser um poderoso aliado na busca por lucros no mercado financeiro.

Um cuidado crucial ao treinar modelos de Reinforcement Learning é evitar o overfitting aos dados históricos, pois isso pode resultar em um modelo que parece ótimo no papel, mas falha em entregar performance quando aplicado em cenários reais, onde as condições de mercado podem ser significativamente diferentes das vistas durante o treinamento.

Obrigado por me acompanhar até aqui meu nobre investidor, até a próxima!

“Reinforcement Learning: An Introduction” de Richard S. Sutton and Andrew G. Barto
“Deep Reinforcement Learning Hands-On” de Maxim Lapan
“Python Machine Learning” de Sebastian Raschka and Vahid Mirjalili
“Machine Learning: A Probabilistic Perspective” de Kevin P. Murphy
“Deep Learning” de Ian Goodfellow, Yoshua Bengio, and Aaron Courville