MPO (Maximum a Posteriori Policy Optimization)

Pytorch implementation of MPO (works cited below) with the help of other repositories (also cited below).

Policy evaluation is done using Retrace.

Currently only accommodate Discrete gym environments.

Usage

Look at main.py for examples of using MPO.

The architectures for Actor and Critic can be changed in mpo_net.py.

Citations

Maximum a Posteriori Policy Optimisation (Original MPO algorithm)

https://arxiv.org/abs/1806.06920

Relative Entropy Regularized Policy Iteration (Improved MPO algorithm)

https://arxiv.org/abs/1812.02256

daisatojp's mpo github repository (MPO implementation as reference)

https://github.com/daisatojp/mpo

Openai's ACER github repository (Replay buffer implementation as reference)

https://github.com/openai/baselines/tree/master/baselines/acer

Training Results

5 parallel environments

5 paralle environments

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
README.md		README.md
acrobot_mpo.png		acrobot_mpo.png
lunarlander_mpo.png		lunarlander_mpo.png
main.py		main.py
mpo.py		mpo.py
mpo_nets.py		mpo_nets.py
traj_buffer.py		traj_buffer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MPO (Maximum a Posteriori Policy Optimization)

Usage

Citations

Training Results

About

Releases

Packages

Languages

acyclics/MPO

Folders and files

Latest commit

History

Repository files navigation

MPO (Maximum a Posteriori Policy Optimization)

Usage

Citations

Training Results

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages