python run.py --env_name CartPole-v1 -n 100 -b 5000 -rtg --exp_name cartpole_rtg_no_baseline
python run.py --env_name CartPole-v1 -n 100 -b 5000 -rtg --use_baseline --exp_name cartpole_rtg_baseline
# with na
python run.py --env_name CartPole-v1 -n 100 -b 5000 -rtg -na --use_baseline --exp_name cartpole_na_rtg_baseline
# add bgs (default 5) and blr (default 5e-3) to the experiments
python run.py --env_name CartPole-v1 -n 100 -b 5000 -rtg --use_baseline --baseline_gradient_steps 3 --exp_name cartpole_rtg_baseline_bgs3
python run.py --env_name CartPole-v1 -n 100 -b 5000 -rtg --use_baseline --baseline_learning_rate 0.001 --exp_name cartpole_rtg_baseline_blr1e-3
python run.py --env_name CartPole-v1 -n 100 -b 5000 -rtg --use_baseline --baseline_gradient_steps 3 --baseline_learning_rate 0.001 --exp_name cartpole_rtg_baseline_bgs3_blr1e-3