Tools and Data
CartPole_PPO(4+1)
MountainCar_PPO(2+1)
Pendulum_SAC(3+1)
LunarLander_PPO(8+1)
AirRaid_PPO_Observation(250X160X3)
AirRaid_PPO_Action(1)
数据格式说明:如CartPole_PPO(4+1).npy,表示在CartPole环境中,用训练好的PPO作为专家策略采集数据,其中Observation是前4维,Action是最后1个维度。
AirRaid的Observation维度是250X160X3,其Action是1维。