Tools and Data

数据格式说明:如CartPole_PPO(4+1).npy,表示在CartPole环境中,用训练好的PPO作为专家策略采集数据,其中Observation是前4维,Action是最后1个维度。
AirRaid的Observation维度是250X160X3,其Action是1维。