PolicyGradient 发表于 2024-03-30 分类于 LearningNote , RL 阅读次数: BackgroundIntroduction本部分用于记录深度强化学习中基于策略的学习使用的梯度,用于Critic、Actor 构成的状态评估函数的梯度求解。 Progress