PolicyGradient

发表于 2024-03-30 分类于 LearningNote ， RL 阅读次数：

Background

本部分用于记录深度强化学习中基于策略的学习使用的梯度，用于Critic、Actor 构成的状态评估函数的梯度求解。