强化学习入门:从 PPO 开始

March 25, 2026·
YasenJia
YasenJia
· 1 min read
blog 技术

什么是强化学习?

强化学习(Reinforcement Learning, RL)是机器学习的一个分支,它研究如何通过与环境交互来学习最优行为策略。

基本概念

  • 状态 (State): 环境当前的配置
  • 动作 (Action): 智能体可以执行的操作
  • 奖励 (Reward): 环境对动作的反馈
  • 策略 (Policy): 从状态到动作的映射

PPO 算法简介

PPO(Proximal Policy Optimization)是一种策略梯度算法,因其稳定性和易用性而在实践中广受欢迎。

核心思想

PPO 通过裁剪目标函数来限制策略更新的幅度,防止策略发生剧烈变化导致训练不稳定。

# 伪代码示意
for iteration:
    for actor_step:
        action = policy.act(state)
        next_state, reward = env.step(action)
        collect_trajectory(state, action, reward)
    
    for epoch:
        compute_advantage()
        update_policy_with_clipping()

在机器人中的应用

强化学习在腿式机器人控制中有广泛应用,如:

  • Locomotion: 行走、奔跑、跳跃
  • Terrain Adaptation: 适应不同地形
  • Robustness: 抵抗外部扰动

总结

PPO 是入门强化学习的绝佳选择,它的实现相对简单但效果出色。在下一篇文章中,我们将详细介绍如何在 Isaac Gym 中实现 PPO。

YasenJia
Authors
YasenJia (he/him)
Robotics Enthusiast
I am currently a graduate student of BIT(Beijing Institute of Technology, China), majoring in Intelligent Robot and System, supervised by Prof.Yan Huang. Before that, I received my bachelor’s degree in Mechatronical Engineering from BIT.