RL ポリシーと Tron1

Tron1 を使用した異なる RL ポリシーのテスト

Categories:

デモはこちら。注：登録が必要です。

概要

Tron1 ロボットは、ヒューマノイド RL 研究に使用できるマルチモーダル二足歩行ロボットです。ソフトウェアの多くはオープンソースで、こちらにあります。

このプロジェクトでは、2 つの強化学習ポリシーを 2 つの補完的な条件で評価します：

移動テスト：明示的な移動コマンド下でのタスク実行を評価
アイドルドリフトテスト：移動コマンドを与えない場合の受動的安定性を評価

これらを組み合わせることで、ポリシーの 能動的な歩行性能 と 内在的な安定性特性 の両方を確認できます。

テスト対象のポリシー

高レベルの目的(二足歩行)は同じですが、訓練環境と設計上の前提が異なる2つの強化学習ポリシーを比較します:

isaacgym
NVIDIA Isaac Gymを使用して訓練されたポリシーで、高速で大規模なシミュレーションと効率的な最適化を重視しています。これらのポリシーは通常、簡素化または厳密に制御された動力学の下で、コマンドされた動作の堅牢な実行を優先します。
isaaclab
Isaac Labを使用して訓練されたポリシーで、モジュール性、より豊かなタスク抽象化、下流のロボティクスワークフローとの密接な連携を重視しています。これにより、ポリシーに追加の内部構造と制約が導入されることがよくあります。

実装の詳細とトレーニングセットアップは以下で入手可能です:

動作テスト: コマンド動作下でのポリシー比較

まず、ロボットに開始姿勢から前進および回転するよう指示する動作テストを実行します。これにより、各ポリシーがシンプルだが重要な移動タスクをどの程度うまく実行するかを評価します。

テスト自体は以下の通りです:

5メートル前進
150度回転
固定タイムアウト内でタスクを完了

テストのパラメータ化

artefacts.yaml で以下のように設定します：

policy_test:
  type: test
  runtime:
    framework: ros2:jazzy
    simulator: gazebo:harmonic
  scenarios:
    defaults:
      pytest_file: test/art_test_move.py
      output_dirs: ["test_report/latest/", "output"]
    settings:
      - name: move_face_with_different_policies
        params:
          rl_type: ["isaacgym", "isaaclab"]
          move_face:
            - {name: "dyaw_150+fw_5m", forward_m: 5.0, dyaw_deg: 150, hold: false, timeout_s: 35}

ポイント：

テストは pytest で実行します（pytest_file でテストファイルを指定）。
ダッシュボードへのアップロードは output_dirs の 2 つのフォルダを参照します。
パラメータセットは 2 つ：
1. rl_type: "isaacgym"、"isaaclab"
2. move_face: 前進 5m、回転 150 度、タイムアウト 35 秒

テストは 2 回実行し、1 回目に isaacgym、2 回目に isaaclab を使用します。両方とも move_face の設定で移動距離と回転量を決めます。

結果：isaacgym

isaacgym ポリシーでは、バードアイ動画で回転後に前進している様子が確認できます：

ダッシュボード上でも成功として記録されています：

テスト中に作成したグラウンドトゥルース軌跡の csv も、自動でチャートに変換されています。

結果：isaaclab

isaaclab ポリシーでは、まだ改善が必要です。ダッシュボードではテスト失敗（失敗したアサーションを表示）となり、バードアイ動画でも目標未達がわかります。

推定軌跡（ロボットが「自分はこう動いた」と考えている軌跡）の csv（自動チャート化）もあり、グラウンドトゥルースと大きく異なります：

アイドルドリフト比較（静止ロボット）

移動テストはコマンド下でのタスク実行を評価します。これを補完するため、アイドルドリフトテスト（移動コマンドを一切与えないテスト）も実施します。

ロボットをニュートラルな直立姿勢に初期化した後、速度・姿勢・歩行コマンドはいっさい送りません。ポリシーは通常通り動き続けるため、観測される挙動はすべて非コマンドのものになります。

このテストはタスク実行とは独立した 受動安定性の挙動 を見ます。

テスト構成と時間スケール

アイドルドリフトは 2 つの時間スケールで評価します：

10 秒：立ち上がり直後の過渡挙動や短期バイアスを観察
60 秒：ヨーの累積的なズレや平面内の緩やかな漂いを観察

両方を見ることで 短期安定性 と 長期の平衡挙動 を切り分けられます。

パラメータ設定

policy_drift:
  type: test
  runtime:
    framework: ros2:jazzy
    simulator: gazebo:harmonic
  scenarios:
    defaults:
      output_dirs: ["test_report/latest/", "output"]
      metrics: "output/metrics.json"
      pytest_file: test/art_test_drift.py
    settings:
      - name: idle_drift_compare_policies
        params:
          rl_type: ["isaacgym", "isaaclab"]
          durations_s: [10, 60]

ポイント：