Technical Report · Methods Focus

HAGE: 重み付き多関係メモリグラフ上の RL 駆動エージェントメモリ検索 Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution — Methods / Pipeline 解説

本レポートは arXiv:2605.09942v1 (Jiang ら, 2026) の提案手法 HAGE を、技術パイプラインを中心に整理したものです。Background や関連研究は最小限に留め、Section 3 (HAGE Design) の構成要素・学習・実装をそのまま追えるよう再構成しています。

Title

HAGE: Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution

Authors

Dongming Jiang, Yi Li, Guanpeng Li, Qiannan Li, Bingzhe Li

Published

2026-05-11 · arXiv:2605.09942v1 [cs.AI]

Code (MVP)

github.com/FredJiang0324/HAGE_MVPReview

01エグゼクティブサマリ

HAGE は、エージェント LLM のメモリ検索を「静的ルックアップ」ではなく「クエリ条件付きの逐次的グラフトラバーサル」として再定式化する枠組みです。固定の二値関係グラフでは捉えきれない、関係の強度・確度・クエリ依存の関連性を学習で扱えるようにすることを狙っています。

中核は次の 2 点です:

重み付き多関係メモリグラフ: 各エッジに学習可能な関係特徴ベクトル e_ij ∈ R^R (R=4: 時間/意味/因果/エンティティ) を持たせる。
RL によるルーターとエッジ表現の同時最適化: クエリ意図に応じてエッジ次元を変調するルーティング MLP と、エッジ特徴をダウンストリーム報酬で同時に学習。

LoCoMo の総合スコアは gpt-4o-mini で 0.739 (最強ベースライン 0.700) 、Qwen2.5-3B で 0.548 (同 0.499)。HotpotQA でも F1 0.678 / LLM 0.824 を達成し、トークン/レイテンシは他の検索系メモリ手法と同等オーダーに収まる、と報告されています。

02問題設定

エージェントメモリのループ

各ステップ t でメモリ状態 M_t を保持し、クエリ q_t に対して以下を繰り返す。

(1) r_t = Retrieve(q_t, M_t)

(2) o_t = LLM(q_t, r_t)

(3) M_{t+1} = Update(M_t, q_t, o_t)

この read–generate–write ループが、静的 RAG と「エージェントメモリ」を分ける本質。

既存グラフ系メモリの限界

エッジは「存在の有無」中心で、クエリ依存の有用性が欠落。
連続スコアを入れても、検索はおおむね固定の類似度・手設計の重み・ヒューリスティック走査に支配される。
関係の重要度は本質的にクエリ依存 (時系列質問 vs エンティティ質問)。固定展開ではノイズと有用パスを区別できない。

HAGE はこのギャップを「学習可能な関係表現 + 学習可能なルーティング」で埋める。

03HAGE アーキテクチャ概観

HAGE は 2 つの密結合コンポーネントから成る:

① 重み付き多関係メモリグラフ

各エッジが学習可能な関係特徴ベクトルを持つ。フェーズ 1 のヒューリスティック/LLM スコアでウォームスタートし、フェーズ 2 でダウンストリーム報酬により精緻化される。

② RL 駆動の同時最適化フレーム

クエリ条件付きのルーティングネットワークとエッジ表現を、ポリシー勾配で同時最適化。事前定義のスコアリングルールを学習に置き換える。

パイプライン (リトリーバル時)

STEP 1

Query Analysis

関係意図 T_q、密埋め込み q→、必要に応じて語彙/時間制約に分解。LLM 分類器が関係意図を割り当てる。

STEP 2

Anchor Identification

密ベクトル検索・スパース語彙マッチ・時間フィルタを融合してアンカー集合 S_anchor を作成。

STEP 3

Weighted Traversal

エッジを ẽ_ij に拡張 → QueryRouter MLP で構造重み w_ij(q) → 意味類似度との加算で遷移スコア。

STEP 4

Context Synthesis

取得ノードを時間順/因果順/スコア順に再整列・直列化し、文脈バジェット内で下流 LLM に渡す。

┌──────────────────────────────────────────────┐ │ HAGE Memory Graph G_t = (N_t, E_t) │ │ │ │ Event-Node n_i = ⟨c_i, τ_i, v_i, A_i⟩ │ │ Edge feature e_ij ∈ R^4 (trainable) │ │ E = E_temp ∪ E_sem ∪ E_causal ∪ E_ent │ └──────────────────────────────────────────────┘ ▲ │ │ reward (hit / step / timeout)│ trajectory τ │ ▼ ┌─────────────────────────┐ ┌──────────────────────────┐ │ Edge features e_ij │◀──────▶│ QueryRouter (MLP) │ │ asym. LR η_edge │ joint │ asym. LR η_router > η_e │ │ (slow, anchored) │ optim. │ (fast, query-adaptive) │ └─────────────────────────┘ └──────────────────────────┘ ▲ │ q, T_q, q→ │ ┌───────┴────────┐ │ User / Agent │ │ Query q │ └────────────────┘

04重み付き多関係メモリグラフ

メモリは有向多重グラフ G_t = (N_t, E_t) として表現され、エッジ集合は 4 種類のリレーションに分解される:

E_t = E_temp ∪ E_sem ∪ E_causal ∪ E_ent

Temporal (時間)

イベント間の時間的隣接関係。シーケンス系・時系列質問で有効に効くチャネル。

Semantic (意味)

埋め込みベースの意味類似性。トピック横断のリンクを形成する。

Causal (因果)

イベント間の因果依存。多段推論や原因追跡で重要となる。

Entity (エンティティ)

同一エンティティ参照。エンティティ中心質問でブリッジを作る。

Event-Node の構造

n_i = ⟨ c_i , τ_i , v_i , A_i ⟩

c_i: イベント内容 (テキスト)
τ_i: タイムスタンプ
v_i ∈ R^d: 密な意味埋め込み
A_i: 構造化メタデータ

学習可能エッジ特徴 `e_ij ∈ R^4`

e_ij^(0) = [ s_temp , s_sem , s_causal , s_ent ]^T

LLM ベースの edge-scoring キャッシュがあれば、4 関係のスコアで初期化。
キャッシュが無い場合は、エッジの primary 関係に対応する one-hot ベクトルで初期化。
学習中はこの特徴ベクトル自体がパラメータとして更新される (フェーズ 2)。

05クエリ条件付きトラバーサル

5.1 エッジ特徴の動的拡張

クエリ q に対し、LLM 分類器が同定した関係意図の埋め込み v_{T_q} と、ランタイムのコサイン類似度をエッジ特徴に結合する:

(7) ẽ_ij = [ e_ij ; v_{T_q} ; cos(q→, v_i) ; cos(q→, v_j) ]

5.2 QueryRouter による構造重み

軽量 MLP に [q→ ; ẽ_ij] を入力し、softplus で正のスカラ重みを出力する:

(8) w_ij(q) = softplus( MLP( [ q→ ; ẽ_ij ] ) )

5.3 遷移スコアと方策

意味類似度と構造重みを加法的に合成する。これにより、意味的に遠いが構造的に重要な「ブリッジノード」も選ばれ得る:

(9) S(n_j | n_i, q) = λ · cos(v_j, q→) + (1 − λ) · w_ij(q)

(10) π(n_j | n_i, q) = softmax_{n_k ∈ N(n_i)} S(n_k | n_i, q)

訓練時は π からアクションをサンプリング (探索)、推論時は greedy または beam 展開。Hop バジェット枯渇、または対象 evidence 到達で停止。

5.4 Context Synthesis

取得ノードはクエリ種別に応じて時間順 / 因果順 / 検索スコア順に並べ替えて直列化し、コンテキスト予算が尽きるまで詰めて下流 LLM に渡す。

06RL ベースの同時最適化

6.1 MDP の定式化

State: 現在ノード n_i 、クエリ埋め込み q→ 、訪問済みマスク V_t (サイクル回避)
Action: 近傍 n_j ∈ N(n_i) を π_θ に従い選択
Transition: n_j へ移動し、ステップカウントを増分
Termination: 対象 evidence 到達 / 行き止まり / hop バジェット H_max 枯渇

訓練時のスタートノードは、クエリ埋め込みとの最大コサイン類似度で選ばれ、アンカー識別段を模擬する。

6.2 報酬設計

(11) r_t = r_t^{hit} − λ_step · r_t^{step} − λ_timeout · r_t^{timeout}

r_t^{hit}: ground-truth answer と内容マッチした evidence ノード到達で加算。
マルチホップでは、ユニークなターゲットごとに r_t^{hit} を累積し、全 evidence 収集または行き止まり/バジェット切れで終了。
r_t^{step} と r_t^{timeout} は冗長なホップとバジェット消費に対するシェーピングペナルティ。

6.3 ポリシー勾配 (REINFORCE + EMA ベースライン)

(12) G_t = Σ_{k=0}^{T−t} γ^k r_{t+k}

(13) ∇_θ J = Σ_t ∇_θ log π_θ(a_t | s_t) · (G_t − b)

b は exponential moving average で更新する走行ベースライン (分散低減)。パラメータ集合 θ に QueryRouter 重みと学習可能エッジ特徴の両方が含まれるため、同じ報酬で両者が同時に最適化される。勾配はクリッピングで安定化。

6.4 アンカー正則化 (L2)

(14) L_anchor = λ_anchor · Σ_(i,j) ∈ E_train || e_ij − e_ij^(0) ||₂²

(15) L = − J(θ) + L_anchor

フェーズ 1 のウォームスタート初期値からエッジ特徴が大きく漂流すると、未知グラフ上で 「ルーターが訓練時の漂流済み特徴を期待するが、推論時は静的 Phase 1 特徴」という分布ミスマッチが生じる。L2 アンカーはこの漂流を抑制し、汎化を担保する。

6.5 共進化ダイナミクス

2 つのパラメータ群が同じ報酬下で共進化する:

エッジ特徴 e_ij: 成功軌跡上の特徴が強化、不成功軌跡上の特徴が抑制され、トラバーサルに有用な信号を符号化していく。
QueryRouter 重み: クエリ × エッジ特徴のパターン → 有用な遷移、というマッピングを学習。

このフィードバック駆動の共進化を安定化させるため、非対称な学習率 η_router と η_edge < η_router を用いる。ルーターは速く適応、エッジ特徴は保守的に進化させて Phase 1 の意味構造を保ち、不安定な特徴漂流を防ぐ。

07実装と訓練・評価の概要

実装スタック

フレームワーク: PyTorch のモジュラ・グラフ訓練フレームワーク。
グラフ表現: ノード埋め込み + COO 形式のエッジインデックス + 型付エッジラベル + 関係特化エッジ特徴 (GPU 高速化前提)。
初期埋め込み: all-MiniLM-L6-v2 (Reimers & Gurevych, 2019) でノードを初期化、隣接リストを事前計算。
最適化: Adam。ルーターとエッジ特徴で別個の学習率を使用。
チェックポイント選択: validation routing success rate。

訓練プロトコル

サンプルレベル交差検証 (LoCoMo は会話サンプル単位で 5-fold CV)。同一会話内のクエリは同一 fold に閉じ込めて漏れを防止。
すべての fold で同じ訓練設定を使用、checkpoint は validation reward のみで選ぶ。
Phase 1 (LLM ベースのエッジスコア取得) と Phase 2 (グラフ上の RL) を分離。Phase 2 訓練は LLM 呼び出し不要でキャッシュ済みグラフ構造と事前計算済み埋め込みのみで完結。

評価ベンチマークと指標

項目	内容
LoCoMo	平均約 9K トークンの超長会話。長距離の時間・因果検索能力を測る。
HotpotQA (distractor)	非会話型のマルチホップ QA。分散した supporting evidence を結びつける能力を測る。
主指標	LLM-as-a-Judge スコア (instruction-tuned モデルで意味的正しさを評価)。
補助指標	トークンレベル F1 (語彙的指標)。
バックボーン	gpt-4o-mini と Qwen2.5-3B の 2 系統で評価。

08主な主張と実験結果

8.1 LoCoMo — LLM-as-a-Judge スコア

Backbone: gpt-4o-mini

Method	Multi-Hop	Temporal	Open-Domain	Single-Hop	Adversarial	Overall
Full Context	0.468	0.562	0.486	0.630	0.205	0.481
A-MEM	0.495	0.474	0.385	0.653	0.616	0.580
MemoryOS	0.552	0.422	0.504	0.674	0.428	0.553
Nemori	0.569	0.649	0.485	0.764	0.325	0.590
MAGMA	0.528	0.650	0.517	0.776	0.742	0.700
MemSkill	0.480	0.453	0.498	0.614	0.317	0.501
HAGE (ours)	0.547	0.667	0.497	0.797	0.839	0.739

Backbone: Qwen2.5-3B

Method	Multi-Hop	Temporal	Open-Domain	Single-Hop	Adversarial	Overall
Full Context	0.229	0.095	0.335	0.227	0.244	0.215
A-MEM	0.258	0.203	0.219	0.416	0.684	0.410
MemoryOS	0.285	0.212	0.194	0.341	0.229	0.280
Nemori	0.317	0.450	0.379	0.641	0.036	0.412
MAGMA	0.301	0.402	0.334	0.576	0.589	0.499
MemSkill	0.149	0.079	0.158	0.187	0.266	0.179
HAGE (ours)	0.315	0.457	0.335	0.657	0.603	0.548

Adversarial カテゴリでは Qwen 系で A-MEM が単独最高だが、Overall では HAGE が両バックボーンで最良。

8.2 HotpotQA (distractor)

Method	GPT-4o-mini		Qwen2.5-3B
Method	F1	LLM Score	F1	LLM Score
A-MEM	0.433	0.547	0.186	0.416
MemoryOS	0.477	0.592	0.350	0.459
Nemori	0.131	0.624	0.091	0.332
MAGMA	0.640	0.807	0.337	0.424
MemSkill	0.579	0.779	0.179	0.247
HAGE	0.678	0.824	0.429	0.527

8.3 精度 / 効率トレードオフ (LoCoMo)

Method	Avg. Score	Tokens/Query (K)	Latency (s)
A-MEM	0.580	2.62	2.26
MemoryOS	0.553	4.76	32.68
Nemori	0.590	3.46	2.59
MAGMA	0.700	3.37	1.72
MemSkill	0.501	0.92	1.46
HAGE	0.739	3.82	2.17

HAGE は中程度のトークン/レイテンシ増で最高スコアを得る、と主張されている (他検索系メモリと同オーダー)。

8.4 アブレーション (学習エッジ × 学習ルーター)

HAGE Variant	Judge	F1
Static Edge	0.698	0.462
LLM Scorer Edges	0.712	0.500
Trainable Edge	0.724	0.514
Trainable Router	0.713	0.502
HAGE (Full)	0.739	0.548

エッジ学習とルーター学習は相補的。両者の同時最適化が最良スコアを生む、と論文は結論付けている。

09再実装チェックリスト

論文記載の情報から再現に必要な要点。具体的なハイパーパラメータ数値や MLP 隠れ次元は Appendix B 参照とされており、本文には載っていない点に注意。

グラフ構築: イベント抽出 → 4 関係 (temp/sem/causal/ent) ごとに有向エッジを生成。Event-Node は ⟨c_i, τ_i, v_i, A_i⟩ 形式。
ノード埋め込み: sentence-transformers/all-MiniLM-L6-v2 で初期化。
エッジ特徴 e_ij ∈ R^4: LLM scorer 利用可なら 4 関係スコアで初期化、未提供時は primary 関係の one-hot。
クエリ分析: LLM 分類器で関係意図 T_q を出力 → 埋め込み v_{T_q} を取得。
アンカー識別: 密ベクトル検索 + スパース語彙マッチ + 時間フィルタの fusion。
QueryRouter: 軽量 MLP, 入力 [q→ ; e_ij ; v_{T_q} ; cos(q→,v_i) ; cos(q→,v_j)], 出力は softplus スカラ。
遷移スコア: S = λ·cos(v_j,q→) + (1−λ)·w_ij(q)、近傍に softmax。
MDP: 状態 = (n_i, q→, V_t), アクション = 近傍選択, 終了条件 = evidence 全取得 / 行き止まり / hop バジェット H_max 超過。
報酬: r_t = r_hit − λ_step·r_step − λ_timeout·r_timeout。Multi-hop ではユニーク evidence ごとに r_hit を加算。
学習: REINFORCE + EMA baseline、勾配クリッピング。Router 重み + エッジ特徴を同じ θ として同時更新。
正則化: L2 anchor || e_ij − e_ij^(0) ||² をフェーズ 1 値に向けて付加。
最適化: Adam, 非対称 LR η_router > η_edge。チェックポイントは validation routing success rate で選択。
評価: 会話サンプル単位 5-fold CV (LoCoMo)、distractor 設定 (HotpotQA)。LLM-as-a-Judge をメイン指標、F1 を補助。
Phase 2 は LLM 呼び出し不要: グラフ構造 + 事前計算済み埋め込みのみで RL 訓練が完結。

10制約・不確実な点

論文が明示する制約

ベンチマーク被覆: LoCoMo + HotpotQA の 2 種のみ。手続き的タスクや文書グラウンディング推論への汎化は未検証。
LLM コンポーネント依存: クエリ分析 (関係意図) と評価 (LLM-as-Judge) が instruction-tuned LLM に依存。関係意図分類器の精度がトラバーサル品質に直結する。
プライバシー懸念: 永続メモリゆえに、利用同意なしの蓄積情報のスコープ逸脱や濫用リスクがある (Ethical Considerations より)。

本文から確定できなかった点

QueryRouter MLP の具体的な層数 / 隠れ次元。本文には軽量 MLP とのみ記述、詳細は Appendix B。
λ, λ_step, λ_timeout, λ_anchor, γ, H_max, η_router, η_edge の数値。Appendix B 記載扱いで本ソースには含まれず。
Hop バジェット既定値と beam サイズ (推論時) の数値。
関係意図 T_q の分類カテゴリ集合と分類プロンプト本文 (Appendix C に Prompt Library があるが本ソースには未収録)。
LLM-as-a-Judge の判定モデルとプロンプト。
HotpotQA 全体での hop 制限、distractor 数などのデータ統計詳細 (Appendix D)。

11ソースノート

本レポートは以下を一次情報源としています:

Jiang, Li, Li, Li, Li. HAGE: Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution. arXiv:2605.09942v1 [cs.AI], 2026-05-11.
HTML 版: https://arxiv.org/html/2605.09942v1
MVP 実装 (著者公開): https://github.com/FredJiang0324/HAGE_MVPReview
ローカルチャンク: /Users/user/.hermes/work/hage-html-report/hage-source-context.md

数値・式は論文本文 (Section 3 〜 4 および Tables 1–4) の表現をそのまま再掲。Appendix B/C/D に依存する具体的なハイパーパラメータやプロンプト詳細は本レポートでは推測せず、§10 に未確定として明示しました。アーキテクチャ図はテキストベースのスケッチで、原論文の Figure 2 そのものではない点に留意してください。