本レポートは arXiv:2605.09942v1 (Jiang ら, 2026) の提案手法 HAGE を、技術パイプラインを中心に整理したものです。Background や関連研究は最小限に留め、Section 3 (HAGE Design) の構成要素・学習・実装をそのまま追えるよう再構成しています。
HAGE は、エージェント LLM のメモリ検索を「静的ルックアップ」ではなく「クエリ条件付きの逐次的グラフトラバーサル」として再定式化する枠組みです。固定の二値関係グラフでは捉えきれない、関係の強度・確度・クエリ依存の関連性を学習で扱えるようにすることを狙っています。
中核は次の 2 点です:
e_ij ∈ R^R (R=4: 時間/意味/因果/エンティティ) を持たせる。LoCoMo の総合スコアは gpt-4o-mini で 0.739 (最強ベースライン 0.700) 、Qwen2.5-3B で 0.548 (同 0.499)。HotpotQA でも F1 0.678 / LLM 0.824 を達成し、トークン/レイテンシは他の検索系メモリ手法と同等オーダーに収まる、と報告されています。
各ステップ t でメモリ状態 M_t を保持し、クエリ q_t に対して以下を繰り返す。
この read–generate–write ループが、静的 RAG と「エージェントメモリ」を分ける本質。
HAGE はこのギャップを「学習可能な関係表現 + 学習可能なルーティング」で埋める。
HAGE は 2 つの密結合コンポーネントから成る:
各エッジが学習可能な関係特徴ベクトルを持つ。フェーズ 1 のヒューリスティック/LLM スコアでウォームスタートし、フェーズ 2 でダウンストリーム報酬により精緻化される。
クエリ条件付きのルーティングネットワークとエッジ表現を、ポリシー勾配で同時最適化。事前定義のスコアリングルールを学習に置き換える。
ẽ_ij に拡張 → QueryRouter MLP で構造重み w_ij(q) → 意味類似度との加算で遷移スコア。メモリは有向多重グラフ G_t = (N_t, E_t) として表現され、エッジ集合は 4 種類のリレーションに分解される:
イベント間の時間的隣接関係。シーケンス系・時系列質問で有効に効くチャネル。
埋め込みベースの意味類似性。トピック横断のリンクを形成する。
イベント間の因果依存。多段推論や原因追跡で重要となる。
同一エンティティ参照。エンティティ中心質問でブリッジを作る。
c_i: イベント内容 (テキスト)τ_i: タイムスタンプv_i ∈ R^d: 密な意味埋め込みA_i: 構造化メタデータe_ij ∈ R^4クエリ q に対し、LLM 分類器が同定した関係意図の埋め込み v_{T_q} と、ランタイムのコサイン類似度をエッジ特徴に結合する:
軽量 MLP に [q→ ; ẽ_ij] を入力し、softplus で正のスカラ重みを出力する:
意味類似度と構造重みを加法的に合成する。これにより、意味的に遠いが構造的に重要な「ブリッジノード」も選ばれ得る:
訓練時は π からアクションをサンプリング (探索)、推論時は greedy または beam 展開。Hop バジェット枯渇、または対象 evidence 到達で停止。
取得ノードはクエリ種別に応じて時間順 / 因果順 / 検索スコア順に並べ替えて直列化し、コンテキスト予算が尽きるまで詰めて下流 LLM に渡す。
n_i 、クエリ埋め込み q→ 、訪問済みマスク V_t (サイクル回避)n_j ∈ N(n_i) を π_θ に従い選択n_j へ移動し、ステップカウントを増分H_max 枯渇訓練時のスタートノードは、クエリ埋め込みとの最大コサイン類似度で選ばれ、アンカー識別段を模擬する。
r_t^{hit}: ground-truth answer と内容マッチした evidence ノード到達で加算。r_t^{hit} を累積し、全 evidence 収集または行き止まり/バジェット切れで終了。r_t^{step} と r_t^{timeout} は冗長なホップとバジェット消費に対するシェーピングペナルティ。b は exponential moving average で更新する走行ベースライン (分散低減)。パラメータ集合 θ に QueryRouter 重みと学習可能エッジ特徴の両方が含まれるため、同じ報酬で両者が同時に最適化される。勾配はクリッピングで安定化。
フェーズ 1 のウォームスタート初期値からエッジ特徴が大きく漂流すると、未知グラフ上で 「ルーターが訓練時の漂流済み特徴を期待するが、推論時は静的 Phase 1 特徴」という分布ミスマッチが生じる。L2 アンカーはこの漂流を抑制し、汎化を担保する。
2 つのパラメータ群が同じ報酬下で共進化する:
e_ij: 成功軌跡上の特徴が強化、不成功軌跡上の特徴が抑制され、トラバーサルに有用な信号を符号化していく。このフィードバック駆動の共進化を安定化させるため、非対称な学習率 η_router と η_edge < η_router を用いる。ルーターは速く適応、エッジ特徴は保守的に進化させて Phase 1 の意味構造を保ち、不安定な特徴漂流を防ぐ。
all-MiniLM-L6-v2 (Reimers & Gurevych, 2019) でノードを初期化、隣接リストを事前計算。| 項目 | 内容 |
|---|---|
| LoCoMo | 平均約 9K トークンの超長会話。長距離の時間・因果検索能力を測る。 |
| HotpotQA (distractor) | 非会話型のマルチホップ QA。分散した supporting evidence を結びつける能力を測る。 |
| 主指標 | LLM-as-a-Judge スコア (instruction-tuned モデルで意味的正しさを評価)。 |
| 補助指標 | トークンレベル F1 (語彙的指標)。 |
| バックボーン | gpt-4o-mini と Qwen2.5-3B の 2 系統で評価。 |
| Method | Multi-Hop | Temporal | Open-Domain | Single-Hop | Adversarial | Overall |
|---|---|---|---|---|---|---|
| Full Context | 0.468 | 0.562 | 0.486 | 0.630 | 0.205 | 0.481 |
| A-MEM | 0.495 | 0.474 | 0.385 | 0.653 | 0.616 | 0.580 |
| MemoryOS | 0.552 | 0.422 | 0.504 | 0.674 | 0.428 | 0.553 |
| Nemori | 0.569 | 0.649 | 0.485 | 0.764 | 0.325 | 0.590 |
| MAGMA | 0.528 | 0.650 | 0.517 | 0.776 | 0.742 | 0.700 |
| MemSkill | 0.480 | 0.453 | 0.498 | 0.614 | 0.317 | 0.501 |
| HAGE (ours) | 0.547 | 0.667 | 0.497 | 0.797 | 0.839 | 0.739 |
| Method | Multi-Hop | Temporal | Open-Domain | Single-Hop | Adversarial | Overall |
|---|---|---|---|---|---|---|
| Full Context | 0.229 | 0.095 | 0.335 | 0.227 | 0.244 | 0.215 |
| A-MEM | 0.258 | 0.203 | 0.219 | 0.416 | 0.684 | 0.410 |
| MemoryOS | 0.285 | 0.212 | 0.194 | 0.341 | 0.229 | 0.280 |
| Nemori | 0.317 | 0.450 | 0.379 | 0.641 | 0.036 | 0.412 |
| MAGMA | 0.301 | 0.402 | 0.334 | 0.576 | 0.589 | 0.499 |
| MemSkill | 0.149 | 0.079 | 0.158 | 0.187 | 0.266 | 0.179 |
| HAGE (ours) | 0.315 | 0.457 | 0.335 | 0.657 | 0.603 | 0.548 |
Adversarial カテゴリでは Qwen 系で A-MEM が単独最高だが、Overall では HAGE が両バックボーンで最良。
| Method | GPT-4o-mini | Qwen2.5-3B | ||
|---|---|---|---|---|
| F1 | LLM Score | F1 | LLM Score | |
| A-MEM | 0.433 | 0.547 | 0.186 | 0.416 |
| MemoryOS | 0.477 | 0.592 | 0.350 | 0.459 |
| Nemori | 0.131 | 0.624 | 0.091 | 0.332 |
| MAGMA | 0.640 | 0.807 | 0.337 | 0.424 |
| MemSkill | 0.579 | 0.779 | 0.179 | 0.247 |
| HAGE | 0.678 | 0.824 | 0.429 | 0.527 |
| Method | Avg. Score | Tokens/Query (K) | Latency (s) |
|---|---|---|---|
| A-MEM | 0.580 | 2.62 | 2.26 |
| MemoryOS | 0.553 | 4.76 | 32.68 |
| Nemori | 0.590 | 3.46 | 2.59 |
| MAGMA | 0.700 | 3.37 | 1.72 |
| MemSkill | 0.501 | 0.92 | 1.46 |
| HAGE | 0.739 | 3.82 | 2.17 |
HAGE は中程度のトークン/レイテンシ増で最高スコアを得る、と主張されている (他検索系メモリと同オーダー)。
| HAGE Variant | Judge | F1 |
|---|---|---|
| Static Edge | 0.698 | 0.462 |
| LLM Scorer Edges | 0.712 | 0.500 |
| Trainable Edge | 0.724 | 0.514 |
| Trainable Router | 0.713 | 0.502 |
| HAGE (Full) | 0.739 | 0.548 |
エッジ学習とルーター学習は相補的。両者の同時最適化が最良スコアを生む、と論文は結論付けている。
論文記載の情報から再現に必要な要点。具体的なハイパーパラメータ数値や MLP 隠れ次元は Appendix B 参照とされており、本文には載っていない点に注意。
⟨c_i, τ_i, v_i, A_i⟩ 形式。sentence-transformers/all-MiniLM-L6-v2 で初期化。v_{T_q} を取得。[q→ ; e_ij ; v_{T_q} ; cos(q→,v_i) ; cos(q→,v_j)], 出力は softplus スカラ。S = λ·cos(v_j,q→) + (1−λ)·w_ij(q)、近傍に softmax。H_max 超過。r_t = r_hit − λ_step·r_step − λ_timeout·r_timeout。Multi-hop ではユニーク evidence ごとに r_hit を加算。θ として同時更新。|| e_ij − e_ij^(0) ||² をフェーズ 1 値に向けて付加。η_router > η_edge。チェックポイントは validation routing success rate で選択。本レポートは以下を一次情報源としています:
https://arxiv.org/html/2605.09942v1https://github.com/FredJiang0324/HAGE_MVPReview/Users/user/.hermes/work/hage-html-report/hage-source-context.md数値・式は論文本文 (Section 3 〜 4 および Tables 1–4) の表現をそのまま再掲。Appendix B/C/D に依存する具体的なハイパーパラメータやプロンプト詳細は本レポートでは推測せず、§10 に未確定として明示しました。アーキテクチャ図はテキストベースのスケッチで、原論文の Figure 2 そのものではない点に留意してください。