축적의 시간

Agentic Context Engineering

빛나는 일상 — Mon, 19 Jan 2026 15:03:19 +0900

1. 논문 기본 정보

제목: Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
저자(학교, 기관): Qizheng Zhang¹, Changran Hu², Shubhangi Upasani², Boyuan Ma², Fenglu Hong², Vamsidhar Kamanuru², Jay Rainton², Chen Wu², Mengmeng Ji², Hanchen Li³, Urmish Thakker², James Zou¹, Kunle Olukotun¹ (¹Stanford University, ²SambaNova Systems Inc., ³UC Berkeley)
발표일: 2025년 10월 6일
학회/저널명: arXiv preprint
DOI/URL: arXiv:2510.04618v1 [cs.LG]

2. 한줄 요약

ACE는 컨텍스트를 진화하는 플레이북으로 취급하여 구조화된 증분 업데이트를 통해 상세한 지식을 보존하면서 에이전트와 도메인 특화 벤치마크에서 각각 평균 10.6%와 8.6%의 성능 향상을 달성하는 자가 개선 프레임워크입니다.

3. 결론

ACE는 오프라인 및 온라인 적응 환경 모두에서 강력한 베이스라인을 일관되게 능가: 에이전트 벤치마크에서 평균 10.6%, 도메인 특화 벤치마크에서 평균 8.6% 향상
라벨 없는 자가 학습 가능: 실행 피드백만으로 효과적으로 적응하며, 레이블 감독 없이도 작동
AppWorld 리더보드에서 최상위 성능: 더 작은 오픈소스 모델(DeepSeek-V3.1)을 사용하면서도 프로덕션급 GPT-4.1 기반 에이전트(IBM CUGA)와 평균 성능 동등, 더 어려운 test-challenge 스플릿에서는 초과 달성
낮은 적응 레이턴시와 비용: 기존 적응 방법 대비 평균 86.9% 낮은 적응 레이턴시, 더 적은 롤아웃 및 토큰 비용 요구
컨텍스트 붕괴 방지: 구조화된 증분 업데이트를 통해 상세한 도메인 지식을 보존하며 장기 컨텍스트 모델과 확장 가능

4. 해결하려는 문제

핵심 문제: 기존 컨텍스트 적응 방법들은 **간결성 편향(brevity bias)**과 **컨텍스트 붕괴(context collapse)**라는 두 가지 핵심 한계를 가지고 있습니다.

간결성 편향: "많은 프롬프트 최적화 도구들은 포괄적인 축적보다 간결하고 광범위하게 적용 가능한 지시사항을 우선시합니다. 예를 들어, GEPA는 간결성을 강점으로 강조하지만, 이러한 추상화는 실제로 중요한 도메인별 휴리스틱, 도구 사용 가이드라인 또는 일반적인 실패 모드를 생략할 수 있습니다."
컨텍스트 붕괴: "LLM이 각 적응 단계에서 누적된 컨텍스트를 완전히 재작성하도록 작업을 부여받을 때 발생하는 현상입니다. 컨텍스트가 커지면 모델은 이를 훨씬 짧고 정보가 적은 요약으로 압축하는 경향이 있어 극적인 정보 손실을 초래합니다."

원문 인용: "Despite this progress, existing approaches to context adaptation face two key limitations. First, a brevity bias: many prompt optimizers prioritize concise, broadly applicable instructions over comprehensive accumulation... Second, context collapse: methods that rely on monolithic rewriting by an LLM often degrade into shorter, less informative summaries over time, causing sharp performance declines."

5. 제안 기술

ACE (Agentic Context Engineering): 컨텍스트를 진화하는 플레이북으로 취급하여 생성(generation), 반영(reflection), 큐레이션(curation)의 모듈식 프로세스를 통해 전략을 축적, 정제, 조직화하는 프레임워크입니다.

핵심 구성요소:

Generator (생성기): 새로운 쿼리에 대한 추론 궤적을 생성
Reflector (반영기): 성공과 실패로부터 구체적인 인사이트를 추출하며, 여러 반복을 통해 선택적으로 정제
Curator (큐레이터): 이러한 인사이트를 구조화된 컨텍스트 업데이트로 통합

주요 혁신:

전용 Reflector: 평가와 인사이트 추출을 큐레이션에서 분리
증분 델타 업데이트 (Incremental Delta Updates): 비용이 많이 드는 전체 재작성을 지역화된 편집으로 대체
성장 및 정제 메커니즘 (Grow-and-Refine): 꾸준한 컨텍스트 확장과 중복 제어의 균형

원문 인용: "ACE treats contexts as evolving playbooks that accumulate, refine, and organize strategies through a modular process of generation, reflection, and curation... Building on the agentic design of Dynamic Cheatsheet, ACE introduces a structured division of labor across three roles: the Generator, which produces reasoning trajectories; the Reflector, which distills concrete insights from successes and errors; and the Curator, which integrates these insights into structured context updates."

6. 단락별 정리

Abstract

핵심 내용:

LLM 애플리케이션은 가중치 업데이트 대신 컨텍스트 적응에 점점 더 의존: 지시사항, 전략 또는 증거로 입력을 수정
기존 접근법의 한계: 간결성 편향(도메인 인사이트 삭제)과 컨텍스트 붕괴(반복적 재작성이 시간이 지남에 따라 세부사항 침식)
ACE의 핵심 기여: Dynamic Cheatsheet의 적응형 메모리를 기반으로 구축하여 구조화된 증분 업데이트를 통해 붕괴 방지
성능 향상: 에이전트에서 +10.6%, 금융에서 +8.6%, 적응 레이턴시 및 롤아웃 비용 대폭 감소
AppWorld 리더보드 성과: 더 작은 오픈소스 모델을 사용하면서도 최상위 프로덕션급 에이전트와 매칭하고 더 어려운 스플릿에서 초과 달성

원문 인용: "Large language model (LLM) applications such as agents and domain-specific reasoning increasingly rely on context adaptation—modifying inputs with instructions, strategies, or evidence, rather than weight updates. Prior approaches improve usability but often suffer from brevity bias, which drops domain insights for concise summaries, and from context collapse, where iterative rewriting erodes details over time."

1. Introduction

핵심 내용:

현대 AI 애플리케이션은 컨텍스트 적응에 의존: LLM 에이전트와 복합 AI 시스템은 모델 가중치 수정 대신 컨텍스트를 통해 성능 향상
컨텍스트 적응의 장점: 해석 가능성, 런타임에서 신속한 지식 통합, 복합 시스템 전반에 걸쳐 공유 가능
기존 방법의 문제점:
- 간결성 편향: 도메인별 휴리스틱과 전술 생략
- 컨텍스트 붕괴: 전체 재작성이 정보 손실 초래
ACE의 접근법: 컨텍스트를 간결한 요약이 아닌 포괄적이고 진화하는 플레이북으로 취급
평가 결과: 에이전트 및 도메인 특화 벤치마크 모두에서 일관된 성능 향상

[Figure 1: 전체 성능 결과]

AppWorld 에이전트 벤치마크에서 ACE는 59.5% 정확도로 Base LLM(42.4%) 대비 17.1% 향상
FiNER 금융 도메인 벤치마크에서 78.3%로 Base LLM(70.7%) 대비 7.6% 향상
Formula 수치 추론 벤치마크에서 76.5%로 Base LLM(67.5%) 대비 9.0% 향상

원문 인용: "Modern AI applications based on large language models (LLMs), such as LLM agents and compound AI systems, increasingly depend on context adaptation. Instead of modifying model weights, context adaptation improves performance after model training by incorporating clarified instructions, structured reasoning steps, or domain-specific input formats directly into the model's inputs."

2. Background and Motivation

2.1 Context Adaptation

핵심 내용:

컨텍스트 적응의 정의: 가중치 변경 없이 LLM 입력을 구성하거나 수정하여 모델 동작을 개선하는 방법
최신 기술: 자연어 피드백 활용
- Reflexion: 실패 반영으로 에이전트 계획 개선
- TextGrad: 그래디언트 유사 텍스트 피드백으로 프롬프트 최적화
- GEPA: 실행 추적 기반 반복 정제, 일부 설정에서 강화학습 능가
- Dynamic Cheatsheet: 추론 시 과거 성공과 실패로부터 전략과 교훈 축적하는 외부 메모리 구성

원문 인용: "Context adaptation (or context engineering) refers to methods that improve model behavior by constructing or modifying inputs to an LLM, rather than altering its weights. The current state of the art leverages natural language feedback."

2.2 Limitations of Existing Context Adaptation Methods

간결성 편향 (The Brevity Bias):

문제: 최적화가 짧고 일반적인 프롬프트로 수렴하는 경향
사례: Gao et al.의 테스트 생성 연구에서 반복 방법이 반복적으로 거의 동일한 지시사항 생성 (예: "메서드가 예상대로 동작하는지 확인하기 위한 단위 테스트 생성")
영향: 다양성 희생, 도메인별 세부사항 생략, 검색 공간 축소, 반복 간 동일한 오류 전파

컨텍스트 붕괴 (Context Collapse):

발생 원인: LLM이 각 적응 단계에서 누적된 컨텍스트를 완전히 재작성하도록 작업 부여
구체적 사례: AppWorld 벤치마크 60단계에서 18,282 토큰으로 66.7% 정확도 달성 → 다음 단계에서 122 토큰으로 붕괴, 정확도 57.1%로 급락 (적응 없는 베이스라인 63.7%보다 낮음)
근본 원인: LLM을 통한 종단 간 컨텍스트 재작성의 근본적 위험

[Figure 2: 컨텍스트 붕괴 현상]

X축: 적응 단계 수 (0~80)
Y축: 컨텍스트 내 토큰 수
60단계까지 꾸준히 증가하다가 61단계에서 급격히 감소
정확도도 66.7%에서 57.1%로 급락

원문 인용: "The Brevity Bias: A recurring limitation of context adaptation methods is brevity bias: the tendency of optimization to collapse toward short, generic prompts... Context Collapse: In a case study on the AppWorld benchmark, we observe a phenomenon we call context collapse, which arises when an LLM is tasked with fully rewriting the accumulated context at each adaptation step."

3. Agentic Context Engineering (ACE)

핵심 내용:

ACE의 목적: 오프라인(시스템 프롬프트 최적화) 및 온라인(테스트 시간 메모리 적응) 시나리오 모두에서 확장 가능하고 효율적인 컨텍스트 적응 프레임워크
핵심 철학: 컨텍스트를 간결한 요약이나 정적 지시사항으로 압축하는 대신, 시간이 지남에 따라 전략을 지속적으로 축적, 정제, 조직화하는 진화하는 플레이북으로 취급
아키텍처: Dynamic Cheatsheet의 에이전틱 설계를 기반으로 3가지 역할로 구조화된 분업
- Generator: 추론 궤적 생성
- Reflector: 성공과 오류로부터 구체적인 인사이트 추출
- Curator: 이러한 인사이트를 구조화된 컨텍스트 업데이트로 통합

## 3가지 역할의 협력 과정 요약
```
┌─────────────┐
│   Query     │ "회의 초대 찾아줘"
└──────┬──────┘
       │
       ▼
┌─────────────────────┐
│   Generator         │
│  (문제 해결 시도)   │ → 실패: 잘못된 검색 방법 사용
└──────┬──────────────┘
       │ 시도 기록 전달
       ▼
┌─────────────────────┐
│   Reflector         │
│  (실패 원인 분석)   │ → "email_type 필터를 사용해야 함"
└──────┬──────────────┘      "날짜는 ISO 형식으로"
       │ 인사이트 전달
       ▼
┌─────────────────────┐
│   Curator           │
│  (플레이북 업데이트)│ → 새로운 전략을 구조화하여 추가
└──────┬──────────────┘
       │
       ▼
┌─────────────────────┐
│ Updated Playbook    │ "회의 초대 검색 시 email_type 사용"
└─────────────────────┘ "날짜는 YYYY-MM-DD 형식"
       │
       │ (다음 번 같은 유형의 문제)
       ▼
┌─────────────────────┐
│   Generator         │
│  (플레이북 참고)    │ → ✅ 성공! 학습한 전략 적용
└─────────────────────┘
```

---

## 왜 3가지로 분리했을까?

### 단일 LLM이 모든 것을 하면 안 되는 이유

**분리 전 (전체를 한 번에 재작성)**:
```
LLM: "플레이북을 읽고, 문제를 풀고, 결과를 분석하고,
     플레이북을 다시 써줘"

결과: ❌ 컨텍스트 붕괴
- 18,282 토큰 → 122 토큰으로 급격히 축소
- 중요한 도메인 지식이 사라짐
- 성능 66.7% → 57.1%로 급락
```

**분리 후 (역할별로 전문화)**:
```
Generator: "플레이북을 보고 문제만 풀어"
Reflector: "Generator의 시도를 분석만 해"
Curator: "새로운 지식만 추가해"

결과: ✅ 증분 업데이트
- 기존 지식 보존
- 새로운 지식만 추가
- 성능 지속적 향상 (59.5%)

3가지 핵심 혁신:

전용 Reflector: 평가와 인사이트 추출을 큐레이션에서 분리하여 컨텍스트 품질 및 다운스트림 성능 향상
증분 델타 업데이트: 비용이 많이 드는 전체 재작성을 지역화된 편집으로 대체하여 레이턴시 및 계산 비용 감소
성장 및 정제 메커니즘: 꾸준한 컨텍스트 확장과 중복 제어 균형

[Figure 3: AppWorld 벤치마크에서 ACE 생성 컨텍스트 예시]

전략 및 엄격한 규칙 섹션: 시간에 민감한 거래 처리 시 올바른 소스 앱에서 신원 해결, 적절한 날짜 시간 범위 비교 사용, 필터링 기준 확인
유용한 코드 스니펫 및 템플릿 섹션: 효율적인 아티스트 집계를 위한 defaultdict(list) 사용 코드 예시
문제 해결 및 함정 섹션: 인증 실패 시 체계적 문제 해결, API 문서 확인, 임시 해결책 사용 지양

[Figure 4: ACE 프레임워크]

Generator가 쿼리와 컨텍스트 플레이북을 받아 Trajectory 생성
Reflector가 Trajectory를 받아 반복적 정제를 통해 Insights 추출
Curator가 Insights를 받아 Delta Context Items로 변환
Delta Context Items가 컨텍스트 플레이북에 병합되어 업데이트

원문 인용: "We present ACE (Agentic Context Engineering), a framework for scalable and efficient context adaptation in both offline (e.g., system prompt optimization) and online (e.g., test-time memory adaptation) scenarios. Instead of condensing knowledge into terse summaries or static instructions, ACE treats contexts as evolving playbooks that continuously accumulate, refine, and organize strategies over time."

3.1 Incremental Delta Updates

핵심 내용:

핵심 설계 원칙: 컨텍스트를 단일 모놀리식 프롬프트가 아닌 구조화된 항목화된 불릿(bullet)의 컬렉션으로 표현
불릿(Bullet)의 구성:
- 메타데이터: 고유 식별자, 도움이 되거나 해로운 것으로 표시된 횟수를 추적하는 카운터
- 콘텐츠: 재사용 가능한 전략, 도메인 개념 또는 일반적인 실패 모드와 같은 작은 단위 캡처
Generator의 역할: 새로운 문제 해결 시 어떤 불릿이 유용하거나 오해의 소지가 있는지 강조하여 Reflector의 수정 업데이트 제안을 안내하는 피드백 제공

항목화 설계의 3가지 핵심 속성:

지역화 (Localization): 관련 불릿만 업데이트
세밀한 검색 (Fine-grained Retrieval): Generator가 가장 관련성 높은 지식에 집중
증분 적응 (Incremental Adaptation): 추론 중 효율적인 병합, 가지치기, 중복 제거

델타 컨텍스트 (Delta Contexts):

정의: Reflector가 추출하고 Curator가 통합한 후보 불릿의 작은 집합
장점: 전체 재작성의 계산 비용과 레이턴시 회피, 과거 지식 보존, 새로운 인사이트 꾸준히 추가
확장성: 장기 또는 도메인 집약적 애플리케이션에 필요한 확장성 제공

원문 인용: "A core design principle of ACE is to represent context as a collection of structured, itemized bullets, rather than a single monolithic prompt... Rather than regenerating contexts in full, ACE incrementally produces compact delta contexts: small sets of candidate bullets distilled by the Reflector and integrated by the Curator."

3.2 Grow-and-Refine

핵심 내용:

목적: 증분 성장 외에도 정기적 또는 지연 정제를 통해 컨텍스트가 컴팩트하고 관련성 있게 유지되도록 보장
프로세스:
- 새로운 식별자를 가진 불릿은 추가
- 기존 불릿은 제자리에서 업데이트 (예: 카운터 증가)
- 중복 제거 단계에서 의미론적 임베딩을 통해 불릿 비교하여 중복 제거
정제 전략:
- 적극적 (Proactive): 각 델타 후 수행
- 지연적 (Lazy): 컨텍스트 윈도우 초과 시에만 수행
선택 기준: 레이턴시 및 정확도에 대한 애플리케이션 요구사항에 따라 결정

원문 인용: "Beyond incremental growth, ACE ensures that contexts remain compact and relevant through periodic or lazy refinement. In grow-and-refine, bullets with new identifiers are appended, while existing bullets are updated in place (e.g., incrementing counters). A de-duplication step then prunes redundancy by comparing bullets via semantic embeddings."

4. Results

전체 결과 요약:

고성능 자가 개선 에이전트 구현: AppWorld 벤치마크에서 최대 17.1% 정확도 향상, 실행 피드백만으로 레이블 없이 학습
도메인 특화 벤치마크에서 큰 성과: 복잡한 금융 추론 벤치마크에서 평균 8.6% 성능 향상
설계의 효과성: Ablation 연구를 통해 Reflector, 다중 에폭 정제 등 각 설계 선택이 실질적 성능 기여 확인
낮은 비용 및 적응 레이턴시: 평균 86.9% 낮은 적응 레이턴시, 더 적은 롤아웃 및 토큰 달러 비용

4.1 Tasks and Datasets

평가 카테고리:

LLM 에이전트: AppWorld
금융 분석: FiNER, Formula

AppWorld:

설명: API 이해, 코드 생성, 환경 상호작용을 포함하는 자율 에이전트 태스크 모음
특징: 일반 애플리케이션 및 API(이메일, 파일 시스템)가 있는 현실적인 실행 환경, 두 가지 난이도(normal, challenge)
리더보드: 제출 시점 최고 시스템은 60.3% 평균 정확도만 달성하여 벤치마크의 어려움과 현실성 강조

FiNER:

설명: XBRL 금융 문서의 토큰에 139개의 세밀한 엔티티 유형 중 하나로 레이블링 요구
중요성: 규제 도메인에서 금융 정보 추출의 핵심 단계

Formula:

설명: 구조화된 XBRL 신고서에서 값 추출 및 계산을 수행하여 금융 쿼리에 답변
초점: 수치 추론

평가 메트릭:

AppWorld: Task Goal Completion (TGC), Scenario Goal Completion (SGC), test-normal 및 test-challenge 스플릿 모두 보고
FiNER 및 Formula: 정확도 (예측 답변이 ground truth와 정확히 일치하는 비율)

원문 인용: "We evaluate ACE on two categories of LLM applications that benefit most from a comprehensive and evolving context: (1) agent benchmarks, which require multi-turn reasoning, tool use, and environment interaction, where agents can accumulate and reuse strategies across episodes and environments; and (2) domain-specific benchmarks, which demand mastery of specialized concepts and tactics, where we focus on financial analysis as a case study."

4.2 Baselines and Methods

Base LLM:

데이터셋 저자가 제공한 기본 프롬프트를 사용하여 컨텍스트 엔지니어링 없이 각 벤치마크에서 직접 평가
AppWorld의 경우 벤치마크 저자가 공개한 공식 ReAct 구현을 따르며, 모든 베이스라인과 방법을 이 프레임워크 위에 구축

In-Context Learning (ICL):

입력 프롬프트에 태스크 시연 제공 (few-shot 또는 many-shot)
모델의 컨텍스트 윈도우에 맞는 모든 훈련 샘플 제공, 그렇지 않으면 가능한 한 많은 시연으로 윈도우 채움

MIPROv2:

Bayesian 최적화를 통해 시스템 지시사항과 in-context 시연을 공동으로 최적화하는 인기 있는 프롬프트 최적화 도구
공식 DSPy 구현 사용, auto="heavy" 설정으로 최적화 성능 극대화

GEPA (Genetic-Pareto):

반영적 프롬프트 진화 기반의 샘플 효율적인 프롬프트 최적화 도구
실행 추적 수집, 자연어 반영을 적용하여 오류 진단, 크레딧 할당, 프롬프트 업데이트 제안
Genetic Pareto 검색으로 고성능 프롬프트의 프론티어 유지하여 지역 최적 완화
경험적으로 MIPROv2, GRPO 등 강화학습 방법보다 우수, 최대 35배 적은 롤아웃으로 10-20% 더 높은 정확도 달성

Dynamic Cheatsheet (DC):

재사용 가능한 전략과 코드 스니펫의 적응형 외부 메모리를 도입하는 테스트 시간 학습 접근법
새로 만난 입력과 출력으로 이 메모리를 지속적으로 업데이트하여 모델이 지식을 축적하고 태스크 전반에 걸쳐 재사용 가능
ground-truth 레이블 불필요: 모델이 자체 생성에서 메모리를 큐레이션 가능
공식 구현 사용, cumulative 모드(DC-CU) 설정

ACE (제안 방법):

오프라인 및 온라인 적응 모두를 위한 LLM 컨텍스트 최적화
공정성을 위해 Generator, Reflector, Curator에 동일한 LLM(DeepSeek-V3.1의 non-thinking 모드) 사용
배치 크기 1 (각 샘플에서 델타 컨텍스트 구성)
Reflector 정제 라운드 최대 수 및 오프라인 적응의 최대 에폭 수를 5로 설정

원문 인용: "GEPA (Genetic-Pareto) is a sample-efficient prompt optimizer based on reflective prompt evolution... Empirically, GEPA outperforms reinforcement learning methods such as GRPO and prompt optimizers like MIPROv2, achieving up to 10–20% higher accuracy with as much as 35× fewer rollouts."

4.3 Results on Agent Benchmark

분석:

오프라인 설정: ReAct + ACE가 ReAct + ICL 및 ReAct + GEPA를 각각 12.3%, 11.9%의 상당한 차이로 능가
온라인 설정: ACE가 Dynamic Cheatsheet와 같은 이전 적응 방법을 평균 7.6% 능가
레이블 없는 적응: ReAct + ACE가 ground-truth 레이블 없이도 ReAct 베이스라인 대비 평균 14.8% 향상
실행 피드백 활용: ACE는 실행 중 자연적으로 사용 가능한 신호(코드 실행 성공 또는 실패)를 활용하여 Reflector와 Curator가 성공과 실패의 구조화된 교훈 형성

AppWorld 리더보드 성과:

평균 성능: ReAct + ACE(59.4%)가 최상위 IBM CUGA(60.3%, GPT-4.1 기반 프로덕션급 에이전트)와 매칭
더 어려운 스플릿: 온라인 적응을 통해 ReAct + ACE가 test-challenge 스플릿에서 IBM CUGA를 TGC에서 8.4%, SGC에서 0.7% 초과
모델 크기: 더 작은 오픈소스 모델(DeepSeek-V3.1) 사용에도 불구하고 달성

[Table 1: AppWorld 에이전트 벤치마크 결과]

Offline Adaptation에서 ReAct + ACE (GT labels O): TGC 76.2%, SGC 64.3%, 평균 59.4%
Online Adaptation에서 ReAct + ACE (GT labels X): TGC 69.6%, SGC 53.6%, 평균 59.5%
모든 베이스라인(ICL, GEPA, DC) 대비 우수한 성능

[Figure 5: AppWorld 리더보드 스냅샷 (2025년 9월 20일)]

IBM CUGA: Test-Normal TGC 73.2, SGC 62.5, Test-Challenge TGC 57.6, SGC 48.2
ReAct + ACE가 특히 Test-Challenge에서 경쟁력 있는 성능

원문 인용: "In the agent use case, ACE remains effective even without access to ground-truth labels during adaptation: ReAct + ACE achieves an average improvement of 14.8% over the ReAct baseline in this setting... Notably, on the latest AppWorld leaderboard, on average, ReAct + ACE (59.4%) matches the top-ranked IBM CUGA (60.3%), a production-level GPT-4.1–based agent, despite using the smaller open-source model DeepSeek-V3.1."

4.4 Results on Domain-Specific Benchmark

분석:

오프라인 설정 (GT labels 있음): ACE가 ICL, MIPROv2, GEPA를 평균 10.9% 초과하여 구조화되고 진화하는 컨텍스트가 정확한 도메인 지식이 필요한 태스크에 특히 효과적임을 입증
온라인 설정: ACE가 DC와 같은 이전 적응 방법을 평균 6.2% 능가하여 전문 도메인 전반에 걸쳐 재사용 가능한 인사이트를 축적하는 에이전틱 컨텍스트 엔지니어링의 이점 확인
피드백 품질의 중요성: ground-truth 감독이나 신뢰할 수 있는 실행 신호가 없을 때 ACE와 DC 모두 성능 저하 가능성 관찰
- 잘못되거나 오해의 소지가 있는 신호로 인해 구성된 컨텍스트가 오염될 수 있음
- 이는 신뢰할 수 있는 피드백 없이 추론 시간 적응의 잠재적 한계 강조

[Table 2: 금융 분석 벤치마크 결과]

FiNER: ACE (GT labels O) 78.3%, Base LLM 70.7% → +7.6% 향상
Formula: ACE (GT labels O) 85.5%, Base LLM 67.5% → +18.0% 향상
평균: ACE가 선택된 베이스라인 대비 평균 8.6% 능가
GT labels 없이도 Formula에서 78.5%로 Base LLM 대비 +11.0% 향상

원문 인용: "In the offline setting, when provided with ground-truth answers from the training split, ACE surpasses ICL, MIPROv2, and GEPA by clear margins (an average of 10.9%), showing that structured and evolving contexts are particularly effective when tasks require precise domain knowledge (e.g., financial concepts, XBRL rules) that goes beyond fixed demonstrations or monolithic optimized prompts."

4.5 Ablation Study

연구 목적: ACE의 개별 설계 선택이 효과적인 컨텍스트 적응에 어떻게 기여하는지 분석

검토한 3가지 요인:

반복적 정제를 포함한 Reflector: Dynamic Cheatsheet를 넘어선 에이전틱 프레임워크에 대한 추가 사항
다중 에폭 적응 (Multi-epoch Adaptation): 훈련 샘플을 여러 번 반복하여 컨텍스트 정제
오프라인 워밍업 (Offline Warmup): 온라인 적응 시작 전 오프라인 적응을 통해 컨텍스트 초기화

[Table 3: AppWorld의 Ablation 연구]

w/o Reflector or multi-epoch: 평균 55.1% (+12.7% vs Base)
w/o multi-epoch: 평균 56.8% (+14.4% vs Base)
Full ACE (offline): 평균 59.4% (+17.0% vs Base)
Online w/o warmup: 평균 56.1% (+13.7% vs Base)
Online + offline warmup: 평균 59.5% (+17.1% vs Base)

인사이트:

Reflector와 다중 에폭 정제 각각이 실질적인 성능 향상에 기여
오프라인 워밍업이 온라인 적응 성능을 크게 개선

원문 인용: "Table 3 reports ablation studies on the AppWorld benchmark, analyzing how individual design choices of ACE contribute to effective context adaptation. We examine three factors: (1) the Reflector with iterative refinement, our addition to the agentic framework beyond Dynamic Cheatsheet, (2) multi-epoch adaptation, which refines contexts over training samples multiple times, and (3) offline warmup, which initializes the context through offline adaptation before online adaptation begins."

4.6 Cost and Speed Analysis

효율성 분석:

증분 "델타" 컨텍스트 업데이트 및 비LLM 기반 컨텍스트 병합과 중복 제거 지원으로 인해 ACE는 적응 비용 및 레이턴시 감소에서 특정 이점 입증

[Table 4(a): AppWorld 오프라인 적응]

GEPA: Latency 53,898초, Rollouts 1,434회
ACE: Latency 9,517초 (-82.3%), Rollouts 357회 (-75.1%)

[Table 4(b): FiNER 온라인 적응]

DC (CU): Latency 65,104초, Token Cost $17.7
ACE: Latency 5,503초 (-91.5%), Token Cost $2.9 (-83.6%)

인사이트:

ACE는 GEPA 대비 오프라인 적응 레이턴시 82.3% 감소, 롤아웃 수 75.1% 감소
DC 대비 온라인 적응 레이턴시 91.5% 감소, 토큰 달러 비용 83.6% 감소
확장 가능한 자가 개선이 더 높은 정확도와 더 낮은 오버헤드로 달성 가능함을 입증

원문 인용: "Due to its support for incremental, 'delta' context updates and non-LLM-based context merging and de-duplication, ACE demonstrates particular advantages in reducing the cost (in terms of the number of rollouts or the amount of dollar cost for token ingestion/generation) and latency of adaptation."

5. Discussion

더 긴 컨텍스트 ≠ 더 높은 서빙 비용:

ACE가 GEPA와 같은 방법보다 더 긴 컨텍스트 생성하지만 이것이 선형적으로 더 높은 추론 비용이나 GPU 메모리 사용으로 이어지지 않음
이유: 현대 서빙 인프라는 KV 캐시의 재사용, 압축, 오프로드와 같은 기술을 통해 장기 컨텍스트 워크로드에 점점 더 최적화
이러한 메커니즘으로 자주 재사용되는 컨텍스트 세그먼트를 로컬 또는 원격으로 캐시하여 반복적이고 비용이 많이 드는 prefill 작업 회피
ML 시스템의 지속적인 발전으로 장기 컨텍스트 처리의 분할 상환 비용이 계속 감소할 것으로 예상

온라인 및 지속적 학습에 대한 시사점:

중요성: 분포 이동 및 제한된 훈련 데이터 문제 해결을 위한 핵심 연구 방향
ACE의 이점:
- 기존 모델 파인튜닝에 비해 컨텍스트 적응이 일반적으로 더 저렴
- 컨텍스트가 인간에게 해석 가능하므로 선택적 언러닝(unlearning) 가능
- 개인정보 보호, 법적 제약, 도메인 전문가가 오래되거나 잘못된 정보를 식별한 경우 유용
향후 연구 방향: ACE가 지속적이고 책임감 있는 학습을 발전시키는 데 중심적 역할 가능

원문 인용: "Although ACE produces longer contexts than methods such as GEPA, this does not translate to linearly higher inference cost or GPU memory usage. Modern serving infrastructures are increasingly optimized for long-context workloads through techniques such as the reuse, compression, and offload of KV cache."

Appendix A. Related Work on Agent Memory

핵심 내용:

AgentFly: 에이전트가 태스크를 해결하면서 메모리가 지속적으로 진화하는 확장 가능한 프레임워크, 다양한 환경에서 확장 가능한 강화학습 및 장기 추론 가능
AWM (Agent Workflow Memory): 과거 궤적에서 추출한 재사용 가능한 워크플로우(구조화된 루틴)를 유도하고 메모리에 선택적으로 주입하여 웹 내비게이션 벤치마크에서 효율성과 일반화 개선
A-MEM: Zettelkasten 방법에서 영감을 받은 동적으로 조직화된 메모리 시스템
- 각 저장된 메모리는 구조화된 속성(태그, 키워드, 컨텍스트 설명)으로 주석 처리
- 관련 과거 항목에 자동으로 연결
- 기존 항목이 새로운 지식을 통합하도록 업데이트되어 적응형 및 컨텍스트 인식 검색 제공
Agentic Plan Caching: 에이전트 궤적에서 재사용 가능한 계획 템플릿을 추출하고 테스트 시간에 빠른 실행을 위해 캐시하여 비용 효율성에 초점

본 연구와의 차이점:

더 넓은 범위: 에이전트 메모리뿐만 아니라 시스템 프롬프트, 사실적 증거 및 AI 시스템을 뒷받침하는 기타 입력을 포괄하는 컨텍스트 적응의 광범위한 과제 다룸
핵심 한계 해결: 간결성 편향과 컨텍스트 붕괴라는 두 가지 근본적 한계 강조하고 이를 해결하는 것이 원시 태스크 성능을 넘어 견고성, 신뢰성, 확장성에 필수적임을 입증
다차원 평가: 정확도뿐만 아니라 비용, 레이턴시, 확장성도 고려

원문 인용: "A growing body of work explores how agents can accumulate experience from past trajectories and leverage external (often non-parametric) memory to guide future actions... Our work differs by tackling the broader challenge of context adaptation, which spans not only agent memory but also system prompts, factual evidence, and other inputs underpinning AI systems."

Appendix B. Limitations and Challenges

ACE의 잠재적 한계:

강력한 Reflector에 대한 의존성: Reflector가 생성된 추적이나 결과에서 의미 있는 인사이트를 추출하지 못하면 구성된 컨텍스트가 노이즈가 있거나 심지어 해로울 수 있음
도메인 특화 태스크의 한계: 어떤 모델도 유용한 인사이트를 추출할 수 없는 도메인별 태스크에서는 결과 컨텍스트가 자연스럽게 이를 결여
Dynamic Cheatsheet과 유사한 의존성: 적응의 품질이 기본 모델의 메모리 큐레이션 능력에 달려 있음

모든 애플리케이션에 적합하지 않음:

HotPotQA: 증거 검색 및 합성 방법에 대한 간결하고 고수준의 지시사항에서 더 많은 이점
Game of 24: 고정된 전략이 있는 게임은 단일 재사용 가능한 규칙만 필요할 수 있어 추가 컨텍스트가 중복

ACE가 가장 유익한 설정:

상세한 도메인 지식을 요구하는 설정
복잡한 도구 사용이 필요한 설정
모델 가중치나 단순 시스템 지시사항에 이미 내장된 것을 넘어서는 환경별 전략이 필요한 설정

원문 인용: "A potential limitation of ACE is its reliance on a reasonably strong Reflector: if the Reflector fails to extract meaningful insights from generated traces or outcomes, the constructed context may become noisy or even harmful... Overall, ACE is most beneficial in settings that demand detailed domain knowledge, complex tool use, or environment-specific strategies that go beyond what is already embedded in model weights or simple system instructions."

Appendix C. AppWorld Leaderboard Snapshot (09/2025)

[Figure 5: 2025년 9월 20일에 액세스한 AppWorld 리더보드]

상위 순위:
1. IBM CUGA (GPT-4.1): Test-Normal TGC 73.2, SGC 62.5 / Test-Challenge TGC 57.6, SGC 48.2
2. LOOP (Qwen2.5-32B): Test-Normal TGC 72.6, SGC 53.6 / Test-Challenge TGC 47.2, SGC 28.8
3. ReAct + 2 SetBSR Demos (GPT-4o): Test-Normal TGC 68.5, SGC 57.1 / Test-Challenge TGC 38.9, SGC 23
4. ReAct (GPT-4o): Test-Normal TGC 48.8, SGC 32.1 / Test-Challenge TGC 30.2, SGC 13

Appendix D. Prompts

프롬프트 공개 목적: 연구 투명성 및 재현성 지원을 위해 에이전틱 컨텍스트 엔지니어링 프레임워크 및 베이스라인에 사용된 언어 모델 프롬프트 공개

포함된 프롬프트:

Figure 6: AppWorld의 ICL 베이스라인 Generator 프롬프트
Figure 7: AppWorld의 Dynamic Cheatsheet Generator 프롬프트
Figure 8: AppWorld의 GEPA 프롬프트
Figure 9: AppWorld의 ACE Generator 프롬프트
Figure 10: AppWorld의 ACE Reflector 프롬프트
Figure 11: AppWorld의 ACE Curator 프롬프트
Figure 12: FINER의 ACE Generator 프롬프트
Figure 13: FINER의 ACE Reflector 프롬프트
Figure 14: FINER의 ACE Curator 프롬프트

주요 프롬프트 특징:

ICL Generator (Figure 6):

Python REPL 환경에서 다단계 대화 수행
API 문서 조회를 위한 3가지 핵심 API 제공
3-shot 예시 포함
8가지 핵심 지시사항 (코드 블록 종료, 변수 재사용, API 문서 확인 등)

Dynamic Cheatsheet Generator (Figure 7):

관련 전략, 패턴, 예시가 포함된 cheatsheet 제공
3가지 주요 섹션: 분석 및 전략, 솔루션 개발, 프로그래밍 태스크
프로그래밍 시 엄격한 코드 포맷팅 및 실행 프로토콜 따름

ACE Generator (Figure 9):

ACE Playbook 제공 (PLAYBOOK_BEGIN ~ PLAYBOOK_END)
"Playbook을 먼저 읽은 다음, 각 관련 섹션을 명시적으로 활용하여 태스크 실행"
Cheatsheet를 도구로 취급하여 상황과 태스크 컨텍스트에 관련되고 적용 가능한 부분만 사용 (Key Instructions 9)

ACE Reflector (Figure 10):

Reflector 프롬프트에 사용된 Example

용도: ACE 프레임워크의 Reflector 역할 - 실패 분석 및 인사이트 추출
ground truth 코드, 테스트 보고서, ACE playbook을 입력으로 받음
오류 식별, 근본 원인 분석, 올바른 접근법, 핵심 인사이트 제공
playbook의 각 bulletpoint에 대해 'helpful', 'harmful', 'neutral' 태그 부여
JSON 형식으로 출력

ACE Curator (Figure 11):

기존 playbook과 reflection을 검토하여 누락된 새로운 인사이트만 식별
중복 회피, 품질 중심
순수 JSON 객체로 응답 (마크다운 포맷팅이나 코드 블록 없음)
Available Operations: ADD (새로운 bullet 생성)
섹션별로 새 컨텐츠 추가 (예: strategies_and_hard_rules, apis_to_use_for_specific_information 등)

7. 참조 논문

논문 제목 주저자 발표시기 추천이유 간략 내용

Dynamic Cheatsheet: Test-time Learning with Adaptive Memory	Mirac Suzgun	2025년 4월	ACE의 기반 프레임워크	재사용 가능한 전략과 코드 스니펫의 적응형 외부 메모리를 도입하여 테스트 시간에 지식을 축적하고 태스크 전반에 재사용. Ground-truth 레이블 불필요
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning	Lakshya A Agrawal	2025년 7월	ACE와 비교한 주요 베이스라인	반영적 프롬프트 진화 기반 샘플 효율적 프롬프트 최적화. 실행 추적 기반 자연어 반영으로 오류 진단 및 프롬프트 업데이트. Genetic Pareto 검색으로 고성능 프롬프트 프론티어 유지
Reflexion: Language Agents with Verbal Reinforcement Learning	Noah Shinn	2023년	자연어 피드백 기반 컨텍스트 적응의 대표 사례	실패를 반영하여 에이전트 계획을 개선하는 방법. 언어적 강화학습을 통해 에이전트가 자신의 실수로부터 학습
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents	Harsh Trivedi	2024년 7월	ACE 평가에 사용된 핵심 에이전트 벤치마크	API 이해, 코드 생성, 환경 상호작용을 포함하는 현실적인 자율 에이전트 태스크 모음. 일반 애플리케이션(이메일, 파일 시스템) 및 API 포함
A-MEM: Agentic Memory for LLM Agents	Wujiang Xu	2025년 2월	에이전트 메모리 관련 최신 연구	Zettelkasten 방법에서 영감을 받은 동적으로 조직화된 메모리 시스템. 각 메모리를 구조화된 속성으로 주석 처리하고 관련 과거 항목에 자동 연결. 적응형 및 컨텍스트 인식 검색 제공

A Comprehensive Survey of Self-Evolving AI Agents

빛나는 일상 — Tue, 13 Jan 2026 07:03:18 +0900

논문 정리: A Comprehensive Survey of Self-Evolving AI Agents

핵심 요약

자가 진화 AI 에이전트: 환경과의 상호작용을 통해 자율적으로 내부 구성 요소를 최적화하며 지속적으로 자기 개선하는 시스템

Three Laws of Self-Evolving AI Agents: Endure (안전 적응), Excel (성능 보존), Evolve (자율 진화)라는 세 가지 원칙 제시

MOP→MOA→MAO→MASE 패러다임: 정적 사전학습에서 완전 자율적인 평생 자가 진화 시스템으로의 발전 경로 제시

통합 개념 프레임워크: System Inputs, Agent System, Environment, Optimisers로 구성된 피드백 루프 기반 최적화 체계

다양한 최적화 기법: 단일 에이전트(프롬프트, 메모리, 도구), 멀티 에이전트(토폴로지, 통신), 도메인 특화(의료, 프로그래밍, 금융) 최적화 방법 종합 조사

1. 논문 기본 정보

제목: A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems
저자(학교, 기관): Jinyuan Fang, Yanwen Peng, Xi Zhang (University of Glasgow, University of Sheffield, Mohamed bin Zayed University of Artificial Intelligence 등 다수 기관)
발표일: 2025년 8월 (arXiv v2)
학회/저널명: arXiv preprint
DOI/URL: https://arxiv.org/pdf/2508.07407

2. 한줄 요약

환경과의 상호작용을 통해 프롬프트, 메모리, 도구, 워크플로우 등 내부 구성요소를 자율적으로 최적화하며 지속적으로 자기 개선하는 자가 진화 AI 에이전트의 기술, 평가, 과제를 포괄적으로 조사한 서베이 논문입니다.

3. 결론

자가 진화 AI 에이전트는 정적인 기초 모델의 능력과 평생 에이전트 시스템에 필요한 지속적 적응성을 연결하는 새로운 패러다임을 제시
**Three Laws(Endure, Excel, Evolve)**는 안전하고 효과적인 자가 진화를 위한 설계 제약으로 작동
MOP→MOA→MAO→MASE 진화 경로를 통해 정적 사전학습에서 완전 자율적 자가 진화 시스템으로의 발전 방향 제시
통합 개념 프레임워크는 다양한 최적화 접근법을 체계적으로 이해하고 비교할 수 있는 기반 제공
단일 에이전트, 멀티 에이전트, 도메인 특화 최적화 기법을 포괄적으로 조사하여 연구자와 실무자에게 실용적 가이드라인 제공
평가, 안전성, 윤리적 고려사항의 중요성을 강조하며 효과적이고 책임감 있는 배포 필요성 제시
향후 연구 방향으로 시뮬레이션 환경, 도구 생성, 실세계 평가, 효율성-효과성 균형, 도메인 인식 진화 등 제시

4. 해결하려는 문제

핵심 문제:

대부분의 기존 에이전트 시스템은 수동으로 설계된 정적 구성에 의존하며, 배포 후에도 고정된 구조와 기능을 유지
실세계 환경은 동적이고 지속적으로 변화하지만(사용자 의도 변화, 작업 요구사항 변경, 외부 도구 변동 등), 에이전트 시스템을 수동으로 재구성하는 것은 시간 소모적이고 확장이 어려움
단일 에이전트 시스템은 작업 전문화와 복잡한 환경에서의 조율에 어려움을 겪음
멀티 에이전트 시스템도 수동 설계된 워크플로우, 고정된 통신 프로토콜, 사람이 선별한 도구체인에 의존

원문 인용: "Despite the notable progress in agent systems, most of them, whether single- or multi-agent, continue to rely extensively on manually designed configurations. Once deployed, these systems typically maintain static architectures and fixed functionalities. However, real-world environments are dynamic and continuously evolving, e.g., user intents shift, task requirements change, and external tools or information sources may vary over time."

"These challenges have motivated recent efforts to explore the new paradigm of Self-Evolving AI Agents, a novel class of agent systems capable of autonomous adaptation and continuous self-improvement, bridging foundation models with lifelong learning agentic systems."

5. 제안 기술

핵심 기술:

1) Self-Evolving AI Agents의 정의:

환경과의 상호작용을 통해 내부 구성요소를 지속적이고 체계적으로 최적화하는 자율 시스템
변화하는 작업, 맥락, 자원에 적응하면서 안전성을 유지하고 성능을 향상시키는 것이 목표

2) Three Laws of Self-Evolving AI Agents:

I. Endure (안전 적응): 모든 수정 과정에서 안정성을 유지해야 함
II. Excel (성능 보존): 첫 번째 법칙에 따라 기존 작업 성능을 보존하거나 향상시켜야 함
III. Evolve (자율 진화): 첫 번째와 두 번째 법칙에 따라 변화하는 작업, 환경, 자원에 반응하여 내부 구성요소를 자율적으로 최적화해야 함

3) 패러다임 진화 (MOP→MOA→MAO→MASE):

MOP (Model Offline Pretraining): 대규모 정적 코퍼스에서 기초 모델 사전학습 후 고정된 상태로 배포
MOA (Model Online Adaptation): 배포 후 SFT, LoRA, RLHF 등을 통해 모델 업데이트
MAO (Multi-Agent Orchestration): 여러 LLM 에이전트가 메시지 교환이나 토론 프롬프트를 통해 협력
MASE (Multi-Agent Self-Evolving): 환경 피드백과 메타 보상을 기반으로 프롬프트, 메모리, 도구 사용 전략, 상호작용 패턴을 지속적으로 개선

4) 통합 개념 프레임워크:

System Inputs (I): 작업 설명, 입력 데이터, 맥락 정보 등 시스템에 제공되는 정보
Agent System (A): 최적화 대상인 핵심 구성요소 (LLM, 프롬프트, 메모리, 도구 등)
Environment: 에이전트가 작동하고 피드백을 생성하는 외부 맥락
Optimiser (P): 검색 공간(S)과 최적화 알고리즘(H)을 통해 에이전트 시스템을 업데이트

5) 주요 최적화 기법:

단일 에이전트: LLM 행동, 프롬프트, 메모리, 도구 최적화
멀티 에이전트: 프롬프트, 토폴로지(코드 레벨 워크플로우, 통신 그래프), 통합 최적화, LLM 백본 최적화
도메인 특화: 의료 진단, 분자 발견, 코드 개선, 금융 의사결정, 법률 추론 등

원문 인용: "Self-evolving AI agents are autonomous systems that continuously and systematically optimise their internal components through interaction with environments, with the goal of adapting to changing tasks, contexts and resources while preserving safety and enhancing performance."

"The evolution from MOP to MASE represents a fundamental shift in the development of LLM-based systems, from static, manually configured architectures to adaptive, data-driven systems that can evolve in response to changing requirements and environments."

6. 단락별 정리

Abstract

핵심 내용:

LLM 기반 AI 에이전트가 복잡한 실세계 작업 해결에 관심 증가
기존 시스템은 배포 후 정적으로 유지되어 동적 환경 적응 제한
자가 진화 AI 에이전트는 기초 모델의 정적 능력과 평생 에이전트 시스템의 지속적 적응성을 연결
통합 개념 프레임워크 제시: System Inputs, Agent System, Environment, Optimisers
단일/멀티 에이전트 최적화, 도메인 특화 전략, 평가/안전성/윤리 검토

원문 인용: "Recent advances in large language models (LLMs) have sparked growing interest in AI agents capable of solving complex, real-world tasks. However, most existing agent systems rely on manually crafted configurations that remain static after deployment, limiting their ability to adapt to dynamic and evolving environments."

"This emerging direction lays the foundation for self-evolving AI agents, which bridge the static capabilities of foundation models with the continuous adaptability required by lifelong agentic systems."

1. Introduction

핵심 내용:

LLM의 발전으로 계획, 추론, 자연어 이해 능력이 크게 향상
LLM 기반 에이전트는 개방형 실세계 환경에서 입력 이해, 행동 계획, 출력 생성하는 자율 시스템
일반적인 AI 에이전트 구성요소: 기초 모델(LLM), 인식, 계획, 메모리, 도구
단일 에이전트의 한계: 작업 전문화와 복잡 환경 조율에 어려움
**멀티 에이전트 시스템(MAS)**으로 발전: 기능 전문화, 상호작용, 조율을 통해 단일 에이전트 한계 극복
정적 구성의 문제: 수동 설계에 의존, 배포 후 고정, 동적 환경 변화에 대응 어려움
자가 진화 AI 에이전트의 필요성: 환경과 상호작용하며 자율 적응 및 지속적 자기 개선

[Figure 1] LLM 중심 학습의 진화: 정적 데이터 학습 → 동적 환경 상호작용 → 멀티 에이전트 협업 및 자가 진화를 통한 평생 학습

원문 인용: "A typical AI agent consists of several components that enable it to perform complex, goal-oriented tasks in an autonomous manner. The foundation model (e.g. an LLM) is the core, responsible for interpreting goals, making plans, and executing actions."

2. Foundation of AI Agent Systems

2.1 AI Agents

핵심 내용:

AI 에이전트 정의: 입력을 인식하고, 목표에 대해 추론하며, 환경과 상호작용하여 작업을 완료하는 자율 시스템
핵심 구성요소:
- 기초 모델(Foundation Model): LLM이 중심 추론 엔진 역할
- 인식 모듈(Perception Module): 환경에서 정보 획득 및 해석
- 계획 모듈(Planning Module): 복잡한 작업을 실행 가능한 하위 작업으로 분해 (예: Chain-of-Thought, ReAct, Tree-of-Thought, Graph-of-Thought)
- 메모리 모듈(Memory Module): 단기/장기 메모리 유지, RAG 활용
- 도구 사용(Tool Use): 웹 검색, 코드 인터프리터, 브라우저 자동화 등 외부 도구 활용

원문 인용: "An AI agent refers to an autonomous system capable of perceiving its inputs, reasoning about goals, and interacting with the environment to complete tasks."

"The core component of an agent is the Foundation Model, most commonly an LLM, which serves as the central reasoning engine responsible for interpreting instructions, generating plans, and producing actionable responses."

2.2 Multi-Agent Systems

핵심 내용:

MAS 정의: 공유 환경 내에서 상호작용하며 단일 에이전트 능력을 초과하는 목표 달성을 위한 자율 에이전트 집합
MAS의 장점:
- 작업 분해 및 전문화: 복잡한 작업을 관리 가능한 하위 작업으로 분해
- 병렬 실행: 여러 에이전트가 동시 작업으로 시간 단축
- 견고성: 한 에이전트 실패 시 다른 에이전트가 작업 재분배
- 확장성: 새 에이전트를 전체 시스템 재설계 없이 통합 가능
- 혁신적 해결책: 토론 및 반복 개선을 통해 다양한 관점 활용

2.2.1 System Architecture

핵심 내용:

계층적 구조(Hierarchical Structure): 선형 또는 트리 기반 조직, 작업을 순차적으로 할당 (예: MetaGPT, HALO)
중앙화 구조(Centralised Structure): 관리자-추종자 패러다임, 중앙 에이전트가 계획 및 작업 분배
탈중앙화 구조(Decentralised Structure): 에이전트가 분산 네트워크에서 동료로 협력, 단일 장애점 제거

원문 인용: "MAS are formally defined as a collection of autonomous agents that interact within a shared environment to achieve goals that are beyond the capabilities of a single agent."

"The key insight is that when multiple agents collaborate through such workflows, the system's overall performance can exceed the sum of the individual capabilities of all agents within the system."

2.2.2 Communication Mechanisms

핵심 내용:

구조화된 출력(Structured Output): JSON, XML, 실행 가능 코드 사용, 높은 기계 가독성 및 해석 가능성
자연어(Natural Language): 풍부한 맥락 및 의미 세부 정보 보존, 창의적 작업에 적합하지만 모호성 존재
표준화된 프로토콜(Standardised Protocols):
- A2A: 수평적 통신, 피어 간 작업 위임 모델
- ANP: 탈중앙화된 "에이전트 인터넷"을 위한 안전한 수평적 통신
- MCP: 개별 에이전트와 외부 도구/데이터 자원 간 수직적 통신
- Agora: 수평적 통신을 위한 메타 프로토콜, 동적 협상 및 진화

원문 인용: "The effectiveness of MAS largely depends on how agents exchange information and coordinate actions. Communication methods in MAS have evolved from simple message passing to sophisticated protocols that balance expressiveness, efficiency, and interoperability."

2.3 The Vision of Lifelong, Self-Evolving Agentic Systems

핵심 내용:

현재의 한계: 수동 제작된 워크플로우, 고정된 통신 프로토콜, 사람이 선별한 도구체인에 의존
MASE 시스템의 목표: 에이전트 집단이 환경 피드백과 메타 보상을 기반으로 프롬프트, 메모리, 도구 사용 전략, 상호작용 토폴로지를 자율적으로 개선
Three Laws 기반 설계:
- (I) 운영 중 성능 및 안전 프로파일 모니터링
- (II) 제어된 점진적 업데이트를 통한 능력 보존 또는 향상
- (III) 변화하는 작업, 환경, 자원에 반응하여 프롬프트, 메모리 구조, 도구 사용 전략, 에이전트 간 토폴로지를 자율적으로 적응
광범위한 영향: 과학 발견, 소프트웨어 엔지니어링, 인간-AI 협업, 사이버-물리 인프라 등

원문 인용: "The emerging paradigm of Multi-Agent Self-Evolving (MASE) systems addresses these limitations by closing the loop between deployment and continual improvement."

"By treating agents as reconfigurable computational entities capable of self-evolving, coordination, and long-term adaptation, MASE offers a pathway toward scalable, sustainable, and trustworthy AI – AI that is not just trained once, but that lives, learns, and lasts."

3. A Conceptual Framework of MASE

3.1 Overview of the Self-Evolving Process

핵심 내용:

자가 진화 프로세스: 성능 평가 및 환경 상호작용에서 얻은 피드백 신호를 기반으로 반복적 최적화
프로세스 구성요소:
- System Inputs: 작업 사양, 입력 데이터, 맥락 정보
- Agent System: 단일 또는 멀티 에이전트 아키텍처로 작업 수행
- Environment: 운영 맥락 제공 및 평가 메트릭 기반 피드백 생성
- Optimiser: 특정 알고리즘 및 전략으로 에이전트 시스템 업데이트
반복 루프: 에이전트 시스템이 점진적으로 개선되며, 성능 임계값 도달 또는 수렴 기준 충족 시 종료

[Figure 3] 자가 진화 프로세스의 개념 프레임워크: Setup → Execution → Feedback → Mutation/Refine 순환

원문 인용: "The process begins with a task specification, which may include a high-level description, input data, contextual information, or concrete examples. These elements constitute the system inputs, which define the problem setting for the agent system."

"This process forms an iterative, closed feedback loop in which the agent system is progressively refined and optimised over multiple iterations. The loop terminates once a predefined performance threshold is reached or convergence criteria are satisfied."

3.2 System Inputs

핵심 내용:

System Inputs (I): 최적화 프로세스에 제공되는 맥락 정보 및 데이터
작업 레벨 최적화(Task-Level Optimisation): 특정 작업에 대한 전체 성능 향상 목표, I = {T, Dtrain}
인스턴스 레벨 최적화(Instance-Level Optimisation): 특정 예제에 대한 성능 향상, I = {x, y, C}

원문 인용: "System inputs refer to the contextual information and data provided to the optimisation process. Formally, we denote the set of system inputs as I, which may consist of one or more elements that specify task requirements, constraints, and available data."

3.3 Agent Systems

핵심 내용:

Agent System (A): 최적화 대상인 핵심 구성요소, 단일 또는 여러 협력 에이전트로 구성
구성요소: LLM, 프롬프팅 전략, 메모리 모듈, 도구 사용 정책 등
최적화 범위: 단일 구성요소(예: LLM 미세조정, 프롬프트 튜닝) 또는 여러 구성요소 동시 최적화

원문 인용: "The agent system is the core component within the feedback loop that is subject to optimisation. It defines the decision-making process and functionality of the agent(s) in response to given inputs."

3.4 Environments

핵심 내용:

Environment: 에이전트 시스템이 작동하고 출력을 생성하는 외부 맥락
역할: 입력 인식, 행동 실행, 결과 수신을 통한 상호작용 및 피드백 신호 생성
피드백 메트릭: 작업별 메트릭(정확도, F1, 성공률) 또는 LLM 기반 평가자

원문 인용: "The environment serves as the external context in which the agent system operates and generates outputs. Specifically, the agent system interacts with the environment by perceiving its inputs, executing actions, and receiving corresponding outcomes."

3.5 Optimisers

핵심 내용:

Optimiser (P): 환경 피드백을 기반으로 에이전트 시스템을 개선하는 핵심 구성요소
목표: 주어진 평가 메트릭에서 최고 성능을 달성하는 에이전트 구성 탐색
수식: A* = arg max_{A∈S} O(A; I)
핵심 구성요소:
- 검색 공간(S): 탐색 및 최적화 가능한 에이전트 구성 집합
- 최적화 알고리즘(H): 규칙 기반 휴리스틱, 경사 하강, 베이지안 최적화, MCTS, 강화학습, 진화 전략 등

원문 인용: "Optimisers (P) are the core component of the self-evolving feedback loop, responsible for refining the agent system A based on performance feedback from the environment. Their objective is to search, via specialised algorithms and strategies, for the agent configuration that achieves the best performance under the given evaluation metric."

4. Single-Agent Optimisation

[Figure 4] 단일 에이전트 최적화 개요: LLM 행동, 프롬프트, 메모리, 도구 최적화로 구분

4.1 LLM Behaviour Optimisation

4.1.1 Training-Based Behaviour Optimisation

핵심 내용:

Supervised Fine-tuning (SFT):
- 자세한 추론 단계가 포함된 주석 데이터로 훈련
- 추론 궤적 구성: (1) 에이전트 자체 롤아웃, (2) 강한 교사 에이전트 데모
- 예: STaR, NExT, Deepseek-Prover, ToRA
Reinforcement Learning (RL):
- 추론을 순차적 의사결정 프로세스로 처리
- 선호 기반 최적화(DPO), 검증 가능한 보상 활용(DeepSeek-R1), 자가 진화(Self-Rewarding, Absolute Zero)

원문 인용: "The core idea of supervised fine-tuning is to train agents using annotated data that contains detailed reasoning steps, allowing the model to learn a complete mapping from the input question, through intermediate reasoning processes, to the final answer."

"RL treats reasoning as a sequential decision-making process where the model is rewarded for producing correct or high-quality reasoning paths."

4.1.2 Test-Time Behaviour Optimisation

핵심 내용:

피드백 기반 전략(Feedback-based Strategy):
- 결과 레벨 피드백(외부 도구 또는 학습된 검증자 사용)
- 단계 레벨 피드백(프로세스 보상 모델로 중간 단계 평가)
- 예: CodeT, LEVER, Baldur, Math-Shepherd
검색 기반 전략(Search-based Strategy):
- 여러 후보 추론 경로 병렬 탐색
- 예: CoT-SC(다수결), DBS(빔 서치), Tree-of-Thoughts(MCTS), Graph-of-Thoughts

원문 인용: "As training resources become increasingly constrained and API-based models cannot be fine-tuned, test-time compute emerges as a solution to these limitations by enabling models to refine or extend their reasoning capabilities during inference without additional training."

4.2 Prompt Optimisation

4.2.1 Edit-Based Prompt Optimisation

핵심 내용:

사전 정의된 편집 작업(토큰 삽입, 삭제, 대체)으로 프롬프트 반복 개선
예: GRIPS, Plum, TEMPERA

원문 인용: "Earlier attempts in prompt optimisation focus on edit-based approaches, which iteratively refine human-written prompts through predefined editing operations, such as token insertion, deletion or substitution."

4.2.2 Generative Prompt Optimisation

핵심 내용:

LLM을 활용하여 기본 프롬프트와 최적화 신호를 조건으로 완전히 새로운 프롬프트 생성
최적화 신호: 재작성 규칙, 입출력 예제, 이전 프롬프트 점수, 메타 프롬프트, 성공/실패 사례
고급 검색 전략: Gibbs 샘플링, MCTS, 베이지안 최적화, 신경 밴딧
예: ORPO, StraGo, PromptAgent, MIPRO, Retroformer

원문 인용: "In contrast to edit-based methods that apply local modifications to prompts, generative approaches leverage LLMs to iteratively generate entirely new prompts, conditioned on a base prompt and various optimisation signals."

4.2.3 Text Gradient-Based Prompt Optimisation

핵심 내용:

자연어 피드백인 "텍스트 그래디언트"를 생성하여 프롬프트 업데이트 안내
신경망의 경사 기반 학습에서 영감
예: ProTeGi, TextGrad, Agent Symbolic Learning

원문 인용: "These methods draw inspiration from gradient-based learning in neural networks, but instead of computing numerical gradients over model parameters, they generate natural language feedback, which is referred to as 'text gradient', that guides how a prompt should be updated to optimise a given objective."

4.2.4 Evolutionary Prompt Optimisation

핵심 내용:

진화 알고리즘을 활용하여 후보 프롬프트 집단을 유지하고 돌연변이, 교차, 선택을 통해 반복 개선
예: EvoPrompt, Promptbreeder

원문 인용: "These approaches treat prompt optimisation as an evolutionary process, maintaining a population of candidate prompts that are iteratively refined through evolutionary operators such as mutation, crossover, and selection."

4.3 Memory Optimisation

4.3.1 Short-term Memory Optimisation

핵심 내용:

LLM의 작업 메모리 내 제한된 맥락 정보 관리 (최근 대화, 중간 추론 추적 등)
전략: 요약, 선택적 보유, 희소 어텐션, 동적 맥락 필터링
예: MemoChat, COMEDY, ReadAgent, MoT, StructRAG, MemoryBank, Reflexion

원문 인용: "Short-term memory optimisation focuses on managing limited contextual information within the LLM's working memory. This typically includes recent dialogue turns, intermediate reasoning traces, and task-relevant content from the immediate context."

4.3.2 Long-term Memory Optimisation

핵심 내용:

세션 간 지속적이고 확장 가능한 저장소 제공
RAG (Retrieval-Augmented Generation): 관련 외부 메모리를 추론 프로세스에 통합
메모리 구조: 비구조화(벡터 기반), 구조화(튜플, 데이터베이스, 지식 그래프)
메모리 제어 메커니즘: 저장, 업데이트, 삭제 결정
예: EWE, A-MEM, Mem0, GraphReader, HippoRAG, ChatDB, MemGPT, AWESOME, MEM1

원문 인용: "Long-term memory optimisation mitigates the limitations of short context windows by providing persistent and scalable storage that extends beyond the immediate input scope of the language model."

"A critical paradigm of long-term memory optimisation is Retrieval-Augmented Generation (RAG), which incorporates relevant external memory into the reasoning process via retrieval."

4.4 Tool Optimisation

4.4.1 Training-Based Tool Optimisation

핵심 내용:

Supervised Fine-Tuning: 고품질 도구 사용 궤적으로 LLM 훈련
- 궤적 수집: 강력한 LLM 활용, 시뮬레이션 시행착오, MCTS 기반 탐색
- 예: ToolLLM, GPT4Tools, STE, TOOLEVO, T3-Agent, Magnet, BUTTON, APIGen-MT
- 고급 전략: 커리큘럼 학습(Confucius), 문서 검색 통합(Gorilla)
Reinforcement Learning: 상호작용과 피드백을 통한 학습으로 더 적응적이고 견고한 도구 사용
- 예: ReTool, Nemotron-Research-Tool-N1, Tool-Star, SPORT, ARPO, ToolRL, SWiRL

원문 인용: "Training-based tool optimisation aims to enhance an agent's ability to use tools by updating the underlying LLM's parameters through learning. The motivation behind this approach stems from the fact that LLMs are pretrained purely on text generation tasks, without any exposure to tool usage or interactive execution."

4.4.2 Inference-Time Tool Optimisation

핵심 내용:

프롬프트 기반 도구 최적화: 도구 문서 표현 또는 지시 개선
- 예: EASYTOOL(통일된 간결한 지시), DRAFT, PLAY2PROMPT(반복적 개선)
- 지시와 도구 설명 동시 최적화
추론 기반 도구 최적화: 테스트 타임 추론 전략 (MCTS, 트리 기반 알고리즘)
- 예: ToolLLM(깊이 우선 트리 탐색), ToolChain(비용 함수 기반), Tool-Planner, MCP-Zero

원문 인용: "In addition to training-based approaches, another line of work focuses on enhancing tool-use capabilities during inference, without modifying LLM parameters."

4.4.3 Tool Functionality Optimisation

핵심 내용:

도구 자체를 수정하거나 생성하여 작업별 추론 및 실행 지원
예: CREATOR, LATM, CRAFT, AgentOptimiser, Alita, CLOVA

원문 인용: "Beyond optimising the agent's behaviour, a complementary line of work focuses on modifying or generating tools themselves to better support task-specific reasoning and execution."

5. Multi-Agent Optimisation

[Figure 6] 멀티 에이전트 시스템 최적화 개요: 프롬프트, 토폴로지, 통합, LLM 백본 최적화

5.1 Manually Designed Multi-Agent Systems

핵심 내용:

병렬 워크플로우(Parallel Workflows): 동시 실행 후 다수결로 최종 출력 선택
계층적 워크플로우(Hierarchical Workflows): 다층 하향식 구조, 엄격한 맥락 의존성 작업에 적합
멀티 에이전트 토론(Multi-Agent Debate): 적대-협상-중재 순환으로 추론 오류 논의 및 수정

원문 인용: "Manually designed workflows form the foundation of multi-agent collaboration research. These architectures encode researchers' insights about task decomposition, agent capabilities, and coordination mechanisms into explicit interaction patterns."

5.2 Self-Evolving Multi-Agent System

5.2.1 Multi-Agent Prompt Optimisation

핵심 내용:

프롬프트를 통해 에이전트 역할 및 작업 지시 정의
단일 에이전트 기법을 확장하여 여러 에이전트 및 작업 의존성 조율
예: DSPy Assertions(런타임 자가 진화), AutoAgents(팀 구성 최적화)

원문 인용: "One promising direction for achieving such self-evolution is through prompt optimisation, where prompts define both agent roles and their corresponding task instructions."

5.2.2 Topology Optimisation

핵심 내용:

코드 레벨 워크플로우(Code-level Workflows):
- 워크플로우를 실행 가능한 프로그램 또는 타입 코드 그래프로 표현
- 예: AutoFlow(자연어 프로그램 + RL), AFlow(타입 재사용 연산자 + MCTS), ScoreFlow(연속 공간 + 경사 기반), MAS-GPT(일관성 지향 말뭉치 + SFT)
통신 그래프 토폴로지(Communication-graph Topologies):
- 워크플로우를 멀티 에이전트 통신 그래프로 처리
- 예: GPTSwarm(연속 에지 확률 + RL), DynaSwarm(포트폴리오 + A2C), G-Designer(변분 그래프 오토인코더), MermaidFlow(선언적 그래프 + 진화 연산자)
- 동적 조정: DyLAN(에이전트 프루닝), Captain Agent(팀 재구성), Flow(AOV 그래프 구조 동적 조정)
- 프루닝: AgentPrune(공간-시간 통신 그래프), AGP(에이전트 수 및 통신 에지), G-Safeguard(보안을 위한 프루닝)

원문 인용: "Topology optimisation represents a paradigm shift in multi-agent system design: rather than treating communication structure as a fixed constraint, it recognises topology itself as a powerful optimisation target."

5.2.3 Unified Optimisation

핵심 내용:

코드 기반 접근법(Code-based Approaches):
- 코드를 프롬프트와 토폴로지의 보편적 표현으로 사용
- 예: ADAS(Python 코드로 프롬프트, 워크플로우, 도구 사용 표현), FlowReasoner(쿼리 레벨 적응 + GRPO)
검색 기반 접근법(Search-based Approaches):
- 프롬프트 및 토폴로지 설계를 조율하는 명시적 메커니즘
- 예: EvoAgent(텍스트 에이전트 설정 + 진화 알고리즘), EvoFlow(연산자 노드 워크플로우 그래프 + 진화), MASS(3단계 조건부 결합), DebFlow(멀티 에이전트 토론 + 반성), MAS-ZERO(추론 시간 검색)
학습 기반 접근법(Learning-based Approaches):
- 정교한 학습 패러다임으로 프롬프트와 토폴로지 동시 최적화
- 예: MaAS(확률적 분포 학습 + 몬테카를로), ANN(계층 신경망 개념 + 텍스트 그래디언트)

원문 인용: "Unified optimisation emerges from a key insight: prompts and topology are not independent design choices but deeply interconnected aspects of agent systems."

5.2.4 LLM Backbone Optimisation

핵심 내용:

추론 지향 최적화(Reasoning-oriented Optimisation):
- 멀티 에이전트 협업을 통해 백본 LLM의 추론 능력 향상
- 예: Multi-agent Finetuning, Sirius(자가 플레이 + SFT), MALT(DPO), MaPoRL(작업별 보상 형성 + RL), MARFT, MARTI
협업 지향 최적화(Collaboration-oriented Optimisation):
- 멀티 에이전트 시스템 내 통신 및 협업 능력 향상
- 예: COPPER(PPO로 공유 반영자 훈련), OPTIMA(통신 효율성 목표 + SFT/DPO), MaPoRL(협업 행동 유도)

원문 인용: "The evolution of the LLM backbone behind agents is a critical aspect of multi-agent evolution, particularly how agents improve their cooperative or reasoning abilities through interaction."

6. Domain-Specific Optimisation

6.1 Domain-Specific Optimisation in Biomedicine

6.1.1 Medical Diagnosis

핵심 내용:

시뮬레이션 기반 설계: 실제 임상 환경 재현, 에이전트에 역할 할당, 상호작용 학습
- 예: MedAgentSim(경험 재생 + CoT 앙상블 + CLIP 기반 메모리), PathFinder(병리학 분석)
협업 멀티 에이전트: 집단 의사결정 및 협력
- 예: MDAgents(적응적 협업 + 중재자 에이전트), MDTeamGPT(다학제 협의 + 반성 토론)
도구 통합 및 멀티모달 추론: 전문 의료 도구 동적 통합
- 예: MMedAgent(여러 모달리티 도구), MedAgent-Pro(임상 기준 기반 진단 계획)

원문 인용: "Given these domain-specific requirements, recent studies have focused on developing agent architectures specifically optimised for medical diagnosis."

6.1.2 Molecular Discovery and Symbolic Reasoning

핵심 내용:

도메인 특화 도구 통합: 화학 분석 도구 통합
- 예: CACTUS(RDKit 등 화학정보학 도구), LLM-RDF(전문 에이전트 조율)
메모리 활성화 추론: 이전 경험에서 학습
- 예: ChemAgent(하위 작업을 구조화된 메모리에 저장), OSDA Agent(자기 반성 메커니즘)
멀티 에이전트 조율: 여러 증거 소스 통합
- 예: DrugAgent(ML 기반 예측자 + 지식 그래프 + 문헌 검색), LIDDIA(모듈 역할 할당)

원문 인용: "Molecular discovery within biomedical domains demands precise symbolic reasoning over chemical structures, reaction pathways, and pharmacological constraints."

6.2 Domain-Specific Optimisation in Programming

6.2.1 Code Refinement

핵심 내용:

자기 피드백 메커니즘: 에이전트가 자신의 출력을 비평하고 수정
- 예: Self-Refine, CodeCriticBench, LLM-Surgeon
경험 기반 학습: 메모리 기반 추론으로 이전 작업 재사용
- 예: AgentCoder, CodeAgent, CodeCoR, OpenHands, VFlow

원문 인용: "Code refinement involves the iterative improvement of code quality, structure, and correctness while preserving its original functionality."

6.2.2 Code Debugging

핵심 내용:

런타임 피드백 활용: 실행 추적을 디버깅 프로세스에 통합
- 예: Self-Debugging, Self-Edit
모듈 에이전트 아키텍처: 디버깅 워크플로우의 다단계 구조 지원
- 예: PyCapsule(프로그래머 + 실행자 분리), Self-Collaboration, RGD, FixAgent

원문 인용: "Code debugging presents intricate challenges that require precise fault localisation, execution-aware reasoning, and iterative correction."

6.3 Domain-Specific Optimisation in Financial and Legal Research

6.3.1 Financial Decision-Making

핵심 내용:

개념적 및 협업 에이전트 설계: 동적 시장에서 의사결정 안정성 향상
- 예: FinCon(개념적 언어 강화 + 도메인 적응 미세조정), PEER(모듈 아키텍처), FinRobot(외부 도구 통합)
감성 분석 및 보고: 도메인 특화 지침 준수
- 예: Heterogeneous LLM agent architectures, Template-based reporting frameworks

원문 인용: "Financial decision-making requires agents to operate under uncertain and rapidly changing conditions, reason over volatile market dynamics, and integrate heterogeneous information sources."

6.3.2 Legal Reasoning

핵심 내용:

협업 에이전트 프레임워크: 사법 절차 시뮬레이션 및 구조화된 논증 지원
- 예: LawLuo(문서 작성 + 법적 논증 생성 + 준수 검증), Multi-Agent Justice Simulation, AgentCourt(자가 진화 변호사 에이전트)
구조화된 법적 추론: 규칙 기반 해석 가능성
- 예: LegalGPT(법적 CoT 프레임워크), AgentsCourt(법원 토론 + 법적 지식 증강)

원문 인용: "Legal reasoning requires agents to interpret structured legal rules, analyse case-specific evidence, and produce outputs that are consistent with institutional regulations and judicial standards."

7. Evaluation

7.1 Benchmark-based Evaluation

핵심 내용:

도구 및 API 기반 에이전트: ToolBench, API-Bank, MetaTool, ToolQA, GTA, AppWorld
웹 탐색 및 브라우징 에이전트: BrowseComp, MM-BrosweComp, WebArena, VisualWebArena, WebCanvas, WebWalker, AgentBench
멀티 에이전트 협업 및 범용 에이전트: MultiAgentBench, SwarmBench, GAIA, Efficient Agents
GUI 및 멀티모달 환경 에이전트: Mobile-Bench, AndroidWorld, CRAB, GUI-World, OSWorld
도메인 특화 작업 에이전트: SWE-bench(코딩), DataSciBench, MLGym(데이터 과학), WorkBench(기업 생산성), OpenAGI, SUPER(과학 연구), AgentClinic, MMedAgent(의료)

원문 인용: "The rapid emergence of autonomous LLM-based agents has underscored the need for rigorous, multidimensional evaluation frameworks. As these agents are deployed across increasingly diverse tasks and environments, recent research has introduced a range of benchmarks and methodologies."

7.2 LLM-based Evaluation

7.2.1 LLM-as-a-Judge

핵심 내용:

LLM을 활용하여 AI 시스템 출력 품질 평가
평가 모드: 포인트와이즈(직접 점수 부여), 페어와이즈(두 출력 비교)
장점: 확장 가능하고 비용 효율적
단점: 프롬프트 설계에 민감, 편향 가능성, 단일 단계 출력 중심 평가
개선: 멀티 에이전트 심의 프레임워크(CollabEval), 메타 평가 벤치마크

원문 인용: "The LLM-as-a-Judge paradigm refers to employing large language models to assess the quality of outputs generated by AI systems, such as text, code, or conversational responses, via structured prompts."

7.2.2 Agent-as-a-Judge

핵심 내용:

LLM 기반 평가를 확장하여 다단계 추론, 상태 관리, 도구 사용 가능한 완전한 에이전트 시스템 활용
최종 출력뿐 아니라 전체 추론 궤적 평가
예: DevAI 벤치마크(코드 생성 에이전트), 전문 모듈로 중간 산출물 분석, 추론 그래프 구축, 계층적 요구사항 검증
인간 전문가 판단과 더 밀접하게 정렬, 효율성 향상

원문 인용: "The Agent-as-a-Judge framework extends LLM-based evaluation by employing full-fledged agentic systems capable of multi-step reasoning, state management, and tool use to critique other AI agents."

7.3 Safety, Alignment, and Robustness in Lifelong Self-Evolving Agents

핵심 내용:

Endure (안전 적응): 모든 진화 단계에서 안전성 유지, 지속적이고 세밀한 평가 필요
위험 중심 벤치마크: AgentHarm(악의적 요청), RedCode(코드 보안), MobileSafetyBench(모바일 제어)
행동 프로브: MACHIAVELLI(비윤리적 전략 탐색)
메타 평가 접근법: Agent-as-a-Judge, AgentEval, R-Judge
법적 정렬 테스트: SafeLawBench
도전: 대부분 스냅샷 기반 평가, 평생 자가 진화 시스템에는 동적 평가 필요

원문 인용: "In the context of the Three Laws of Self-Evolving AI Agents, Endure, the maintenance of safety and stability during any modification, forms the primary constraint on all other forms of adaptation."

"Despite these advances, most current evaluations are snapshot-based, assessing agents at a single point in time. For MASE systems, safety evaluation must itself become dynamic."

8. Challenges and Future Directions

8.1 Challenges

Endure – Safety Adaptation:

안전, 규제, 정렬: 대부분 최적화 파이프라인은 작업 메트릭 우선, 안전 제약 무시
보상 모델링 및 최적화 불안정성: 학습된 보상 모델의 데이터 부족, 노이즈, 불일치

Excel – Performance Preservation:

과학 및 도메인 특화 시나리오 평가: 신뢰할 수 있는 근거 진실 부재
MAS 최적화의 효율성-효과성 균형: 성능 향상하지만 계산 비용, 지연, 불안정성 증가
최적화된 프롬프트 및 토폴로지의 전이 가능성: 다른 LLM 백본에서 일반화 부족

Evolve – Autonomous Evolution:

멀티모달 및 공간 환경 최적화: 대부분 텍스트 전용, 공간적 기반 추론 부족
도구 사용 및 생성: 고정된 도구 세트 가정, 자율 발견 및 공동 진화 간과

원문 인용: "Despite rapid advances, the evolution and optimisation of AI agents still face fundamental obstacles. These challenges are closely tied to the Three Laws of Self-Evolving AI Agents and need to be addressed to realise the vision of lifelong agentic systems."

8.2 Future Directions

핵심 내용:

완전 자율 자가 진화를 위한 시뮬레이션 환경(MASE): 에이전트가 반복 상호작용, 피드백, 클로즈드 루프 최적화로 개선
도구 사용 및 생성 발전(MAO→MASE): 정적 도구 호출을 넘어 적응적 선택, 구성, 생성
실세계 평가 및 벤치마킹: 복잡성, 상호작용 기반, 종단 평가 지원
MAS 최적화의 효과성-효율성 균형(MAO): 성능 및 자원 제약 동시 모델링
과학 및 전문 응용을 위한 도메인 인식 진화(MASE): 도메인 제약, 지식 소스, 평가 기준, 규제 준수 통합

원문 인용: "Addressing these challenges will require optimisation pipelines that are not only high-performing and domain-adaptive, but also safe, regulation-aware, and self-sustaining."

9. Conclusions

핵심 내용:

자가 진화 AI 에이전트의 새로운 패러다임을 포괄적으로 조사
MOP→MOA→MAO→MASE 궤적을 통해 정적 모델에서 동적 자율 생태계로의 발전 제시
통합 개념 프레임워크(Inputs, Agent System, Objectives, Optimisers)로 피드백 루프 추상화
**Three Laws(Endure, Excel, Evolve)**를 제안하여 안전하고 효과적인 자가 진화 보장
단일/멀티/도메인 특화 최적화, 평가, 안전성, 윤리 체계적 검토
향후 연구 방향: 확장 가능한 최적화 알고리즘, 평생 평가 프로토콜, 안전한 이기종 환경 조율, 미지의 도메인 적응 메커니즘
기술 혁신을 원칙적 자가 진화와 정렬하여 진정으로 자율적이고 회복력 있으며 신뢰할 수 있는 평생 에이전트 시스템 구축 목표

원문 인용: "Looking forward, the ability to endure, excel, and evolve will be decisive for agents operating in dynamic, real-world environments, whether in scientific discovery, software engineering, or human–AI collaboration."

"We hope this survey serves as both a reference point and a call to action to build an ecosystem of self-evolving AI agents that do not simply execute tasks, but live, learn, and last."

Appendix

(이 논문에는 별도의 Appendix 섹션이 없습니다. 대신 References 섹션에 방대한 참고문헌 목록이 포함되어 있습니다.)

7. 참조 논문

논문 제목 주저자 발표시기 추천이유 간략 내용

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models	Jason Wei et al.	NeurIPS 2022	LLM의 추론 능력 향상을 위한 기초 기법으로, 에이전트 계획 모듈의 핵심 개념	중간 추론 단계를 명시적으로 생성하도록 유도하는 프롬프팅 기법. 복잡한 추론 작업에서 LLM 성능을 크게 향상시킴
ReAct: Synergizing Reasoning and Acting in Language Models	Shunyu Yao et al.	ICLR 2023	추론과 행동을 결합한 에이전트 프레임워크의 대표적 연구	추론(reasoning)과 행동(acting)을 번갈아 수행하여 LLM이 환경과 상호작용하며 작업을 수행. 에이전트 시스템의 기본 아키텍처로 널리 사용됨
Self-Consistency Improves Chain of Thought Reasoning in Language Models	Xuezhi Wang et al.	ICLR 2023	테스트 타임 최적화의 핵심 전략으로, 여러 추론 경로 탐색의 기초	여러 CoT 경로를 생성하고 다수결로 최종 답변 선택. 단일 경로 추론보다 일관되고 정확한 결과 생성. 검색 기반 전략의 출발점
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs	Yujia Qin et al.	ICLR 2024	대규모 도구 사용 능력 학습을 위한 벤치마크 및 방법론 제시	16,000개 이상의 실세계 API 사용을 위한 데이터셋 및 훈련 프레임워크. 도구 사용 궤적 생성 및 SFT를 통해 LLM의 도구 사용 능력 대폭 향상
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversations	Qingyun Wu et al.	First Conference on Language Modeling 2024	멀티 에이전트 시스템 개발을 간소화하는 대표적 프레임워크	모듈식 아키텍처, 역할 기반 패턴, 자동화된 오케스트레이션 기능 제공. 멀티 에이전트 협업을 통한 복잡한 작업 해결 지원

SYNAPSE: Trajectory-as-Exemplar Prompting with Memory for Computer Control

빛나는 일상 — Sat, 10 Jan 2026 20:27:16 +0900

1. 논문 기본 정보

제목: SYNAPSE: Trajectory-as-Exemplar Prompting with Memory for Computer Control
저자(학교, 기관): Longtao Zheng, Rundong Wang, Xinrun Wang, Bo An (NTU, Singapore)
발표일: 2024년 1월 (ICLR 2024)
학회/저널명: ICLR 2024 (International Conference on Learning Representations)
DOI/URL: arXiv:2306.07863v3 [cs.AI]

2. 한줄 요약

대규모 언어모델을 활용한 컴퓨터 제어 에이전트로, 상태 추상화(State Abstraction), 궤적 기반 프롬프팅(Trajectory-as-Exemplar), 예시 메모리(Exemplar Memory)를 통해 MiniWoB++에서 인간 수준의 99.2% 성공률을 달성한 최초의 ICL(In-Context Learning) 방법입니다.

3. 결론

MiniWoB++에서 인간 수준 성능 달성: 48개 태스크의 시연만으로 64개 태스크에서 99.2% 평균 성공률을 기록하며, 기존 ICL 방법들이 해결하지 못한 book-flight 등의 복잡한 태스크를 최초로 해결
자기 수정 없이 우수한 성능: 기존 SOTA ICL 방법인 RCI(90.6%)와 AdaPlanner(92.9%)를 능가하며, 자기 수정(self-correction) 메커니즘 없이도 더 높은 성공률 달성
실제 웹사이트에서의 일반화 능력: Mind2Web 벤치마크에서 기존 SOTA 대비 56% 상대적 성능 향상을 보이며, 교차 태스크, 교차 웹사이트, 교차 도메인 일반화에서 모두 개선된 결과 제시
데이터 효율성: BC+RL 기반 방법들이 수백만 개의 시연을 필요로 하는 것에 비해, 태스크당 평균 3.45개의 예시만으로 우수한 성능 달성
세 가지 핵심 컴포넌트의 효과 검증: 상태 추상화는 복잡한 상태 처리와 컨텍스트 제약 극복, TaE 프롬프팅은 장기 의사결정 개선, 예시 메모리는 새로운 태스크로의 일반화 능력 제공

4. 해결하려는 문제

핵심 문제: 기존 LLM 기반 컴퓨터 에이전트들이 MiniWoB++ 같은 상대적으로 단순화된 환경에서도 여러 태스크를 해결하지 못하는 한계를 극복

세부 문제점:

제한된 컨텍스트 길이와 복잡한 상태: "the limited context length of LLMs, combined with complex computer states, poses challenges for few-shot learning" - LLM의 제한된 컨텍스트 길이와 복잡한 컴퓨터 상태로 인해 few-shot 학습에서 충분한 예시를 포함하기 어려움
불완전한 예시 구조: "the exemplar structures used by existing computer agents can lead to error accumulation in multi-round LLM queries" - 기존 방법들의 고수준 계획이나 객관식 질문 형태의 예시는 완전한 궤적 정보를 포착하지 못하고, 다중 라운드 LLM 쿼리에서 오류가 누적됨
태스크별 예시 의존성: "current computer agents require task-specific exemplars within a predefined scope" - 기존 에이전트들은 태스크별로 하드코딩된 예시를 필요로 하며, 유사한 태스크 간의 관계를 활용하지 못해 새로운 태스크로의 일반화가 제한됨

원문 인용: "Despite the promising results of previous LLM-based computer agents, they still fail to solve some tasks within MiniWoB++, a relatively simplified computer control task suite, mainly due to the following issues."

5. 제안 기술

SYNAPSE 프레임워크: 세 가지 핵심 컴포넌트로 구성된 LLM 기반 컴퓨터 에이전트

1. 상태 추상화(State Abstraction):

명시적 추상화: 간단한 상태의 경우 <state, observation> 쌍을 few-shot 예시로 활용
암묵적 추상화: 복잡한 상태의 경우 <task, code> 쌍을 통해 상태 파싱 코드를 생성하여 정제된 관찰값 도출
"state abstraction, which filters out task-irrelevant information from raw states, allowing more exemplars within the limited context"

2. 궤적 기반 예시 프롬프팅(Trajectory-as-Exemplar Prompting):

완전한 성공 궤적을 <task, observation, action, ..., observation, action> 형식으로 구성
시간적 추상화(temporal abstraction)를 통해 새로운 상태가 필요할 때까지 여러 액션을 연속적으로 생성
"trajectory-as-exemplar prompting, which prompts the LLM with complete trajectories of the abstracted states and actions to improve multi-step decision-making"

3. 예시 메모리(Exemplar Memory):

태스크 메타데이터의 임베딩 벡터를 키(K)로, 해당 예시를 값(V)으로 저장하는 벡터 데이터베이스
유사도 검색을 통해 현재 태스크와 관련된 예시를 자동으로 검색
"exemplar memory, which stores the embeddings of exemplars and retrieves them via similarity search for generalization to novel tasks"

원문 인용: "To address these challenges, we introduce SYNAPSE, a computer agent featuring three key components: i) state abstraction, which filters out task-irrelevant information from raw states, allowing more exemplars within the limited context, ii) trajectory-as-exemplar (TaE) prompting, which prompts the LLM with complete trajectories of the abstracted states and actions to improve multi-step decision-making, and iii) exemplar memory, which stores the embeddings of exemplars and retrieves them via similarity search for generalization to novel tasks."

6. 단락별 정리

Abstract

핵심 내용:

LLM 기반 컴퓨터 에이전트의 한계: 제한된 컨텍스트 길이, 복잡한 상태, 불완전한 예시 구조로 인해 기존 ICL 방법들이 장기 태스크에서 어려움을 겪음
SYNAPSE의 세 가지 핵심 컴포넌트: 상태 추상화, 궤적 기반 예시 프롬프팅, 예시 메모리를 통해 문제 해결
MiniWoB++ 성능: 48개 태스크의 시연만으로 64개 태스크에서 99.2% 성공률 달성, 최초로 book-flight 태스크 해결
Mind2Web 성능: 이전 SOTA 프롬프팅 방법 대비 평균 step 성공률에서 56% 상대적 향상

원문 인용: "We evaluate SYNAPSE on MiniWoB++, a standard task suite, and Mind2Web, a real-world website benchmark. In MiniWoB++, SYNAPSE achieves a 99.2% average success rate (a 10% relative improvement) across 64 tasks using demonstrations from only 48 tasks. Notably, SYNAPSE is the first ICL method to solve the book-flight task in MiniWoB++. SYNAPSE also exhibits a 56% relative improvement in average step success rate over the previous state-of-the-art prompting scheme in Mind2Web."

1. Introduction

핵심 내용:

컴퓨터 제어 에이전트의 중요성: HTML이나 스크린샷 같은 컴퓨터 상태를 인지하고 키보드와 마우스로 액션을 수행하여 자연어로 명시된 태스크 완료
ICL의 장점: BC(Behavioral Cloning)와 RL(Reinforcement Learning) 기반 방법 대비 일반적이고 데이터 효율적인 컴퓨터 제어 달성
기존 방법의 한계: RCI(Recursive Self-Correction)는 고수준 계획 기반, MindAct는 MCQ 형식 사용하지만 완전한 궤적 정보 부족
SYNAPSE의 차별점: 상태 추상화로 궤적당 토큰 수 감소, 완전한 궤적을 few-shot 예시로 활용, 메모리를 통한 유사도 검색으로 새로운 태스크에 일반화

RCI (Recursive Criticism and Improvement) "Language models can solve computer tasks" (Kim et al., 2023)
- 재귀적 자기 수정(Recursive Self-Correction)을 활용한 LLM 기반 컴퓨터 제어 에이전트.
- NeurIPS 2023에 발표된 연구
- 고수준 계획 기반 프롬프팅 : LLM에게 태스크를 해결하기 위한 단계별 계획(step-by-step plan)을 먼저 생성하도록 요청
- 재귀적 자기 수정(Recursive Self-Correction) : Task Grounding(태스크 이해 수정), State Grounding(상태 해석 수정),Agent Grounding: 액션 실행 수정 메커니즘 포함. 각 단계에서 현재상태와 이전 액션을 기반으로 다음 액션을 생성
- MiniWoB++의 54개 태스크에서 90.6% 평균 성공률 달성

[Figure 1] SYNAPSE의 전체 아키텍처: 상태 추상화를 통해 원시 HTML을 간결한 관찰값으로 변환하고, 궤적 기반 예시 프롬프팅으로 LLM이 다음 액션을 결정하며, 예시 메모리에서 유사도 검색을 통해 관련 궤적을 검색하는 과정을 시각화

2. Related Work

핵심 내용:

LLM 기반 에이전트 구축: 로봇 제어에서는 LLM 생성 계획과 임베딩/가치 함수를 결합했으나, 컴퓨터 제어의 저수준 액션은 고도로 의미론적이어서 직접적인 액션 그라운딩을 위한 효과적인 프롬프팅 방법 필요
추론 및 계획 개선 방법: Chain-of-thought, least-to-most, ReAct, tree-of-thoughts, Reflexion 등의 방법들이 SYNAPSE와 결합 가능
컴퓨터 제어 에이전트 발전: CC-Net은 240만 개의 시연으로 인간 수준 달성했으나 새로운 태스크로의 일반화가 어려움
최근 연구들: WebN-T5와 WebGUM은 파인튜닝 기반으로 대량의 데이터 필요, RCI는 54개 태스크에서 90.6% 성공률이지만 자기 수정에 의존하고 태스크별 예시 필요

원문 인용: "Unlike robotics, low-level actions for computer control are highly semantic, and the effective prompting scheme for directly grounding actions remains unexplored. To address this, SYNAPSE proposes trajectory-as-exemplar prompting for directly grounding these actions."

3. SYNAPSE

3.1 Problem Setting

핵심 내용:

상태 및 액션 공간: 컴퓨터 에이전트의 상태는 웹페이지 HTML이나 스크린샷이며, 액션은 키보드와 마우스 조작으로 벤치마크에 따라 코드나 자연어 형식
LLM의 역할: 의사결정 엔진으로서 few-shot 예시를 통해 원시 상태를 정제된 관찰값으로 변환하고 액션 생성
성공 궤적: 태스크가 완료되면 해당 궤적을 성공으로 간주

원문 인용: "The state and action space for a computer agent are consistent with how humans interact with computers. At each step, it receives a computer state, such as HTML of webpages or screenshots, and performs actions via keyboard and mouse."

3.2 State Abstraction

핵심 내용:

컨텍스트 제약 문제: LLM의 제한된 컨텍스트와 복잡한 컴퓨터 상태로 인해 few-shot 예시 수가 제한되며, 태스크와 무관한 요소들이 LLM의 정확한 액션 생성을 방해
명시적 추상화: 이메일 수신함 같은 경우 <state, observation> 쌍을 few-shot 예시로 사용하여 LLM이 정제된 관찰값 생성
암묵적 추상화: book-flight 같은 복잡한 상태에서는 <task, code> 쌍을 사용하여 LLM이 상태 파싱 코드를 생성하고 이를 실행하여 정제된 관찰값 획득
Mind2Web에서의 적용: 사전 학습된 요소 순위 모델을 활용하여 상위 3~5개 요소만 선택, 이전 방법의 상위 50개 대비 recall은 86%에서 53%로 감소했지만 step 성공률은 향상

원문 인용: "To reduce the length of each state, SYNAPSE takes advantage of the few-shot learning ability of LLMs to extract task-relevant information from raw states and form clean observations for subsequent action generation."

3.3 Trajectory-as-Exemplar Prompting

핵심 내용:

기존 방법의 한계: RCI의 고수준 계획과 MindAct의 MCQ 형식은 의사결정의 순차적 특성을 간과하고 완전한 궤적 정보를 포착하지 못함
TaE 프롬프팅 형식: <task, observation, action, ..., observation, action> 형태의 완전한 궤적을 few-shot 예시로 제공
시간적 추상화: LLM이 새로운 상태가 필요할 때까지 여러 액션을 연속적으로 생성하여 LLM 쿼리 횟수 감소로 비용과 지연시간 절감
장점: 일관된 형식으로 액션 그라운딩에 적합하고, 액션 파싱과 LLM 응답의 stop token 설정이 용이하며, 인간 시연에서 직접 변환 가능

[Figure 2] 프롬프팅 방식 비교: RCI는 단계별 계획, MindAct는 MCQ 형식, SYNAPSE의 TaE는 관찰값과 액션이 교차하는 완전한 궤적 형식을 보여주는 터미널 태스크 예시

원문 인용: "To address this challenge, we introduce trajectory-as-exemplar (TaE) prompting, utilizing complete trajectories to prompt the LLM for action generation, formatted as ⟨task, observation, action, . . . , observation, action⟩."

3.4 Exemplar Memory

핵심 내용:

기존 방법의 문제: RCI 같은 에이전트는 태스크별로 하드코딩된 예시 매핑을 사용하여 유사한 태스크(email-inbox와 email-inbox-nl-turk) 간의 유사성을 활용하지 못함
메모리 구조: D = (K, V) 형태로 K는 태스크 메타데이터의 임베딩 벡터 배열, V는 대응하는 예시
검색 프로세스: arg top-n_d∈D sim(q, d) 형식으로 쿼리 메타데이터와 임베딩 공간에서의 유클리디안 거리 기반 유사도 검색
MiniWoB++ 구현: 48개 선정 태스크의 초기 상태와 태스크 설명을 결합하여 메타데이터 구성, 상위 3개 검색하여 가장 빈번한 것의 예시 활용
Mind2Web 구현: 웹사이트 이름, 도메인, 태스크 설명을 메타데이터로 인코딩하여 학습 세트의 궤적 검색

원문 인용: "To exploit task similarity and enable generalization, SYNAPSE introduces exemplar memory D = (K, V), where K is a fixed-sized array of embedding vectors of task metadata and V is the corresponding state abstraction prompts and exemplary trajectories."

4. Evaluation

4.1 Experimental Setup

핵심 내용:

MiniWoB++ 설정: gpt-3.5-turbo-0301 사용, 태스크당 50 에피소드 실행, temperature 0(greedy decoding), 상태는 원시 HTML, 액션은 click-xpath, move-mouse, type, press, click-options, 메트릭은 성공률
Mind2Web 설정: 기본 LLM은 gpt-3.5-turbo-16k-0613, text-embedding-ada-002 임베딩 모델, Faiss로 벡터 데이터베이스 구축
Mind2Web 데이터셋: 2,000개 이상의 태스크, 137개 웹사이트, 31개 도메인으로 구성, 세 가지 일반화 수준(Cross-Task, Cross-Website, Cross-Domain)으로 평가
메트릭: 요소 선택 정확도(Ele. Acc), 단계별 성공률(Step SR), 전체 태스크 성공률(SR)

원문 인용: "We query the same APIs of LLMs as in the prior work. In the MiniWoB++ experiments, we query gpt-3.5-turbo-0301 and run 50 episodes to produce the results for each task."

4.2 Baselines

핵심 내용:

BC+RL 베이스라인: CC-Net(240만 시연)과 Pix2Act(130만 시연)가 대규모 BC와 RL 결합
파인튜닝 베이스라인: WebGUM(346,827 시연)과 WebN-T5(12,000 시연)가 대량 데이터로 언어 모델 파인튜닝
ICL 베이스라인: RCI(54개 태스크, 90.6%)와 AdaPlanner(53개 태스크, 92.9%)가 자기 수정 메커니즘 포함
인간 점수: Humphreys et al. (2022)의 인간 성능 벤치마크 포함
Mind2Web 베이스라인: MindAct가 현재 SOTA ICL 방법

원문 인용: "We conduct extensive experiments to evaluate the performance of SYNAPSE in comparison to the SOTA approaches on MiniWoB++."

4.3 Analysis on MiniWoB++

핵심 내용:

전체 성능: 평균 99.2% 성공률로 인간 수준 달성, 모든 베이스라인 능가
BC+RL과 비교: 텍스트 처리 태스크(terminal, text-transform)에서 특히 우수하며 더 유연함
ICL/파인튜닝과 비교: 모든 태스크에서 더 나은 성능이며 자기 수정 없이 달성
컨텍스트 길이 극복: book-flight와 click-pie 같이 기존 방법이 컨텍스트 제약으로 해결 못한 태스크 해결
장기 태스크 개선: use-autocomplete, use-spinner 등 다단계 반복 액션이 필요한 태스크에서 오류 누적 감소로 성능 향상
일반화 능력: 48개 태스크의 예시로 64개 태스크 해결, 16개 미지 태스크에서 거의 100% 성공률

[Figure 3] MiniWoB++ 성공률 비교: SYNAPSE가 최초로 인간 수준 성능 달성, 데이터 효율성 측면에서도 BC+RL 및 파인튜닝 방법 대비 우수함을 보여주는 박스플롯과 산점도

[Figure 4] 태스크별 성능 비교: (a) CC-Net, (b) RCI, (c) WebGUM과의 비교에서 SYNAPSE가 복잡한 상태 이해, 다단계 의사결정, 일반화 능력에서 우수함을 보여주는 막대 그래프

원문 인용: "With a mean success rate of 99.2%, SYNAPSE achieves human-level performance and outperforms all baselines on MiniWoB++... Notably, SYNAPSE is the first ICL method to solve the book-flight task in MiniWoB++."

4.4 Evaluation on Realistic Websites

핵심 내용:

점진적 성능 향상: 직접 생성(direct generation)에 상태 추상화, TaE 프롬프팅, 메모리를 순차적으로 추가하여 GPT-3.5 기준 평균 Step SR에서 각각 32%, 50%, 56% 개선
상태 추상화 효과: 상위 3~5개 요소만 사용하여 recall은 86%에서 53%로 감소했지만 step 성공률은 향상, 기존 MCQ 방식(상위 50개 사용) 대비 우수
CodeLlama-7B 결과: SYNAPSE가 MindAct 대비 평균 2.5배의 Step SR 달성
일반화 수준별 성능: Cross-Task와 Cross-Website에서 메모리가 6% 개선 제공하지만, Cross-Domain에서는 미미한 개선(관련 없는 도메인의 예시 영향)

[Table 1] Mind2Web 결과 및 절제 연구: CodeLlama-7B와 GPT-3.5를 사용한 세 가지 일반화 수준(Cross-Task, Cross-Website, Cross-Domain)에서 각 컴포넌트의 점진적 추가에 따른 성능 향상을 보여주는 표

원문 인용: "As shown in Tab. 1, we incrementally equip direct generation with state abstraction, trajectory prompting, and exemplar memory, which achieves improvements of 32%, 50%, and 56% in average Step SR across three levels of generalization based on GPT-3.5, respectively."

4.5 Ablation Studies

핵심 내용:

상태 추상화 제거 실험: 복잡한 상태를 가진 태스크(book-flight)에서 필수적이며, 모호한 설명을 가진 태스크(email-inbox-nl-turk)에서 성공률을 52%에서 100%로 향상
TaE 프롬프팅 제거 실험: 장기 및 반복 액션 태스크(guess-number, use-spinner, use-autocomplete)에서 RCI(20%, 88%, 58%) 대비 SYNAPSE(100%, 100%, 98%)로 대폭 개선
메모리 제거 실험: 유사 태스크 간 일반화(email-inbox 계열, multi-layouts/multi-orderings)에 중요하며, MiniWoB++의 16개 미지 태스크에서 거의 100% 성공률 달성
Mind2Web 메모리 효과: Cross-Task와 Cross-Website에서 각각 1.4%와 1.5% 개선, Cross-Domain에서는 0.2%로 미미(평균 거리가 32.9로 유사도 낮음)

[Figure 5] 상태 추상화 효과: 복잡한 상태를 가진 태스크(book-flight, click-pie)에서 필수적이며, 더 많은 예시 제공으로 성능 향상(email-inbox 등)을 보여주는 막대 그래프

[Figure 7] Mind2Web k 값 절제: 요소 필터링에서 k 값에 따른 recall과 step 성공률의 트레이드오프를 보여주는 그래프

[Table 2] Mind2Web 메모리 거리 및 개선도: 세 가지 테스트 세트에서 평균 검색 거리와 Step SR 개선도를 보여주는 표

원문 인용: "These findings validate the effectiveness of i) state abstraction in handling complex states and providing more exemplars within the limited context, ii) TaE prompting in enhancing the capability of multi-step decision-making, and iii) exemplar memory in facilitating generalization across tasks."

5. Discussion, Limitations & Future Work

핵심 내용:

SYNAPSE의 성과 요약: 상태 추상화, TaE 프롬프팅, 예시 메모리의 세 가지 컴포넌트로 MiniWoB++에서 99.2%, Mind2Web에서 56% 상대적 개선 달성
추론 지연시간 문제: LLM 사용으로 인한 높은 추론 지연시간이 주요 우려사항이며, 프롬프팅 기법을 활용한 태스크별 에이전트 증류가 해결책
예시 품질 의존성: 고품질 예시에 대한 의존도가 있으며, instruction tuning 기반 제로샷 에이전트 학습이 유망한 연구 방향
메모리 구조 개선: 메모리 구조와 검색 프로세스를 더 발전시켜 일반화 성능 향상 가능
compositional generalization: 기존 방법들과 결합하여 더 복잡한 태스크 해결 가능
멀티모달 확장: 현재는 텍스트 기반이지만, 멀티모달 및 비디오 이해 능력을 탐구하여 픽셀 기반 Android 제어 같은 더 어려운 태스크 처리 가능

원문 인용: "We acknowledge that there exist limitations in our framework. High inference latency is a major concern due to the use of LLMs. Using our prompting scheme to distill a more responsive, task-specific agent from existing LLMs could be a remedy."

Appendix A: Additional Results

[Table 3] 태스크별 평균 성공률 상세 비교: SYNAPSE, 인간, 그리고 다양한 베이스라인(CC-Net, RCI, AdaPlanner, Pix2Act, WebGUM, WebN-T5 등) 간의 64~104개 태스크에 대한 성능을 보여주는 상세 표

[Figure 6] 추가 태스크별 비교: SYNAPSE와 인간, AdaPlanner, Pix2Act, WebN-T5 간의 성공률 차이를 태스크별로 정렬하여 보여주는 막대 그래프

핵심 내용:

64개 태스크 전체에 대한 상세한 성공률 데이터 제공
SYNAPSE가 평균 99.2% 성공률로 64개 태스크 해결
인간은 93.5%, RCI는 90.6%, AdaPlanner는 92.9%로 SYNAPSE보다 낮은 성능

Appendix B: Environment Details

B.1 MiniWoB++

핵심 내용:

데이터셋 구성: 64개 테스트 태스크 중 48개는 예시 제공, 16개는 미지 태스크(choose-list, click-checkboxes-transfer, click-checkboxes, click-option 등)
예시 수: RCI는 태스크당 평균 1.32개, SYNAPSE는 3.45개 예시 사용하지만 복잡한 태스크(book-flight)에는 5개 사용
자기 수정 의존성: RCI는 자기 수정 없이 성능이 약 50% 감소하지만 SYNAPSE는 자기 수정 불필요
상태/액션 공간: 원시 HTML 코드를 상태로, type, click_xpath, press, click_option, movemouse를 액션으로 사용
시스템 프롬프트: Agent 클래스의 메서드를 설명하여 LLM이 액션을 코드로 생성하도록 구성
상태 추상화 프롬프트: 명시적 추상화는 <state, observation> 쌍, 암묵적 추상화는 <task, code> 쌍 사용

원문 인용: "To ensure a fair evaluation, we use the legacy branch of MiniWoB++ as in previous work. Of the 64 tasks that we test, 48 are provided with exemplars, and 16 are unseen tasks."

B.2 Mind2Web

핵심 내용:

데이터셋 규모: 137개 웹사이트, 31개 도메인의 2,000개 이상 태스크
태스크 특징: 고수준 목표만 제공하며 단계별 지시 회피로 에이전트의 자율적 이해와 수행 능력 테스트
인터랙션 종류: click, select, type 등 기본 검색/읽기를 넘어선 다양한 웹 인터랙션
일반화 수준: Cross-Task(252 태스크, 69 웹사이트), Cross-Website(177 태스크, 10 새로운 웹사이트), Cross-Domain(912 태스크, 73 완전히 새로운 도메인)
학습 세트: 73개 웹사이트의 1,009 태스크를 메모리에 저장

[Figure 8] MiniWoB++와 Mind2Web 환경 예시: 두 벤치마크의 인터페이스와 태스크 유형을 시각적으로 보여주는 스크린샷

원문 인용: "Mind2Web offers a comprehensive collection of over 2,000 tasks from 137 websites in 31 different domains. The task descriptions in Mind2Web only provide high-level goals. It intentionally avoids detailed, step-by-step instructions, encouraging the agents to autonomously understand and perform tasks."

Appendix C: Prompts

C.1 Terminal

핵심 내용:

태스크 설명: 터미널을 사용하여 특정 확장자로 끝나는 파일 삭제
4단계 완료: 상태 추상화(명시적) → TaE 프롬프팅 → 상태 추상화(명시적) → TaE 프롬프팅
Step 1: 원시 HTML 상태를 "Use the terminal below to delete a file ending with the extension .gpg" 같은 간결한 관찰값으로 변환
Step 2: 3개의 예시 궤적과 현재 태스크로 LLM 프롬프팅, "agent.type('ls')", "agent.press('enter')" 액션 생성
Step 3: ls 명령 실행 후 파일 목록이 포함된 상태를 "user$ ls index.rb media.html window.gpg" 형식으로 추상화
Step 4: 예시 궤적 기반으로 "agent.type('rm window.gpg')", "agent.press('enter')" 최종 액션 생성

원문 인용: "To finish the terminal task in MiniWoB++, the agent needs to first list the files and then delete one with a certain extension. By using TaE prompting, SYNAPSE completed this task in four steps: two for state abstraction and two for TaE prompting."

C.2 Book-Flight

핵심 내용:

태스크 복잡성: 항공편 검색 후 특정 조건(가장 저렴한/가장 짧은)에 맞는 항공편 예약
4단계 완료: 상태 추상화(명시적) → TaE 프롬프팅 → 상태 추상화(암묵적) → TaE 프롬프팅
암묵적 상태 추상화: 긴 HTML 웹페이지를 처리하기 위해 BeautifulSoup 기반 파싱 코드를 LLM이 생성하여 "The price of the cheapest one-way flight is $65" 같은 정보 추출
시간적 추상화: 한 번의 프롬프팅으로 출발지 입력, 목적지 입력, 날짜 선택 등 여러 액션을 연속 생성
5개 예시 사용: 복잡성으로 인해 book-flight에는 더 많은 예시 제공

원문 인용: "To finish the book-flight task in MiniWoB++, the agent needs to first search the flight and then book one with a certain condition. SYNAPSE completed this task in four steps: two for state abstraction and two for TaE prompting."

C.3 Text-Transform (Failure Case)

핵심 내용:

실패 사례 분석: LLM이 변형된 텍스트를 입력 필드에 타이핑할 때 "jrpf"를 "jrfp"로 잘못 인식
오류 원인: LLM의 잘못된 추론으로 HTML의 문자와 유사하지만 다른 문자 생성
다른 실패 사례: count-shape 태스크에서 LLM이 대상 항목 수를 잘못 세어 부정확한 답변 선택

원문 인용: "We also demonstrate a failure case in MiniWoB++, where the LLM incorrectly recognizes jrpf as jrfp when typing the transformed text into the text field."

C.4 Mind2Web

핵심 내용:

실제 웹사이트 복잡성: 실제 태스크와 웹사이트가 복잡하여 한 단계만 시연
요소 순위 모델 활용: 궤적 메모리의 관찰값은 상위 3개 요소, 현재 히스토리의 이전 관찰값은 상위 3개, 현재 관찰값은 상위 5개 요소 사용
액션 공간: CLICK [id], TYPE [id] [value], SELECT [id] [value]
예시 구조: 3개의 예시 궤적(SSD 제거, SSD와 RAM 추가, SSD 수량 업그레이드)과 현재 태스크(가장 저렴한 SSD 추가)로 구성

원문 인용: "We only demonstrate one step in Mind2Web because real-world tasks and websites are complicated. The observations are obtained using their element-ranking model."

7. 참조 논문

논문 제목 주저자 발표시기 추천이유 간략 내용

Language models can solve computer tasks (RCI)	Geunwoo Kim	NeurIPS 2023	SYNAPSE와 직접 비교된 ICL SOTA 방법으로 자기 수정 메커니즘의 중요성과 한계를 보여줌	재귀적 자기 수정(recursive self-correction)을 통해 MiniWoB++의 54개 태스크에서 90.6% 성공률 달성했으나, 태스크별 예시 필요와 장기 태스크에서의 한계 존재
Mind2web: Towards a generalist agent for the web (MindAct)	Xiang Deng	NeurIPS 2023	실제 웹사이트 벤치마크를 제공하고 MCQ 기반 프롬프팅의 baseline을 제시한 동시대 연구	2,000개 이상의 실제 웹 태스크 데이터셋 구축, 요소 순위 모델과 MCQ 형식 프롬프팅을 결합했으나 정확한 요소 선택에 어려움
A data-driven approach for learning to control computers (CC-Net)	Peter Humphreys	ICML 2022	인간 수준 성능을 최초로 달성한 BC+RL 기반 방법으로 대규모 데이터의 필요성을 보여줌	240만 개의 시연(6,300시간의 인간 노력)을 활용하여 MiniWoB++에서 인간 수준 달성했으나 새로운 태스크 일반화와 사용자 맞춤화가 어려움
Chain-of-thought prompting elicits reasoning in large language models	Jason Wei	NeurIPS 2022	LLM의 추론 능력 향상 기법으로 SYNAPSE와 결합 가능한 직교적 방법론 제시	중간 추론 단계를 명시적으로 생성하도록 프롬프팅하여 LLM의 복잡한 추론 능력을 향상, SYNAPSE의 의사결정 품질 개선에 활용 가능
Reinforcement learning on web interfaces using workflow-guided exploration (MiniWoB++)	Evan Liu	ICLR 2018	컴퓨터 제어 에이전트의 표준 벤치마크를 제공하여 이 분야 연구의 기초 마련	다양한 웹 인터페이스 인터랙션 태스크를 포함한 벤치마크 환경 구축, workflow-guided exploration으로 RL 에이전트 학습 개선

LEGOMem

빛나는 일상 — Sat, 10 Jan 2026 15:12:00 +0900

1. 논문 기본 정보

제목: LEGOMem: Modular Procedural Memory for Multi-agent LLM Systems for Workflow Automation (레고멤: 워크플로우 자동화를 위한 다중 에이전트 LLM 시스템의 모듈식 절차적 메모리)
저자(학교, 기관): Dongge Han, Camille Couturier, Daniel Madrigal Diaz, Xuchao Zhang, Victor Rühle, Saravan Rajmohan (Microsoft)
발표일: 2025년 5월
학회/저널명: AAMAS 2026 (25th International Conference on Autonomous Agents and Multiagent Systems)
DOI/URL: arXiv:2510.04851v1 [cs.AI]

2. 한줄 요약

다중 에이전트 LLM 시스템에서 과거 작업 궤적을 재사용 가능한 모듈형 메모리로 분해하여 오케스트레이터와 태스크 에이전트에 할당함으로써 계획 및 실행 성능을 향상시키는 프레임워크

3. 결론

LEGOMem은 다중 에이전트 시스템에서 절차적 메모리를 효과적으로 활용하여 메모리 없는 시스템 대비 작업 성공률을 12% 이상 향상
오케스트레이터 메모리가 고수준 계획 및 위임에 필수적이며, 세분화된 하위 작업 메모리는 실행 정확도를 개선
작은 언어 모델로 구성된 팀도 절차적 메모리를 통해 큰 성능 향상을 달성하여 더 강력한 에이전트와의 성능 격차 축소
메모리 배치 전략이 다중 에이전트 협업 효과에 결정적 역할을 수행
실행 단계 수를 16.2%까지 감소시키고, 단계별 실패율도 현저히 낮춤

4. 해결하려는 문제

핵심 문제: 현재 다중 에이전트 LLM 시스템은 상태를 유지하지 않고 트랜잭션 방식으로 작동하여 각 작업을 처음부터 해결하며 과거 경험을 재사용하지 못함. 특히 절차적 메모리(procedural memory)의 부재로 인해 복잡한 워크플로우에서 과거 경험으로부터 학습하고 실행 기술을 축적하는 능력이 제한됨.

원문 인용:

"Despite these advances, current multi-agent systems remain largely stateless and transactional: each task is solved from scratch, without reusing prior experience."
"This lack of memory—particularly procedural memory—limits their ability to learn from past experiences and build up execution skills over time for complex workflows."
"Without memory, agents may repeatedly make the same errors and cannot improve over time."

5. 제안 기술

LEGOMem 프레임워크: 다중 에이전트 LLM 시스템을 위한 모듈형 절차적 메모리 프레임워크로, 과거 성공적인 작업 실행을 구조화된 메모리 단위로 추출하여 재사용

핵심 기술 구성요소:

Full-task memories (전체 작업 메모리): 작업 수준 계획 및 추론 궤적
Subtask memories (하위 작업 메모리): 에이전트 행동 및 도구 상호작용
세 가지 변형: Vanilla LEGOMem, LEGOMem-Dynamic, LEGOMem-QueryRewrite
RAG 기반 검색: 의미적 임베딩을 통한 메모리 뱅크 인덱싱 및 검색

원문 인용:

"We introduce LEGOMem, a modular procedural memory framework designed for multi-agent LLM systems."
"LEGOMem distills successful executions into structured memory units: full-task memories (task-level plans and reasoning traces) and subtask memories (agent behavior and tool interactions)."
"LEGOMem is instantiated as a retrieval augmentation (RAG) layer over existing multi-agent systems."

6. 단락별 정리

Abstract

핵심 내용:

LEGOMem은 워크플로우 자동화를 위한 다중 에이전트 LLM 시스템의 모듈형 절차적 메모리 프레임워크
과거 작업 궤적을 재사용 가능한 메모리 단위로 분해하고, 오케스트레이터와 태스크 에이전트에 유연하게 할당
메모리 배치, 검색 방법, 어떤 에이전트가 가장 혜택을 받는지에 대한 체계적 연구 수행
OfficeBench 벤치마크 실험 결과, 오케스트레이터 메모리가 효과적인 작업 분해 및 위임에 필수적
작은 언어 모델 팀도 절차적 메모리를 통해 성능 격차를 크게 좁힘

원문 인용: "We introduce LEGOMem, a modular procedural memory framework for multi-agent large language model (LLM) systems in workflow automation. LEGOMem decomposes past task trajectories into reusable memory units and flexibly allocates them across orchestrators and task agents to support planning and execution."

1. Introduction

핵심 내용:

LLM이 복잡한 다단계 워크플로우를 자동화하는 에이전트로 점차 배포되고 있으며, 특히 생산성 환경에서 유용
최근 시스템은 다중 에이전트 설계를 채택하여 여러 LLM 기반 에이전트가 협업, 전문화, 책임 위임
현재 다중 에이전트 시스템의 주요 한계: 상태를 유지하지 않아 과거 경험을 재사용하지 못함
기존 메모리 연구(Synapse, AWM)는 단일 에이전트 시나리오에 초점을 맞춤
LEGOMem은 Magentic-One 프레임워크 기반으로 중앙 오케스트레이터가 계획을 수행하고 전문 태스크 에이전트에게 하위 작업 위임
RAG 레이어로 구현되어 기존 다중 에이전트 시스템에 메모리 증강

Figure 1 설명:

(a) LEGOMem 프레임워크 개요: 오프라인 메모리 큐레이션 단계와 온라인 추론 단계로 구성
(b) LEGOMem 메모리 구조 예시: 작업 설명, 고수준 계획, 하위 작업별 에이전트, 단계, 최종 답변, 반성 포함

원문 인용: "Large Language Models (LLMs) are increasingly deployed as agents to automate complex multi-step workflows. To manage the diversity and compositionality of such tasks, recent systems often adopt multi-agent designs, where multiple LLM-based agents collaborate, specialize, or delegate responsibilities across roles and tools."

"Despite these advances, current multi-agent systems remain largely stateless and transactional: each task is solved from scratch, without reusing prior experience."

2. Related Work

핵심 내용:

다중 에이전트 LLM 시스템: Magentic-One 등 일반적인 프레임워크는 리드 오케스트레이터가 고수준 목표를 단계별 계획으로 분해하고 전문 에이전트를 지시
모듈식 아키텍처의 장점: 개발 단순화 및 캡슐화된 기술 재사용 가능
주요 한계: 상태를 유지하지 않아 각 작업을 처음부터 해결하고 실행 중 얻은 귀중한 통찰을 폐기
LLM 에이전트를 위한 메모리: 대부분 단일 에이전트 시스템을 위해 설계되고 일화적/의미적 메모리에 초점
A-MEM: 상호작용을 상호 연결된 노트 네트워크로 캡처
Mem0: 진행 중인 대화에서 메모리 관리에 초점
Synapse: 성공적인 전체 궤적을 예시로 사용
AWM: 자주 사용되는 하위 작업 시퀀스를 재사용 가능한 기술로 유도
LEGOMem의 차별점: 다중 에이전트 시스템을 위한 모듈식, 역할 인식 절차적 메모리로 오케스트레이터와 태스크 에이전트에 메모리를 유연하게 할당

원문 인용: "Generalist multi-agent frameworks such as Magentic-One use a common design pattern where a lead orchestrator agent decomposes high-level goals into a step-by-step plan and directs a team of specialized agents to execute specific subtasks."

"Without memory, agents may repeatedly make the same errors and cannot improve over time."

"In contrast, LEGOMem introduces modular, role-aware procedural memory for multi-agent systems."

3. LEGOMem: Modular Procedural Memory for Multi-agent LLM Systems

핵심 내용:

LEGOMem은 다중 에이전트 LLM 시스템을 위한 모듈형 절차적 메모리 프레임워크
문제 형식화, 프레임워크 세부사항, 변형 전략 제시

원문 인용: "In this section, we introduce LEGOMem, a modular procedural memory framework designed for multi-agent LLM systems."

3.1 Problem formulation

핵심 내용:

Multi-agent 워크플로우 자동화 및 절차적 메모리의 형식적 정의 제공

3.1.1 Multi-agent system for workflow automation

핵심 내용:

Magentic-One 시스템 기반의 다중 에이전트 워크플로우 자동화 프레임워크
구성요소: 오케스트레이터 A_orch, 태스크 에이전트 집합 A = {A₁, ..., Aₖ}, 외부 환경 E
태스크 에이전트: Word, Excel, Calendar, Email, System, OCR-PDF 앱용으로 구현
Docker 환경에서 도구 API를 통해 시뮬레이션된 앱과 상호작용
동적 오케스트레이션: 오케스트레이터는 정적 계획을 따르는 것이 아니라 현재 상태와 에이전트의 관찰을 기반으로 동적으로 다음 하위 작업 생성

오케스트레이션 단계:

오케스트레이터가 다음 하위 작업 제안: s_t = π_orch(σ_t)
적절한 태스크 에이전트 A_j에게 하위 작업 할당
태스크 에이전트가 환경 E에 도구 사용 명령을 발행하여 s_t 실행, 관찰 o_t 및 실행 요약 r_t 반환
오케스트레이터가 상태 업데이트: σ_{t+1} = f(σ_t, r_t)

원문 인용: "We consider a common multi-agent workflow automation framework (based on Magentic-One system) with an orchestrator A_orch, a set of task agents A = {A₁, ..., Aₖ}, and an external environment E."

"However, orchestration is not a static plan-following process: after each orchestration step, the orchestrator dynamically generates the next subtask based on the current state σ_t and observations returned from the agents."

3.1.2 Multi-agent procedural memory

핵심 내용:

다중 에이전트 절차적 메모리: 성공적인 궤적에서 추출되어 다중 에이전트 시스템의 작업 전반에 재사용되는 모듈식, 역할 인식 메모리
일화적/의미적 메모리와의 차이: 주로 이벤트나 텍스트 정보를 캡처하는 것과 달리, 절차적 메모리는 워크플로우를 오케스트레이터와 태스크 에이전트 모두에 맞춘 재사용 가능한 서브루틴으로 추상화
메모리 저장소 M: 과거 실행에서 파생된 모듈형 메모리 단위 컬렉션
전체 메모리: 오케스트레이션 계획 및 요약된 실행 궤적 캡처
하위 작업 메모리: 에이전트별 하위 작업 실행 캡처

원문 인용: "To address this limitation and enable agents to improve through experience, we introduce multi-agent procedural memory: modular, role-aware memories distilled from successful trajectories and reused across tasks in a multi-agent system."

"In contrast to episodic or semantic memory, which primarily capture events or textual information, multi-agent procedural memory abstracts workflows into reusable subroutines tailored to both orchestrators and task agents."

3.2 The LEGOMem framework

핵심 내용:

두 단계로 작동: (i) 오프라인 메모리 구축 단계, (ii) 온라인 메모리 증강 추론 단계
모듈형 설계: LEGO처럼 과거 경험을 재조합하여 효율적이고 신뢰할 수 있는 작업 완료 지원

원문 인용: "The LEGOMem framework instantiates the problem formulation by equipping multi-agent systems with modular procedural memory. It operates in two phases: (i) an offline memory construction phase, where successful task trajectories are distilled into reusable memory units; and (ii) an online memory-augmented inference phase, where retrieved memories are allocated to the orchestrator and task agents to guide planning and execution."

3.2.1 Memory construction

핵심 내용:

오프라인 메모리 구축: 성공적인 작업 궤적을 구조화되고 재사용 가능한 메모리 단위로 추출
두 가지 보완적 메모리 유형:
- (i) Full-task memories (전체 작업 메모리): 작업 설명, 실행된 고수준 계획 캡처
- (ii) Subtask memories (하위 작업 메모리): 하위 작업 설명, 지역화된 에이전트 행동 및 도구 사용, 관찰 캡슐화
추론 시: 오케스트레이터는 전체 작업 메모리를 받고, 태스크 에이전트는 관련 하위 작업 메모리 제공
벡터 데이터베이스로 구현: 밀집 임베딩을 사용하여 인덱싱
임베딩 모델 φ(·): 전체 작업 메모리의 경우 작업 설명 d를 기반으로 φ(d) 계산하여 의미적 유사성 검색 가능
세 가지 검색 및 할당 전략: Vanilla LEGOMem, LEGOMem-Dynamic, LEGOMem-QueryRewrite

원문 인용: "The first phase of LEGOMem is offline memory construction, where successful task trajectories are distilled into structured and reusable memory units."

"From each trajectory, we extract two complementary types of memory: (i) full-task memories that capture the task description, the high-level plan executed, and (ii) subtask memories, that encapsulate the subtask description, the localized agent behavior and tool-use, and observations."

3.2.2 Memory-augmented inference

핵심 내용:

두 번째 단계: LEGOMem이 작업 실행 루프를 증강하여 오케스트레이터에 전체 작업 메모리, 태스크 에이전트에 하위 작업 메모리 제공
Vanilla LEGOMem 추론 과정 (Algorithm 1):
1. 새 작업 d_new에 대해 임베딩 φ(d_new) 획득
2. 의미적 유사성을 사용하여 전역 메모리 뱅크 M에서 상위 K개의 관련 메모리 검색
3. 전체 작업 메모리를 오케스트레이터에 할당
4. 검색된 전체 작업 메모리에서 하위 작업 메모리 추출하여 해당 태스크 에이전트에 할당
실행 중: 오케스트레이터는 전체 메모리를 받고 초기 계획 수행
각 오케스트레이션 단계: 오케스트레이터가 현재 상태와 검색된 전체 작업 메모리를 사용하여 동적으로 다음 하위 작업 생성
선택된 에이전트는 할당된 하위 작업 메모리로 하위 작업을 실행하고, 관찰 및 요약을 반환하여 오케스트레이터 상태 업데이트
정체 시: 오케스트레이터는 메모리를 추가 지침으로 사용하여 재계획 가능

Algorithm 1: Multi-agent Execution with Vanilla LEGOMem

입력: 작업 설명 d_new, 메모리 뱅크 M, 오케스트레이터 A_orch, 태스크 에이전트 A
1. φ(d_new) 임베딩 계산하고 M에서 상위 K개 의미적으로 유사한 전체 작업 메모리 m 검색
2. 전체 작업 메모리에서 하위 작업 메모리 추출하고 각 에이전트에 할당
3. 환경 E 초기화하고 작업 d_new 시작
4. 검색된 전체 작업 메모리 m을 오케스트레이터에 증강하고 초기 계획 π_0 생성
5. 작업이 완료될 때까지:
   - 오케스트레이터가 다음 에이전트 A_t 선택, 다음 하위 작업 s_t 생성하여 A_t에 할당
   - 하위 작업 메모리를 태스크 에이전트 A_t에 증강
   - 태스크 에이전트 A_t가 도구 사용 동작 목록 생성하여 환경에서 실행
   - 에이전트가 관찰 o_t 받고, 하위 작업 실행 요약하여 요약 메시지 r_t를 오케스트레이터에 전송
   - 진행이 정체되면: 오케스트레이터가 재계획 수행하고 계획 π' 업데이트
6. 오케스트레이터 최종 응답 반환

원문 인용: "In the second phase, LEGOMem augments the task execution loop by supplying the orchestrator with full-task memories (end-to-end for planning and detailed orchestration) and augment task agents with subtask memories (localized execution guidance)."

"Through this loop, LEGOMem integrates past experiences to make more informed decision during planning and coordination, improving both reliability and efficiency of the multi-agent workflows."

3.3 LEGOMem variants

핵심 내용:

세 가지 변형: Vanilla LEGOMem, LEGOMem-Dynamic, LEGOMem-QueryRewrite
차이점: 하위 작업 메모리를 저장 및 검색하고 태스크 에이전트에 할당하는 방식

원문 인용: "To explore the impact of subtask retrieval granularity in multi-agent systems, we compare three variants of LEGOMem: (vanilla) LEGOMem, LEGOMem-Dynamic, and LEGOMem-QueryRewrite."

Vanilla LEGOMem:

전역 절차적 메모리 뱅크 M 유지
추론 시 작업 설명을 사용하여 전체 작업 메모리 검색하고 오케스트레이터에 증강
검색된 메모리에서 하위 작업 메모리를 직접 추출하여 관련 태스크 에이전트에 정적으로 할당
장점: 간단하고 효율적이며 팀 전반에서 강력한 성능 제공
단점: 검색된 전체 작업 메모리가 현재 작업과 하위 작업 구조가 다른 경우 특정 에이전트에 대한 관련 하위 작업 메모리를 표면화하지 못할 수 있음

LEGOMem-Dynamic (Figure 2a):

실행 중 하위 작업 수준 검색 수행
오케스트레이터 메모리 저장 및 검색은 Vanilla 버전과 동일
에이전트별 하위 작업 메모리 뱅크 유지 (전역 메모리 뱅크에서 세분화)
오케스트레이터가 에이전트 A_t에 대한 하위 작업 s_t를 생성할 때:
- 임베딩 φ(s_t) 계산
- 에이전트의 메모리 뱅크 M_{A_t}를 쿼리하여 가장 관련성 높은 과거 하위 작업 추적만 검색
장점: Just-in-time 검색으로 더 정확한 실행 지침 제공, 무관한 메모리의 노이즈 감소
단점: 실행 중 반복적인 하위 작업 임베딩 및 검색 발생

LEGOMem-QueryRewrite (Figure 2b):

쿼리 재작성을 사용하여 계획 단계로 검색을 이동
전체 작업 메모리 검색 후, 쿼리 재작성기 LLM ψ가 메모리를 사용하여 새 작업에 대한 초안 계획 생성
- π'_draft = {s'₁, s'₂, ..., s'_n} (재작성된 하위 작업으로 구성)
각 s'_j는 φ(s'j)를 통해 임베딩되고, 작업 실행이 시작되기 전에 해당 에이전트의 메모리 뱅크 M{A_j}에서 관련 하위 작업 메모리 검색에 사용
장점: LEGOMem-Dynamic의 세분화된 검색 이점 유지하면서 런타임에 반복적인 쿼리 방지, 더 효율적인 실행 및 원활한 오케스트레이션 가능
실험 결과: 세 가지 변형 모두 전체 메모리 설정에서 유사한 전체 성능 달성, 변형 간 견고성 입증
Ablation 연구: LEGOMem-Dynamic과 LEGOMem-QueryRewrite는 태스크 에이전트 수준 메모리만 사용되고 작은 언어 모델 태스크 에이전트를 사용할 때 Vanilla LEGOMem을 능가

원문 인용: "While LEGOMem-Dynamic performs just-in-time retrieval at each orchestration step, it incurs repeated subtask embedding and retrieval during execution. LEGOMem-QueryRewrite shifts this to the planning stage using query rewriting."

"Interestingly, our experiments show that all three variants achieve similar overall performance in full memory settings, demonstrating the robustness across variants."

4. Experiments

핵심 내용:

OfficeBench 벤치마크에서 LEGOMem 평가
다양한 에이전트 팀 구성 (LLM 전용, 하이브리드, SLM 전용)에서 변형과 강력한 베이스라인 비교
메모리 배치, 검색 전략, 표현 형식에 대한 Ablation 연구
결과: LEGOMem은 팀 구성 전반에서 작업 성공률을 일관되게 향상시킴

원문 인용: "We evaluate LEGOMem on the OfficeBench benchmark, comparing its variants with strong baselines across LLM-only, hybrid, and SLM-only multi-agent teams."

4.1 Experimental setup

4.1.1 Dataset and metrics

핵심 내용:

OfficeBench 데이터셋: 다양한 복잡도 수준의 다단계 사무 자동화 작업으로 구성
300개 작업을 훈련(148개, 메모리 큐레이션용) 및 테스트(152개, 평가용) 세트로 분할
작업 난이도: Level 1 (단일 애플리케이션), Level 2 (두 개 애플리케이션), Level 3 (다중 애플리케이션 워크플로우)
평가 메트릭: Success rate (성공률) - 올바르게 해결된 작업의 비율
성공 평가: 환경의 최종 상태에 따라 프로그래밍 방식으로 평가 (예: 스프레드시트 항목, 캘린더 이벤트, 이메일 송수신, 질문 답변의 정확한 일치 또는 퍼지 키워드 일치)

원문 인용: "We evaluate the agents on the OfficeBench, which consists of multi-step office automation tasks with varying levels of complexity."

"The evaluation metric is the success rate, i.e. the percentage of tasks solved correctly."

4.1.2 Implementation details

핵심 내용:

세 가지 팀 구성:
- LLM team (LLM 팀): 오케스트레이터와 태스크 에이전트 모두 GPT-4o 사용
- Hybrid (LLM + SLM) team (하이브리드 팀): 오케스트레이터는 GPT-4o, 태스크 에이전트는 GPT-4o-mini 사용
- SLM team (SLM 팀): 모든 구성요소에 GPT-4o-mini 사용
메모리 저장 및 검색: OpenAI text-embedding-3-large 모델 사용하여 작업 설명 임베딩, FAISS 라이브러리를 벡터 데이터베이스로 사용
OCR 앱: Phi-3.5-mini 모델을 비전 언어 모델로 사용하여 이미지 파싱

비교 베이스라인:

(i) No memory (메모리 없음)
(ii) Synapse: 원시 동작 시퀀스 및 전체 궤적을 사용하여 의미적으로 유사한 메모리로 에이전트 증강
(iii) AWM: 전체 궤적에서 추출된 요약된 하위 작업 메모리로 에이전트 증강

원문 인용: "We experiment with three team configurations with agents of different sizes and capabilities."

"We compare the LEGOMem variants with three baselines: (i) No memory, and two state-of-the-art methods on procedural memory for workflow automation (ii) Synapse, and (iii) AWM."

4.1.3 Memory curation and agent inference details

핵심 내용:

메모리 구축: 148개 훈련 작업 사용
먼저 메모리 없이 전체 LLM 에이전트 팀 실행
성공적인 궤적 필터링하여 93개 전체 작업 메모리 추출
LEGOMem 변형의 경우 93개 전체 작업 메모리에서 태스크 에이전트용 250개 하위 작업 메모리 추가 추출
Synapse 및 AWM 적응: 다중 에이전트 팀에 맞게 조정하여 오케스트레이터와 태스크 에이전트 모두에 메모리 증강
- Synapse: 오케스트레이터와 태스크 에이전트 모두에 전체 궤적 증강
- AWM: 성공적인 궤적을 클러스터링하여 각 클러스터에서 하위 작업 메모리 추출 및 통합, 추론 시 태스크 에이전트에 해당 추출된 하위 작업 메모리 증강, 오케스트레이터에 추출된 하위 작업 메모리 목록 증강
모든 변형: 오케스트레이터에 5개 메모리, 각 태스크 에이전트에 3개 메모리 사용

원문 인용: "Memory construction uses the 148 training tasks, where we first run the full LLM agent team without memory, and filter for successful trajectories and extracted 93 full task memories from the successful trajectories."

"For all variants, we use 5 memories for orchestrator and 3 memories for each task agent from the successful trajectories."

4.2 Main results

핵심 내용:

Table 1: 메모리 변형, 작업 수준, 다중 에이전트 팀 전반의 성능 비교

모든 시나리오 및 에이전트 팀 구성에서 LEGOMem 변형이 베이스라인 방법을 일관되게 능가
세 가지 LEGOMem 변형 모두 유사하고 일관된 성능 보임, Vanilla LEGOMem 변형이 경량이면서도 최고의 전체 성능 달성
메모리 없는 팀 대비 LEGOMem의 전체 작업 성공률 향상:
- LLM 팀: +12.61%
- 하이브리드 팀: +12.72%
- SLM 팀: +13.38%
LEGOMem은 더 작은 모델이 더 큰 모델과의 격차를 좁히고 때로는 능가할 수 있게 함:
- LEGOMem-QueryRewrite를 사용한 하이브리드 팀: 50.22% (메모리 없는 LLM 팀 45.83% 초과)
- Vanilla LEGOMem을 사용한 전체 SLM 팀: 38.16% (메모리 없는 하이브리드 팀 35.31% 초과)
Synapse: LLM 팀에서는 경쟁력 유지하지만, 하이브리드 및 SLM 팀에서는 효과가 덜 일관적
LEGOMem: 모든 팀 설정에서 강력한 성능 유지

Table 1: Performance comparison across memory variants, task levels, and multi-agent teams (표 1: 메모리 변형, 작업 수준, 다중 에이전트 팀 전반의 성능 비교)

LLM 팀, 하이브리드 팀, SLM 팀 각각에 대해 Level 1, 2, 3 및 전체 성공률 표시
베이스라인 방법(No memory, Synapse, AWM)과 LEGOMem 방법(LEGOMem, LEGOMem-Dynamic, LEGOMem-QueryRewrite) 비교

Figure 3: Qualitative example of agent execution with and without memory (그림 3: 메모리 유무에 따른 에이전트 실행의 질적 예시)

메모리 없는 팀: 불완전한 계획으로 인해 가장 오래된 이메일 식별 실패, 첫 번째 이메일만 읽고 중단
LEGOMem을 사용한 팀: 모든 이메일을 체계적으로 읽고 비교하여 가장 오래된 이메일 정확하게 식별
LEGOMem이 총 성공률에 반영된 것 이상으로 추론 일관성 및 작업 완전성을 개선함을 강조

원문 인용: "Across all scenarios and agent team configurations, LEGOMem variants consistently outperform baseline methods in terms of overall success rate."

"Importantly, LEGOMem enables smaller models to close the gap with, and sometimes outperform, larger ones."

"This example highlights how LEGOMem improves reasoning consistency and task completeness beyond what is reflected in aggregate success rates."

4.3 Ablations experiments

핵심 내용:

다양한 메모리 검색, 할당, 배치 전략이 LEGOMem 성능에 미치는 영향 조사

원문 인용: "This section investigates how different memory retrieval, allocation, and placement strategies affect the performance of LEGOMem."

4.3.1 Memory retrieval, allocation, and placement

핵심 내용:

Table 2: 다양한 메모리 배치 메커니즘에 따른 LEGOMem 변형 간 성능 비교

메모리 검색:

세 가지 하위 작업 메모리 검색 전략(Vanilla, Dynamic, QueryRewrite) 모두 견고하게 수행되며 유사한 전체 성공률 달성
동적 검색은 더 목표화된 할당 가능, 쿼리 재작성은 하위 작업 표현 변형에 대한 견고성 향상
이러한 차이는 메모리 배치 및 할당 전략의 영향에 비해 미미
태스크 에이전트 전용 메모리 설정에서 LEGOMem-Dynamic과 LEGOMem-QueryRewrite는 하이브리드 팀에서 Vanilla LEGOMem보다 평균 4-5% 우수
- 태스크 에이전트가 더 작은 모델이고 에이전트 수준 메모리가 더 중요한 역할을 하는 경우
세분화된 하위 작업 검색의 장점: 특히 전역 계획 신호가 약할 때 태스크 에이전트에 더 관련성 높고 맥락적인 지침 제공

메모리 할당:

오케스트레이터 + 에이전트 메모리의 공동 할당이 가장 강력한 전체 결과 산출
- 오케스트레이터 메모리: 효과적인 계획, 작업 분해, 하위 작업 오케스트레이션 지원
- 태스크 에이전트 메모리: 실행 수준 정밀도 가능
오케스트레이터 메모리가 필수적: 오케스트레이터에서 메모리를 제거하고 태스크 에이전트에만 제공할 경우(태스크 에이전트 메모리 변형) 성능이 현저히 저하

메모리 배치:

계획 및 재계획 단계로만 제한되더라도 오케스트레이터 메모리는 여전히 태스크 에이전트 전용 변형보다 향상, 고수준 계획 및 작업 분해 안내에서의 중심적 역할 확인
태스크 에이전트 전용 메모리: 더 정확한 도구 사용을 촉진하고 메모리 없는 베이스라인을 능가하지만, 오케스트레이터 수준 메모리보다는 덜 효과적
- 전역 조정 없는 로컬 메모리는 불충분함을 나타냄

Table 2: Comparing performance with various memory placement mechanism across LEGOMem variants (표 2: LEGOMem 변형 전반의 다양한 메모리 배치 메커니즘에 따른 성능 비교)

오케스트레이터 + 에이전트 메모리
오케스트레이터 메모리(계획) + 에이전트 메모리
오케스트레이터 메모리만
태스크 에이전트 메모리만
메모리 없음

원문 인용: "The three subtask memory retrieval strategies—vanilla LEGOMem, LEGOMem-Dynamic, and LEGOMem-QueryRewrite—all perform robustly and achieve similar overall success rates."

"Regarding memory allocation, we find that joint allocation of orchestrator and task agent memory (Orchestrator + Agent memory variant) yields the strongest overall results."

"Orchestrator memory emerges as essential: when memory is removed from the orchestrator and provided only to task agents (Task Agent memory variant), performance drops noticeably."

4.3.2 Effectiveness of adding reasoning in memory

핵심 내용:

Table 3: 추론 유무에 따른 메모리 비교

절차적 메모리에 경량 추론을 추가하는 것이 성능을 향상시키는지 검토
결과: 차이가 미미함, 변형 및 팀 유형 전반에서 전체 점수가 2포인트 미만 변화
예: Vanilla LEGOMem은 LLM 팀에서 약간 향상(56.36% → 58.44%)하지만 하이브리드 팀에서는 감소(49.78% → 48.03%)
LEGOMem은 견고함: 모듈화된 구조가 이미 추가 추론 단계 없이 충분한 절차적 지침 제공

Table 3: Comparing memory with and without reasoning across different LEGOMem variants (표 3: 다양한 LEGOMem 변형 전반의 추론 유무에 따른 메모리 비교)

원문 인용: "We also examine whether augmenting procedural memories with lightweight reasoning improves performance. As shown in Table 3, the differences are minor: overall scores change by less than two points across variants and team types."

"These results suggest that LEGOMem is robust, with its modularized structure already providing sufficient procedural guidance without additional reasoning steps."

4.3.3 Effectiveness of memory on execution steps and failure rates

핵심 내용:

Figure 4: LLM 팀에 대한 다양한 메모리 배치 변형으로 실행 단계 비교

(a) 작업 수준별 평균 실행 단계: LEGOMem 변형이 작업 완료에 필요한 실행 단계 수 감소
- 예: Level 3 작업의 경우 평균 26.5단계에서 22.2단계로 -16.2% 감소
- 태스크 메모리 전용 변형(오케스트레이터 메모리 제거)은 오케스트레이터 메모리가 있는 변형에 비해 작업 완료에 더 많은 단계 필요
  - 개선된 계획을 위한 오케스트레이터 메모리의 효과 입증
(b) 작업 수준별 평균 실패 단계 비율: LEGOMem이 에이전트 단계의 평균 실패율 감소
- Level 3에서 실패율이 메모리 없는 설정의 0.275에서 LEGOMem을 사용한 0.225로 감소
LEGOMem이 작업 성공률을 향상시킬 뿐만 아니라 더 효율적이고 신뢰할 수 있는 작업 실행 가능

Figure 4: Ablations study: execution steps comparison for different LEGOMem memory placement for LLM teams (그림 4: Ablation 연구: LLM 팀을 위한 다양한 LEGOMem 메모리 배치에 대한 실행 단계 비교)

원문 인용: "Compared to the no memory variant, the agents equipped with LEGOMem can reduce the number of execution steps required to complete the tasks, for example, a -16.2% drop from an average of 26.5 to 22.2 steps for Level 3 tasks."

"Similarly, Figure 4b shows that LEGOMem reduces the average failure rate of agent steps."

"These results indicate that LEGOMem not only improves task success rates but also enables more efficient and reliable task execution."

5. Conclusion

핵심 내용:

LEGOMem: 오케스트레이터와 태스크 에이전트가 과거 작업 실행으로부터 학습할 수 있게 하는 다중 에이전트 시스템을 위한 모듈형 절차적 메모리 프레임워크
워크플로우를 재사용 가능한 메모리 단위(전체 작업 및 하위 작업 구성요소로 분할)로 표현하여 메모리 검색 및 할당을 통한 효율적인 작업 계획 및 실행 지원
세 가지 LEGOMem 변형 구현 및 평가하여 메모리 검색 및 배치 전략의 설계 공간 탐색
워크플로우 자동화 작업에 대한 광범위한 실험을 통해 LEGOMem이 메모리 없는 방법 및 베이스라인 방법에 비해 작업 성공률을 크게 향상시킴을 입증
오케스트레이터 메모리가 계획 및 조정에서 중요한 역할 수행
메모리는 더 작은 에이전트에게도 이익을 주어 프레임워크의 유연성과 효과성 강조
절차적 메모리를 다중 에이전트 시스템에 통합하면 더 신뢰할 수 있고 재사용 가능한 솔루션 가능
향후 연구 방향: 실패한 과거 궤적으로부터의 지속적 학습, LEGOMem을 개방형 환경 및 도구 생태계로 확장

원문 인용: "We introduced LEGOMem, a modular procedural memory framework for multi-agent systems that enables orchestrators and task agents to learn from prior task executions."

"Across extensive experiments on workflow automation tasks, we show that LEGOMem significantly improves task success rates over memory-less and baseline methods, with orchestrator memory playing a critical role in planning and coordination, and memory can also benefit smaller agents, highlighting the flexibility and effectiveness of the framework."

"Our work shows that integrating procedural memory into multi-agent systems enables more reliable and reusable solutions."

Appendix

A. Prompts for Memory Curation

핵심 내용:

메모리 큐레이션 및 쿼리 재작성 LLM을 위한 상세 프롬프트 제공

Prompt 1: 메모리 큐레이션 프롬프트

에이전트 궤적에서 미래 LLM 에이전트의 참조에 유용한 메모리 생성
궤적을 분석하고 명확한 사고와 잘 형성된 동작으로 구조화된 메모리 추출
각 하위 작업 단계에 대한 형식: <think>추론</think><action>도구 호출</action>
메모리 객체 형식:
- high_level_plan: 수행된 고수준 단계 및 각 하위 작업을 수행하는 에이전트 나열
- subtasks: 에이전트, 설명, 단계, 관찰 포함
- final_answer: 오케스트레이터 또는 답변 에이전트가 제공한 최종 답변
- reflections: 성공한 것, 구체적인 실패, 근본 원인 및 회피 방법을 나열하는 간결한 요약
규칙:
1. 관련 있고 함께 수행할 수 있는 동작을 하위 작업으로 그룹화
2. 단계 필드의 각 동작에 대해 명확한 추론과 구조화된 도구 호출이 뒤따르는 think-action 형식 사용
3. 동작 복사 시 함수 호출 ID 제거하지만 필수 도구 호출 구조 유지
4. 성공적인 동작만 포함, 오류를 초래한 동작 생략
5. 관찰을 매우 간결하지만 유익하게 유지
6. 하위 작업에 오케스트레이터 조정 단계 포함하지 않음
7. 하위 작업 단계 필드에 목록이 아닌 think-action 쌍이 있는 문자열 형식 사용

Prompt 2: 쿼리 재작성 프롬프트) :

유사한 작업 예제를 기반으로 새 작업을 단계별 계획으로 분해
입력: 유사한 작업 예제, 새 작업 설명
출력: 작업 완료에 필요한 3-5개의 고수준 단계를 번호가 매겨진 목록으로 제공
세부 동작이 아닌 주요 단계/하위 작업에 초점
<start>와 <end> 태그로 둘러싸인 간단한 번호가 매겨진 목록으로 응답 형식 지정

원문 인용: "From the following agent trajectory, generate memory that can be useful for future LLM agents' reference."

"Based on the following similar task examples, break down the new task into a step-by-step plan."

7. 참조 논문

논문 제목 주저자 발표시기 추천이유 간략 내용

Magentic-One: A generalist multi-agent system for solving complex tasks	Adam Fourney	2024	LEGOMem의 기반 아키텍처로 사용된 대표적인 다중 에이전트 프레임워크	리드 오케스트레이터 에이전트가 고수준 목표를 분해하고 전문 에이전트 팀을 지휘하는 일반적인 다중 에이전트 시스템 설계 패턴 제시
Synapse: Trajectory-as-exemplar prompting with memory for computer control	Longtao Zheng	2023	단일 에이전트 절차적 메모리의 주요 비교 베이스라인	성공적인 과거 전체 궤적을 예시로 사용하여 단일 에이전트의 컴퓨터 제어 작업 수행 능력 향상. 원시 동작 시퀀스 활용
Agent Workflow Memory (AWM)	Zora Zhiruo Wang	2024	단일 에이전트 절차적 메모리의 또 다른 주요 비교 베이스라인	자주 사용되는 하위 작업 시퀀스를 재사용 가능한 기술로 유도하여 단일 에이전트 워크플로우 자동화 개선
OfficeBench: Benchmarking language agents across multiple applications for office automation	Zilong Wang	2024	LEGOMem 평가에 사용된 벤치마크 데이터셋	다양한 복잡도 수준(Level 1-3)의 다단계 사무 자동화 작업으로 구성된 벤치마크. 여러 애플리케이션(Word, Excel, Calendar, Email 등)에 걸친 에이전트 평가
AutoGen: Enabling next-gen LLM applications via multi-agent conversations	Qingyun Wu	2024	다중 에이전트 대화를 통한 차세대 LLM 애플리케이션을 가능하게 하는 프레임워크	다중 에이전트 대화를 통해 복잡한 작업을 해결하는 프레임워크. 에이전트 간 협업 및 조정 메커니즘 제공

ReasoningBank

빛나는 일상 — Sat, 10 Jan 2026 10:37:15 +0900

1. 논문 기본 정보

제목: ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
저자(학교, 기관): Siru Ouyang (University of Illinois Urbana-Champaign), Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki (Google Cloud AI Research), Xiangru Tang (Yale University), 외 다수
발표일: 2025년 9월 29일
학회/저널명: arXiv preprint
DOI/URL: https://arxiv.org/pdf/2509.25140

2. 한줄 요약

대규모 언어 모델 에이전트가 성공과 실패 경험 모두로부터 일반화 가능한 추론 전략을 추출하고 테스트 시점 스케일링과 결합하여 지속적으로 자기진화할 수 있는 메모리 프레임워크

3. 해결하려는 문제

LLM 에이전트가 실제 환경에서 지속적으로 작업을 수행할 때 과거 경험으로부터 학습하지 못하고, 매번 작업을 독립적으로 처리하면서 같은 실수를 반복하고 유용한 통찰을 버리는 문제를 해결하고자 합니다.

원문 인용: "A key limitation, however, is their failure to learn from the accumulated interaction history, forcing them to discard valuable insights and repeat past errors."

4. 제안 기술

에이전트의 성공/실패 경험에서 일반화 가능한 추론 전략을 추출하여 구조화된 메모리 아이템으로 저장하는 ReasoningBank와, 이를 테스트 시점 스케일링과 결합한 MaTTS(Memory-aware Test-Time Scaling)를 제안합니다.

원문 인용: "We propose ReasoningBank, a novel memory framework that distills generalizable reasoning strategies from an agent's self-judged successful and failed experiences."

5. 단락별 정리

Abstract

핵심 내용:

LLM 에이전트가 지속적인 작업 스트림에서 축적된 경험으로부터 학습하지 못하는 한계 지적
ReasoningBank는 성공/실패 경험 모두에서 일반화 가능한 추론 전략을 추출하는 메모리 프레임워크
MaTTS(Memory-aware Test-Time Scaling)를 통해 경험 스케일링과 메모리 간 시너지 창출
WebArena, Mind2Web, SWE-Bench-Verified 벤치마크에서 효과성과 효율성 모두 개선

원문 인용: "We propose ReasoningBank, a novel memory framework that distills generalizable reasoning strategies from an agent's self-judged successful and failed experiences. At test time, an agent retrieves relevant memories from ReasoningBank to inform its interaction and then integrates new learnings back, enabling it to become more capable over time."

1. Introduction

핵심 내용:

LLM 에이전트가 실제 환경에서 지속적으로 배포되면서 연속적인 작업 스트림을 만남
기존 에이전트는 각 작업을 독립적으로 처리하여 과거 실수를 반복하고 관련 문제의 통찰을 버림
기존 메모리 시스템은 원시 궤적(raw trajectories)이나 성공적인 루틴만 저장하는 한계
ReasoningBank는 높은 수준의 전이 가능한 추론 패턴을 추출하고 실패로부터도 학습

원문 인용: "However, they largely fail to learn from their accumulated experience across tasks. By approaching each task in isolation, they are doomed to repeat past errors, discard valuable insights from related problems, and lack self-evolving capabilities that make the agent system more capable over time."

2. Related Work

Memory for LLM Agents

핵심 내용:

기존 메모리 시스템은 일반 텍스트, 잠재 지식 임베딩, 구조화된 그래프 등 다양한 형태로 정보 저장
대부분은 개인화(personalization)와 긴 컨텍스트 관리에 초점
성공적인 궤적이나 절차적 워크플로우 재사용에 집중
ReasoningBank는 고수준 전략과 추론 힌트를 저장하며 실패로부터도 학습

원문 인용: "Different from previous works that emphasize reusing successful trajectories or procedural workflows, ReasoningBank stores high-level strategies and reasoning hints. By abstracting experiences into reusable reasoning units, ReasoningBank enables agents to generalize not only from successful cases but also by learning from failures."

Agent Test-Time Scaling

**Test-Time Scaling (TTS)**은 추론(inference) 시점에 더 많은 계산 자원을 투입하여 성능을 향상시키는 기법입니다.

핵심 내용:

테스트 시점 스케일링은 문제 해결에서 강력한 효과 입증
Best-of-N, 빔 서치(beam search), 검증자(verifiers) 활용 등의 방법 사용
기존 연구는 메모리의 역할을 고려하지 않음
본 연구는 메모리를 활용한 테스트 시점 스케일링(MaTTS) 제안

원문 인용: "We found that none of these efforts considers the role of agent memory in scaling, where an agent can learn from past experiences to guide future decisions."

3. Methodology

3.1. Problem Formulation

핵심 내용:

LLM 기반 에이전트 정책은 메모리 모듈 M과 액션 공간 A에 조건부
환경과의 순차적 의사결정 과정으로 작업 수행
웹 브라우징과 소프트웨어 엔지니어링 작업에 초점
테스트 시점 학습 패러다임에서 작업 쿼리가 스트리밍 방식으로 도착

원문 인용: "We focus on the test-time learning paradigm where a sequence of task queries Q = {q₁, q₂, ..., qₙ} arrives in a streaming fashion, i.e., each query is revealed and must be completed sequentially without access to future ones."

3.2. ReasoningBank

핵심 내용:

과거 궤적을 구조화된 메모리 아이템으로 정제하여 저장
각 메모리 아이템은 제목(title), 설명(description), 내용(content)으로 구성
성공적 경험과 실패한 경험 모두에서 메모리 추출
메모리 검색(retrieval), 구성(construction), 통합(consolidation) 세 단계로 통합

원문 인용: "ReasoningBank distills and organizes memory items from both successful and failed experiences judged by the agent itself without ground-truth labels. As shown in Figure 1, it captures not only effective strategies from successes but also crucial preventative lessons from failures, abstracting them into a collection of actionable principles."

Memory Schema

핵심 내용:

제목(title): 핵심 전략이나 추론 패턴을 요약하는 간결한 식별자
설명(description): 메모리 아이템의 한 문장 요약
내용(content): 과거 경험에서 추출한 추론 단계, 의사결정 근거, 운영 통찰 기록
사람이 해석 가능하고 기계가 사용 가능한 형태

원문 인용: "Each memory item specifies three components: (i) a title, which serves as a concise identifier summarizing the core strategy or reasoning pattern; (ii) a description, which provides a brief one-sentence summary of the memory item; and (iii) the content, which records the distilled reasoning steps, decision rationales, or operational insights extracted from past experiences."

Integration of ReasoningBank with Agents

핵심 내용:

메모리 검색: 임베딩 기반 유사도 검색으로 상위 k개 관련 경험 식별
메모리 구성: LLM-as-a-judge로 궤적의 성공/실패 판단 후 다른 추출 전략 적용
메모리 통합: 새로운 아이템을 ReasoningBank에 추가하여 지속적 진화

원문 인용: "During memory retrieval, the agent queries ReasoningBank with the current query context to identify the top-k relevant experiences and their corresponding memory items using embedding-based similarity search."

3.3. MaTTS: Memory-aware Test-Time Scaling

핵심 내용:

테스트 시점 스케일링을 ReasoningBank와 통합
병렬 스케일링(Parallel Scaling): 동일 쿼리에 대해 여러 궤적 생성 후 자기 대조(self-contrast)로 메모리 큐레이션
순차 스케일링(Sequential Scaling): 단일 궤적 내에서 반복적 정제로 메모리 강화
더 많은 계산을 할당하여 풍부한 대조 신호 제공

원문 인용: "MaTTS deliberately learns from the abundant successful and failure trajectories generated during scaling for more effective memory curation. We design two complementary instantiations for MaTTS, parallel scaling and sequential scaling."

Parallel Scaling

핵심 내용:

검색된 메모리 아이템 가이드 하에 동일 쿼리에 대해 여러 궤적 생성
다양한 궤적 간 비교 및 대조를 통해 일관된 추론 패턴 식별
다수의 시도에서 더 신뢰할 수 있는 메모리 큐레이션 가능
다양한 탐색 촉진

작업: "리뷰가 5개 이상인 최저가 제품 찾기"

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[병렬로 5개 궤적 생성]

궤적 1 (성공):
  검색 → 필터(리뷰 5개+) → 정렬(가격↑) → 성공

궤적 2 (실패):
  검색 → 정렬(가격↑) → 필터 → 실패
  이유: 정렬 후 필터가 초기화됨

궤적 3 (실패):
  카테고리 → 스크롤 무한반복 → 시간초과
  이유: 페이지네이션 무시

궤적 4 (성공):
  카테고리 → 필터(가격 + 리뷰) → 성공

궤적 5 (실패):
  추천상품 → 필터 불가능 → 실패
  이유: 추천 섹션에서는 필터 작동 안함

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[Self-Contrast: 대조 분석]

성공 패턴 발견:
  ✓ 필터를 먼저 적용
  ✓ 그 다음 정렬

실패 패턴 발견:
  ✗ 정렬 후 필터는 초기화됨
  ✗ 스크롤 대신 페이지네이션 사용
  ✗ 추천 섹션은 필터 불가

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[추출된 메모리]

## Title: 필터-정렬 순서 전략
## Description: 필터와 정렬의 올바른 적용 순서
## Content:
1. 항상 필터를 먼저 적용
2. 정렬은 필터 후에 적용
3. 순서를 바꾸면 필터가 초기화될 수 있음

## Title: 페이지네이션 우선 전략
## Description: 긴 리스트 탐색 시 페이지네이션 활용
## Content:
1. 무한 스크롤은 시간 낭비
2. "Next Page", "Page X" 링크 찾기
3. 페이지네이션이 없으면 대안 찾기

원문 인용: "In the parallel setting, we generate multiple trajectories for the same query under the guidance of retrieved memory items. By comparing and contrasting across different trajectories, the agent can identify consistent reasoning patterns while filtering out spurious solutions."

Sequential Scaling

핵심 내용:

초기 완료 후 단일 궤적 내에서 추론을 반복적으로 정제
자기 정제(self-refinement) 원칙 따름
중간 노트도 메모리를 위한 귀중한 신호로 활용
추론 시도, 수정, 통찰 포착

작업: "2022년 3월 주문 찾기"

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[1차 시도]
My Account → Recent Orders → "2023년 3월 주문 발견"
→ 답변: "2023년 3월 15일"

[1차 자기 점검]
"잠깐, 사용자가 2022년을 요청했는데 2023년 데이터를 봤네"
"Recent Orders는 최근 것만... 전체 이력 필요"

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[2차 시도 - 정제]
My Account → View All Orders → 페이지 1 (2023년 주문들)
→ "더 과거로 가야 해"

[2차 자기 점검]
"2022년까지 가려면 페이지네이션 필요"

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[3차 시도 - 추가 정제]
My Account → View All Orders → Next Page → Next Page
→ "2022년 3월 주문 발견!"
→ 답변: "2022년 3월 10일" ✓

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[추출된 메모리]

## Title: 시간순 데이터 탐색 전략
## Description: 과거 데이터 찾기 위한 체계적 접근
## Content:
1. Recent/Latest는 제한적 → View All 찾기
2. 시간 역순 정렬 확인
3. 페이지네이션으로 과거 이동
4. 중간 검토 과정의 통찰도 메모리로 저장

원문 인용: "We iteratively refines its reasoning within a single trajectory after the initial completion, following the principle of self-refinement. During this process, the intermediate notes generated in self-refinement are also used as valuable signals for memory."

4. Experiments

4.1. Setup

핵심 내용:

WebArena: 다양한 도메인에서 일반 웹 탐색 (684개 인스턴스)
Mind2Web: 다양한 작업과 환경에서 일반화 테스트 (1341개 인스턴스)
SWE-Bench-Verified: 저장소 수준 이슈 해결 (500개 인스턴스)
베이스라인: No Memory, Synapse (궤적 기반), AWM (워크플로우 기반)
백본 LLM: Gemini-2.5-Flash/Pro, Claude-3.7-Sonnet

원문 인용: "Following existing work, we conduct experiments on WebArena which features general web navigation across diverse domains, and Mind2Web that tests generalization of agents on versatile operations and environments. We also conduct experiment on SWE-Bench-Verified for repository-level issue-resolving."

4.2. Results of ReasoningBank

핵심 내용:

모든 LLM 백본과 데이터셋에서 일관되게 베이스라인 능가
WebArena에서 전체 성공률 최대 +8.3 개선
일반화 설정(Multi subset, cross-domain)에서 특히 강력한 성능
상호작용 스텝 수를 최대 16.0% 감소시켜 효율성 향상
과거 경험을 메모리로 활용하여 불필요한 탐색 회피

원문 인용: "ReasoningBank consistently outperforms existing memory mechanisms that store raw trajectories or only successful task routines, improving both effectiveness and efficiency; MaTTS further amplifies these gains."

4.3. Results of MaTTS

핵심 내용:

병렬 스케일링과 순차 스케일링 모두 성능 향상
MaTTS는 바닐라 TTS보다 일관되게 우수 (k=5에서 55.1 vs 52.4)
병렬 스케일링이 큰 스케일에서 우세 (k=5에서 55.1 vs 순차 54.5)
메모리 인식 조정과 집계가 중요
스케일링 요인 k 증가 시 일반적으로 성공률 향상

원문 인용: "With MaTTS, parallel scaling grows from 49.7 (k = 1) to 55.1 (k = 5), while sequential scaling rises from 49.7 to 54.5. For the baseline of MaTTS w/o memory, the gains are smaller and less consistent."

4.4. Synergy of Memory and Test-Time Scaling

핵심 내용:

측정 지표:
- Pass@1 (분홍색): 무작위로 선택한 1개 궤적의 성공률
- Best-of-3 (파란색): 3개 중 최선의 결과 선택 시 성공률
더 나은 메모리가 더 강력한 테스트 시점 스케일링 성능 가능 (메모리가 성능이 좋아야 TTS가 의미있음)
Best-of-3에서 ReasoningBank가 49.7에서 52.4로 상승 (No Memory는 39.0에서 40.6만 상승)
스케일링이 더 나은 메모리 큐레이션 생성 (Pass@1이 49.7에서 50.8로 향상)
약한 메모리는 스케일링으로 오히려 성능 저하
메모리와 스케일링 간 긍정적 피드백 루프 형성
AWM의 역설:
- 성공적인 워크플로우는 저장
- 실패 사례는 무시
- 스케일링으로 다양한 시도 시
→ 워크플로우와 맞지 않는 탐색 증가
→ 평균 품질 하락
스케일링이 더 나은 메모리 생성 이유:
- 다양한 시도가 대조 신호 제공
- 무엇이 효과적인지 비교 학습
- 실패 경험도 건설적 신호로 활용
- 평균 궤적 품질 향상
특히 Pass@1의 향상은 매우 중요한데, 이는 스케일링이 단순히 "복권 더 많이 긁기"가 아니라 **"실력 자체를 향상"**시킴을 의미.

원문 인용: "Better memory enables stronger test-time scaling performance. As shown by blue bars in Figure 5, the benefit of scaling depends critically on the underlying memory. Without memory, scaling yields slight improvement, with BoN rises only from 39.0 to 40.6."

5. Analysis

5.1. Emergent behaviors with ReasoningBank

핵심 내용(메모리 진화 단계별 분석):

ReasoningBank의 전략은 시간이 지남에 따라 진화
- 1단계: Procedural/Execution Strategy (절차적/실행 전략)
  - 실행수준의 지침 정의 : 적극적으로 'Next Page', 'Page X', 또는 'Load More' 링크를 찾아서 클릭하라
- 2단계: Atomic Self-Reflection (원자적 자기 성찰)
  - 검증단계 추가 : 요소의 현재 식별자를 먼저 재확인하는 것이 중요하다
- 3단계: Evolved Adaptive Check (진화된 적응형 검사)
  - 사전전략 수립 : 스캔하기 전에 항상 사용 가능한 검색이나 필터 기능을 활용하고, 보고하기 전에 완전성을 확보하라
- 4단계: Generalized Complex/Effective Strategy (일반화된 복잡/효과적 전략)
  - 목표 지향적 : 현재 화면을 작업 요구사항과 정기적으로 교차 참조하면 오류 방지에 도움... 현재 데이터가 예상과 일치하지 않으면 (예: 내용이 틀리거나 무관함), 검색 필터, 대안 섹션 등 사용 가능한 옵션을 재평가하라

원문 인용: "We find that the strategies in ReasoningBank are not flat or monolithic, but instead evolve over time, exhibiting emergent behaviors that resemble the learning dynamics of RL."

5.2. Incorporating failure trajectories

핵심 내용:

성공 궤적만 사용할 때와 실패 포함 시 비교
Synapse와 AWM은 실패 포함 시 성능 제한적이거나 저하 (44.4에서 42.2로 하락)
ReasoningBank는 실패 포함 시 성능 향상 (46.5에서 49.7로 상승)
실패를 건설적 신호로 변환 가능
더 강건한 일반화 가능

원문 인용: "In contrast, the design of ReasoningBank enables distillation of reasoning patterns from both successes and failures, achieving 46.5 on success-only traces and further improving to 49.7 when failures are included."

5.3. Efficiency Study

핵심 내용:

성공 사례와 실패 사례를 분리하여 스텝 수 분석
ReasoningBank는 모든 도메인에서 일관되게 스텝 수 감소
특히 성공 사례에서 감소폭이 큼 (최대 2.1 스텝, 26.9% 상대적 감소)
효과적인 추론 경로를 따르도록 도와 불필요한 탐색 줄임
단순히 실패 궤적을 단축하는 것이 아님

원문 인용: "More importantly, the reduction is particularly pronounced on successful cases, reaching up to 2.1 fewer steps (a 26.9% relative reduction) than on failed ones. This indicates that ReasoningBank primarily helps the agent reach solutions with fewer interactions."

6. Conclusion

핵심 내용:

성공과 실패로부터 전략 수준의 추론 신호를 추출하는 ReasoningBank 소개
테스트 시점 스케일링(MaTTS)과 통합하여 성능 향상과 불필요한 탐색 감소
메모리와 스케일링 간 강력한 시너지: 고품질 메모리가 더 유망한 롤아웃으로 스케일링 유도
다양한 롤아웃이 가치 있는 대조 신호로 메모리 강화
적응형 및 평생 학습 에이전트 구축을 위한 실용적 경로 제시

원문 인용: "We introduce ReasoningBank, a memory framework that distills strategy-level reasoning signals from both successes and failures and integrates them into test-time scaling (MaTTS). Extensive experiments show that ReasoningBank consistently improves performance while reducing redundant exploration."

주요 테이블 요약

구성요소 WebArena (Overall SR) Mind2Web (Cross-Domain SR) SWE-Bench-Verified (Resolve Rate)

No Memory	40.5-46.7%	1.0-1.4%	34.2-54.0%
Synapse	42.1-47.7%	1.1-1.5%	35.4-53.4%
AWM	40.8-47.6%	0.7-1.2%	-
ReasoningBank	46.3-53.9%	1.6-1.7%	38.8-57.4%

핵심 인사이트:

ReasoningBank는 모든 벤치마크와 모델에서 일관되게 최고 성능 달성
특히 일반화가 필요한 설정에서 큰 성능 향상
평균 스텝 수도 감소하여 효율성도 개선

Appendix 상세 정리

A. Experiment Details

A.1. Prompts Used for ReasoningBank

성공 궤적에서 메모리 추출 프롬프트

System Instruction (시스템 지시사항):

"You are an expert in web navigation. You will be given a user query, 
the corresponding trajectory that represents how an agent successfully 
accomplished the task."

핵심 가이드라인:

에이전트의 성공적인 궤적을 기반으로 유용한 통찰을 메모리 아이템 형식으로 추출
목표: 향후 유사한 작업에 도움이 되고 일반화 가능한 메모리 생성
중요 사항:
- 먼저 궤적이 왜 성공했는지 생각한 후 통찰 요약
- 궤적당 최대 3개의 메모리 아이템 추출
- 유사하거나 중복되는 아이템 금지
- 특정 웹사이트, 쿼리, 문자열 내용 언급 금지 → 일반화 가능한 통찰에 집중

출력 형식:

# Memory Item i
## Title <메모리 아이템의 제목>
## Description <메모리 아이템의 한 문장 요약>
## Content <작업을 성공적으로 완수하기 위해 학습한 통찰을 1-3문장으로 설명>

Input Prompt:

Query: <user query>
Trajectory: <trajectory that completes the query>

실패 궤적에서 메모리 추출 프롬프트

System Instruction:

"You are an expert in web navigation. You will be given a user query, 
the corresponding trajectory that represents how an agent attempted 
to resolve the task but failed."

핵심 가이드라인:

에이전트의 실패한 궤적을 기반으로 유용한 통찰 추출
목표: 향후 유사한 작업에 도움이 되는 메모리 생성
중요 사항:
- 먼저 궤적이 왜 실패했는지 반성하고 생각
- 향후 실패를 방지하기 위한 교훈이나 전략 요약
- 궤적당 최대 3개의 메모리 아이템
- 특정 내용 언급 금지, 일반화 가능한 통찰에 집중

출력 형식: 성공 궤적과 동일

원문 인용: "You must first reflect and think why the trajectory failed, and then summarize what lessons you have learned or strategies to prevent the failure in the future."

LLM-as-a-Judge 프롬프트 (정확성 신호)

System Instruction:

"You are an expert in evaluating the performance of a web navigation agent. 
The agent is designed to help a human user navigate a website to complete 
a task. Given the user's intent, the agent's action history, the final 
state of the webpage, and the agent's response to the user, your goal is 
to decide whether the agent's execution is successful or not."

작업 유형 3가지:

1. Information seeking (정보 탐색):

사용자가 웹페이지에서 특정 정보를 얻고자 함
봇의 응답에 사용자가 원하는 정보가 포함되어야 함
정보가 없다면 명시적으로 표시해야 함
예시: 에이전트에게 상위 검색 항목을 나열하라고 했을 때, 검색 수로 정렬한 후 상위 항목을 반환해야 함

2. Site navigation (사이트 탐색):

특정 페이지로 이동하기를 원함
봇의 액션 히스토리와 최종 웹페이지 상태를 신중히 검토
봇의 응답은 고려하지 않아도 됨

3. Content modification (콘텐츠 수정):

웹페이지 내용이나 설정 수정을 원함
액션 히스토리와 최종 상태 검토
봇의 응답은 고려하지 않아도 됨

출력 형식:

Thoughts: <your thoughts and reasoning process>
Status: "success" or "failure"

Input Prompt:

User Intent: {intent}
Trajectory: {trajectory}
The detailed final state of the webpage: ```md {cap}```
Bot response to the user: {response if response else "N/A"}

A.2. Implementation Details

Memory Extraction (메모리 추출)

추출 파이프라인:

LLM 기반 추출로 원시 궤적을 구조화된 메모리 아이템으로 변환
프롬프트 템플릿: 추론 패턴을 3가지 구성요소(title, description, content)로 정제
백본 LLM: 에이전트 시스템과 동일, temperature 1.0
궤적당 최대 3개 메모리 아이템 추출

성공/실패 판단:

성공 궤적: 검증된 전략 제공
실패 궤적: 반사실적 함정과 부정적 신호 제공
LLM 기반 이진 분류기 사용:
- 궤적과 사용자 쿼리를 프롬프트에 입력
- 범주형 판단 출력 (Success 또는 Failure)
- 백본: 에이전트와 동일, temperature 0.0 (결정론적)

원문 인용: "Crucially, we induce items from both successful and failed trajectories. Successes provide validated strategies, while failures supply counterfactual pitfalls that act as negative signals."

Memory Retrieval and Response Generation (메모리 검색 및 응답 생성)

검색 메커니즘:

임베딩: gemini-embedding-001 사용 (Vertex AI를 통해 접근)
유사도 검색: 코사인 거리로 메모리 풀 검색
상위 k개 선택: 가장 유사한 경험의 메모리 아이템 (기본 k=1)
통합: 검색된 아이템을 에이전트의 시스템 프롬프트에 연결

시스템 프롬프트 템플릿:

"Below are some memory items that I accumulated from past interaction 
from the environment that may be helpful to solve the task. You can 
use it when you feel it's relevant. In each step, please first 
explicitly discuss if you want to use each memory item or not, and 
then take action."

Memory: [title + content of each retrieved item]

원문 인용: "Retrieved items are injected into the agent's system instruction, ensuring that the decision-making is grounded with useful past experiences."

Memory Consolidation (메모리 통합)

통합 전략:

각 새 쿼리 완료 후 궤적을 추출 파이프라인으로 처리
새 메모리 아이템 생성
최소 통합 전략: 새로 생성된 아이템을 직접 추가, 추가 정리 없음
이 선택은 복잡한 통합 알고리즘의 혼란 요인 없이 ReasoningBank 자체의 기여를 강조

ReasoningBank 저장 형식:

JSON 형식 유지
각 항목 구성: 작업 쿼리, 원본 궤적, 해당 메모리 아이템
메모리 아이템 스키마: {title, description, content}
임베딩은 각 쿼리에 대해 미리 계산되어 별도 JSON 파일에 저장
각 독립 실행에 대해 메모리 풀 유지 → 테스트 시점 학습 전반에 걸쳐 지속적 축적

원문 인용: "We adopt a minimal consolidation strategy: newly generated items are directly added without additional pruning. This choice highlights the contribution of ReasoningBank itself without introducing confounding factors from complex consolidation algorithms."

A.3. MaTTS Details

Parallel Scaling 프롬프트

System Instruction:

"You are an expert in web navigation. You will be given a user query 
and multiple trajectories showing how an agent attempted the task. 
Some trajectories may be successful, and others may have failed."

가이드라인:

여러 궤적을 비교 및 대조하여 가장 유용하고 일반화 가능한 전략 식별
Self-contrast reasoning (자기 대조 추론) 사용:
- 지속적으로 성공으로 이어진 패턴 식별
- 실패한 궤적에서 실수나 비효율성 식별하고 예방 전략 수립
- 특정 페이지나 정확한 표현을 넘어 일반화하는 전략 선호

중요 사항:

먼저 생각: 왜 일부 궤적은 성공하고 다른 것은 실패했는가?
모든 궤적을 합쳐서 최대 5개 메모리 아이템 추출
유사하거나 중복되는 아이템 금지
특정 웹사이트, 쿼리, 문자열 언급 금지
각 메모리 아이템이 실행 가능하고 전이 가능한 통찰 포착

출력 형식:

# Memory Item i
## Title <제목>
## Description <한 문장 요약>
## Content <통찰을 설명하는 1-5문장>

Input Prompt:

Query: <user query>
Trajectories: <trajectory 1>\n<trajectory 2>\n...<trajectory k>

원문 인용: "Use self-contrast reasoning: Identify patterns and strategies that consistently led to success. Identify mistakes or inefficiencies from failed trajectories and formulate preventative strategies."

Sequential Scaling 프롬프트

First-time Check Instruction (1차 점검):

"Important: Let's carefully re-examine the previous trajectory, 
including your reasoning steps and actions taken. Pay special 
attention to whether you used the correct elements on the page, 
and whether your response addresses the user query. If you find 
inconsistencies, correct them. If everything seems correct, 
confirm your final answer."

Follow-up Check Instruction (후속 점검):

"Let's check again."

출력 형식 제약:

모든 출력은 <think>...</think><action></action> 형식 유지
이전 궤적과 동일한 형식

원문 인용: "Output must stay in the same '<think>...</think><action></action>' format as previous trajectories."

Best-of-N (BoN) 계산 세부사항

시스템 지시사항:

"You are an expert in evaluating web navigation agent trajectories. 
You will be given the user query, and {N} candidate trajectories, 
each representing a sequence of steps for solving the same task. 
Your job is to select the single best trajectory that most 
effectively and efficiently solves the task, and explain your 
reasoning."

평가 기준:

1. Progress Toward Goal (목표 진전도):

사용자 작업을 완료하는 방향으로 얼마나 잘 전진하는가
실질적이고 의미 있는 진전에 보상, 최소 또는 무진전에 페널티
개별 스텝 기여도와 전체 진전도 모두 고려

2. Trajectory Efficiency (궤적 효율성):

스텝 수와 복잡도를 고려한 진전 효율성
더 적은 스텝에서 상당한 진전에 보상
더 나은 가치 대 깊이 비율 선호
효율적인 탐색 공간 탐색에 보상

3. Loop Detection (루프 감지):

루프나 중복 액션 식별
- Real Loops (실제 루프): 추가 가치 없이 동일한 관찰과 액션 반복
- Benign Repetitions (무해한 반복): 여전히 새로운 정보를 제공하는 약간의 변형
실제 루프에 큰 페널티, 무해한 반복은 노력 낭비 시에만 페널티

4. Error Severity and Stability (오류 심각도와 안정성):

오류 심각도 평가:
- Fatal/Blocking (치명적/차단): 큰 페널티
- Significant (중대): 중간 페널티
- Minor/Recoverable (경미/복구 가능): 작은 페널티
불안정하거나 비일관적인 모델 추론에 페널티
오류가 목표 완료를 방해하는지 고려

5. Overall Trajectory Quality (전체 궤적 품질):

스텝의 논리적 흐름, 전략의 명확성, 일관성
탐색 대 활용의 균형
최종 목표와의 근접성
일관된 진전과 일관된 계획에 보상

출력 형식:

{
  "index": [best_trajectory_index],
  "analysis": "이 궤적이 최선인 이유를 진전도, 효율성, 
               루프 감지, 오류 심각도, 전체 품질을 참조하여 
               상세히 설명"
}

원문 인용: "Return the evaluation as a JSON object with the index of the best trajectory and a detailed analysis explaining why this trajectory is the best, referencing progress, efficiency, loop detection, error severity, and overall quality."

B. Details for Experiment Settings

B.1. Web Browsing

Datasets (데이터셋)

WebArena:

다양한 도메인에서 일반 웹 탐색
총 684개 테스트 인스턴스
도메인별 분포:
- Shopping: 187개
- Admin: 182개
- Gitlab: 180개
- Reddit: 106개
- Multi: 29개
Map 도메인 제외 (웹사이트 문제로 인해, Miyai et al. 2025 따름)

Mind2Web:

다양한 작업과 환경에서 에이전트 일반화 테스트
총 1341개 테스트 인스턴스
설정별 분포:
- Cross-Task: 252개
- Cross-Website: 177개
- Cross-Domain: 912개

원문 인용: "We exclude the domain of Map due to website issues following Miyai et al. (2025) for a fair comparison."

Baselines (베이스라인)

1. Vanilla (No Memory):

메모리 모듈이 없는 백본 LLM 에이전트
참조점 역할

2. Synapse:

과거 궤적을 인컨텍스트 메모리로 구성
대표적인 궤적 기반 메모리 작업

3. AWM (Agent Workflow Memory):

궤적에서 공통 패턴을 재사용 가능한 워크플로우로 추상화
더 높은 수준의 구조를 추출하는 방법

진행 단계:

메모리 없음 → 원시 궤적 → 워크플로우 추상화 → ReasoningBank

Implementation Details (구현 세부사항)

백본 LLM:

Gemini-2.5-Flash
Gemini-2.5-Pro
Claude-3.7-Sonnet
Vertex AI API를 통해 접근

실행 환경:

BrowserGym: WebArena 실행 환경
최대 스텝 제한: 쿼리당 30 스텝
에이전트 스타일: ReAct
모델이 stop 액션 예측하거나 종료 조건 도달할 때까지 반복

디코딩 설정:

WebArena와 Mind2Web 모두 temperature 0.7

원문 인용: "These choices allow us to investigate both cross-family (Gemini, Claude) and intra-family (Flash, Pro) variations."

Evaluation Metrics (평가 지표)

WebArena 벤치마크:

효과성 (Effectiveness):

Success Rate (성공률): 에이전트가 성공적으로 해결한 사용자 쿼리의 비율
검증 방법:
- LLM 기반 퍼지 매칭
- 정확한 문자열 매칭
- 필수 답변 용어가 예측에 나타나는지 확인

효율성 (Efficiency):

평균 스텝 수: 각 쿼리를 완료하는 데 필요한 평균 스텝
작업 완료 중 발생하는 계산 및 상호작용 비용 반영

Mind2Web 데이터셋:

각 작업에는 사전 정의된 고정 스텝 수가 있음. 각 스텝에서 에이전트는 액션을 예측해야 하며, 다음으로 평가:

1. Element Accuracy (요소 정확도):

올바른 페이지 요소가 선택되었는지 확인

2. Action F1:

요소에 대해 수행된 액션이 올바른지 확인

3. Step Success Rate (스텝 성공률):

Element Accuracy와 Action F1 집계
현재 스텝에서 요소와 액션 선택이 모두 올바른지 확인

4. Task-level Success Rate (작업 수준 성공률):

주어진 작업의 모든 스텝 완료 후 측정
이 작업의 모든 중간 스텝이 성공적으로 수행되었는지 측정
즉, 이 작업의 모든 스텝이 Step Success Rate에서 1.0 점수

원문 인용: "Following the default evaluation protocol of the benchmarks, we employ both LLM-based fuzzy matching and exact string matching to verify whether the essential answer terms appear in the predictions."

B.2. Software Engineering

B.2.1. Experiment Setup

Datasets:

SWE-Bench-Verified: 저장소 수준 이슈 해결 벤치마크
총 500개 고품질 테스트 인스턴스 (수동 검증됨)
각 인스턴스: 입력 이슈에 설명된 기본 버그를 해결하는 패치 생성 필요
목표: 제공된 모든 테스트 스크립트가 성공적으로 실행되도록 코드베이스의 관련 부분 수정

Metrics (지표):

1. Issue Resolution Rate (이슈 해결률):

모든 데이터 포인트에서 성공적으로 수정된 이슈의 비율
제출된 패치가 모든 테스트 스크립트를 통과하면 이슈가 해결된 것으로 간주

2. Patch Application Rate (패치 적용률):

표준 patch 프로그램을 사용하여 저장소에 생성된 패치 적용 시도
성공적인 적용만 카운트
공식 평가 스크립트 따름

3. Average Steps (평균 스텝 수):

효율성을 위해 인스턴스당 에이전트가 수행한 평균 스텝 수 보고

원문 인용: "Our implementation follows the official evaluation scripts."

Implementation (구현):

환경 설정:

mini-SWE-Agent 설정 따름
Bash-Only 환경: 도구 없음, 특수 스캐폴드 구조 없음
단순한 ReAct 에이전트 루프 가정

비교 베이스라인:

No memory (메모리 없음)
Synapse (궤적 메모리)

AWM 제외 이유:

mini-SWE-Agent의 액션 공간은 개방형 (임의의 Bash 명령)
AWM이 교차 작업 일반화에 필요한 공통 루틴이나 고정 워크플로우 추출이 어려움

원문 인용: "We exclude AWM here because the action space in mini-SWE-Agent is open-ended (arbitrary Bash commands), making it difficult to extract the common routines or fixed workflows that AWM requires for cross-task generalization."

C. Additional Analyses

C.1. Number of Retrieved Experiences (검색된 경험 수)

실험 설정:

Gemini-2.5-flash, WebArena-Shopping subset
다양한 수의 검색 경험 테스트

결과 (Figure 12):

경험수	성공률	SR 변화
0 (No memory)	39.0%	기준선
1	49.7%	+10.7%p
2	46.0%	-3.7%p
3	45.5%	-0.5%p
4	44.4%	-1.1%p

핵심 발견:

관련 메모리 통합이 성능을 크게 향상 (39.0% → 49.7%)
경험 수가 증가하면 성공률이 점진적으로 감소
과도한 경험은 충돌이나 노이즈 도입 가능
메모리의 관련성과 품질이 단순한 양보다 중요

원문 인용: "This suggests that while memory provides valuable guidance, excessive experiences may introduce conflicts or noise. Hence, the relevance and quality of memory are more crucial than sheer quantity for effective performance."

C.2. Pass@k Analysis

실험 설정:

Parallel scaling, WebArena-Shopping subset
Gemini-2.5-flash
k = 1, 2, 3, 4, 5

결과 (Figure 13):

MaTTS w/o memory:

k=1: 39.0%
k=2: 47.6%
k=3: 49.7%
k=4: 51.3%
k=5: 52.4%

MaTTS w/o aggregation (Vanilla TTS):

k=1: 49.7%
k=2: 50.8%
k=3: 51.8%
k=4: 54.5%
k=5: 58.8%

MaTTS (full):

k=1: 49.7%
k=2: 51.3%
k=3: 54.5%
k=4: 58.8%
k=5: 62.1%

핵심 통찰:

1. 메모리 인식 스케일링이 샘플 효율성 향상:

MaTTS w/o aggregation (Vanilla TTS)는 이미 테스트 시점 학습을 RL 학습처럼 작동
큰 k에서 pass@k를 부풀리는 대신, 탐색을 유도하여 샘플 효율성 개선
예: k=2에서 MaTTS w/o aggregation은 50.8% vs MaTTS w/o memory 47.6%

2. MaTTS는 더 강한 성능 향상 유지:

작은 k에서 효율성 보존 (k=2에서 51.3%)
스케일링과 함께 강한 성장 지속 (k=5에서 62.1%)
MaTTS w/o memory는 52.4%에 불과

3. MaTTS가 에이전트 시스템의 더 많은 잠재력 발굴:

더 나은 pass@k 성능을 위한 다양한 생성 촉진

원문 인용: "MaTTS not only preserves efficiency at small k but also sustains strong growth with scaling, reaching 62.1 at k=5, compared to only 52.4 for MaTTS w/o memory."

C.3. Case Study

Case Study 1: Effectiveness (효과성)

작업: "내가 이 사이트에서 첫 구매한 날짜는 언제인가?"

Baseline (No Memory) 경로:

1. 홈페이지 시작
2. 'My Account' 클릭
3. 'Recent Orders' 테이블 확인
4. 답변: "Your first purchase on this site was made on 3/11/23."
→ 실패 (최근 주문만 확인)

ReasoningBank 경로:

1. 홈페이지 시작
2. 'My Account' 클릭
3. [메모리 아이템 사용]
   "특정 구매에 관한 정보를 찾으려면,
    'My Orders' 링크를 사용하겠습니다"
4. 'My Orders' 테이블 확인
5. Next Page 클릭 (전체 이력 확인)
6. 답변: "Your first purchase on this site was made on March 2, 2022."
→ 성공

핵심 차이:

Baseline: Recent Orders만 확인 → 잘못된 날짜
ReasoningBank: 메모리에서 전체 주문 이력 접근 방법 회상 → 정확한 날짜

원문 인용: "ReasoningBank recalls from past reasoning hints to explore the full purchase history and correctly identifies the earliest order."

Case Study 2: Efficiency (효율성)

작업: "리뷰 5개 이상, 최저가의 'Men's shoe' 카테고리에서 최고 평점 제품 구매"

Baseline (No Memory):

총 29 스텝:
1. 홈페이지 시작
2-9. 비효율적 탐색 (8스텝 소비)
   - 'Men'으로 필터링 불가
   - 스크롤 다운 필요
10. 'Men'으로 필터링 실패
11-29. 계속 시도...
→ 비효율적 탐색으로 시간 소비

ReasoningBank:

총 10 스텝:
1. 홈페이지 시작
2. [메모리 아이템 11 사용]
   "특정 카테고리로 올바르게 이동하려면,
    먼저 제품을 필터링해야 합니다"
3. Hover (Shoes)
4. Hover (Men)
5. Select Price (↑)
6. 리뷰 5개 이상 확인
7-9. 추가 확인
10. "Proceed to Checkout" 클릭
→ 성공

효율성 비교:

Baseline: 29 스텝 (비효율적 탐색에 8스텝 소비)
ReasoningBank: 10 스텝 (메모리 활용으로 직접 도달)
66% 스텝 감소

원문 인용: "ReasoningBank improves efficiency by leveraging past reasoning hints, reducing the navigation from 29 steps to 10 steps compared to the baseline without memory."

D. Future Directions

1. Compositional Memory (조합적 메모리)

현재 한계:

각 경험을 여러 메모리 아이템으로 정제
새 쿼리 도착 시 유사한 경험 검색
관련 아이템을 독립적으로 재사용

미래 방향:

조합 인식 검색 및 통합: 아이템을 더 높은 수준의 전략으로 조합
보완적 아이템 결합
재사용 가능한 매크로 형성
장기 작업에서 더 풍부한 전략과 강한 일반화

예시:

현재:
메모리 아이템 A: "필터 먼저 적용"
메모리 아이템 B: "페이지네이션 사용"
→ 각각 독립적으로 사용

미래:
메모리 매크로: "필터 적용 → 페이지네이션으로 탐색 → 결과 검증"
→ 조합된 전략으로 사용

원문 인용: "Future work could explore composition-aware retrieval and consolidation, enabling the agent to combine complementary items or form reusable macros, thereby yielding richer strategies and stronger generalization in long-horizon tasks."

2. Advanced Memory Architectures (고급 메모리 아키텍처)

현재 설계:

의도적으로 최소화된 시스템
ReasoningBank 자체의 기여도를 강조하기 위함

미래 방향:

계층화된 프로덕션급 메모리 스택 구축
성숙한 패러다임 통합:
- Episodic traces (에피소딕 추적): 작업별 컨텍스트
- Short-term "working" memory (단기 "작업" 메모리): 세션 내 상태
- Long-term memory (장기 메모리): 감쇠/갱신 정책이 있는 통합 지식

검색 개선:

임베딩 기반 유사도를 넘어서
추론 집약적 컨트롤러로 이동:
- 쿼리 분해
- 계층 간 다중 홉 조회 계획
- 불확실성, 최신성, 비용에 따른 선택 조건화
학습 기반 라우터와 통합 정책으로 자동화

최종 비전:

ReasoningBank + MaTTS
   ↓
배포 가능한 메모리 서비스
   ↓
도메인과 팀 전반에 걸쳐 확장

원문 인용: "This integration would turn ReasoningBank with MaTTS into a deployable memory service that scales across domains and teams."

E. Limitations

1. Focus on Memory Content (메모리 콘텐츠에 집중)

현재 초점:

메모리 콘텐츠를 큐레이션하고 활용하는 방법
실패 궤적 통합
정제된 추론 단서 구성

다루지 않은 것:

에피소딕 메모리나 계층적 메모리 같은 다른 메모리 아키텍처
이들은 직교 관점 (메모리 형태/구조)을 다룸

정당화:

본 논문의 기여는 무엇을 저장하고 재사용할지에 초점
메모리 아키텍처와의 결합은 흥미로운 미래 방향

원문 인용: "Our study emphasizes how to curate and utilize memory content. For this reason, we did not extensively compare with other memory architectures such as episodic or hierarchical memory. These designs address orthogonal concerns (memory form/structure), while our contribution targets what should be stored and reused."

2. Simplicity in Memory Retrieval and Consolidation

현재 설계:

단순한 임베딩 기반 검색
직접적인 통합 (새 아이템 직접 추가)

이유:

콘텐츠 품질의 효과를 더 잘 분리
관찰된 이득이 추론 지향 메모리 콘텐츠의 설계에 직접 기인

인정:

더 정교한 전략 (예: 적응형 검색, 계층적 통합)이 성능을 더 향상시킬 수 있음
그러나 본 연구의 초점이 아님

원문 인용: "This choice ensures that the observed gains can be attributed directly to the design of reasoning-oriented memory content."

3. Dependence on LLM-as-a-Judge for Correctness Signals

현재 방식:

궤적의 성공/실패 신호는 LLM-as-a-judge로 결정
자동 라벨링으로 ground-truth 피드백 없이 확장 가능한 평가

잠재적 문제:

작업이 모호할 때 노이즈 도입 가능
judge 모델 자체가 오류를 범할 수 있음

완화:

결과는 프레임워크가 이러한 노이즈 하에서도 견고함을 시사

미래 작업:

더 강력한 검증자
Human-in-the-loop 피드백
앙상블 판단으로 메모리 유도의 신뢰성 향상

원문 인용: "While this automatic labeling enables scalable evaluation without ground-truth feedback, it may introduce noise when tasks are ambiguous or when the judge model itself errs."

종합 요약

Appendix의 핵심 기여

A. Experiment Details:

재현 가능성을 위한 완전한 프롬프트 공개
구현 세부사항 투명하게 제공
MaTTS의 두 가지 변형 (parallel, sequential) 상세 설명

B. Experiment Settings:

세 가지 벤치마크 (WebArena, Mind2Web, SWE-Bench)의 완전한 설정
평가 지표의 정확한 정의
베이스라인 선택의 근거

C. Additional Analyses:

검색 경험 수 분석: 많다고 좋은 것은 아님 (k=1이 최적)
Pass@k 분석: 메모리가 샘플 효율성 향상
사례 연구: 효과성과 효율성의 구체적 예시

D. Future Directions:

조합적 메모리: 아이템을 전략으로 결합
고급 아키텍처: 프로덕션급 메모리 스택

E. Limitations:

솔직한 한계 인정
메모리 콘텍스트 초점의 정당화
단순한 설계의 의도적 선택

실무자를 위한 핵심 인사이트

1. 프롬프트 엔지니어링이 중요:

성공/실패 궤적에 대한 명확한 지시
Self-contrast와 self-refinement를 위한 구조화된 프롬프트
Best-of-N을 위한 상세한 평가 기준

2. 메모리는 적을수록 좋을 수 있음:

k=1 경험이 최적
품질 > 양

3. 스케일링은 선택적으로:

중요한 작업에만 k>1 사용
Pass@k는 향상되지만 비용 고려

4. 실패는 귀중한 학습 자료:

실패 궤적에서 메모리 추출
무엇을 피해야 하는지 학습

5. 장기적 관점 필요:

초기 투자 (MaTTS)로 메모리 구축
이후 효율적 운영 (k=1)
점진적 진화로 누적 이득

이 Appendix는 논문의 투명성과 재현 가능성을 크게 높이며, 실무 적용을 위한 구체적 가이드를 제공합니다.

ReMe - Remember Me, Refine Me

빛나는 일상 — Thu, 8 Jan 2026 08:59:45 +0900

- 초기 학습을 통해서 Agent의 작업경험 추출 방법, 사용, Refinement 방법론 관련해서 제안
- 여러 실험을 통한 최적의 방법론 제안
- 추출 프롬프트 제공함
- 단, consolidation 관련 부분은 내용이 부족함

1. 논문 기본 정보

제목: Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution
저자(학교, 기관): Zouying Cao (Shanghai Jiao Tong University), Jiaji Deng, Li Yu, Weikang Zhou, Zhaoyang Liu, Bolin Ding (Tongyi Lab, Alibaba Group), Hai Zhao (Shanghai Jiao Tong University)
발표일: 2025년 12월 11일
학회/저널명: arXiv preprint
DOI/URL: arXiv:2512.10696v1

2. 한줄 요약

대형 언어 모델(LLM) 에이전트가 과거 경험으로부터 학습하여 자율적으로 진화할 수 있도록 하는 동적 절차 메모리 프레임워크(ReMe)를 제안하며, 작은 모델이 메모리를 활용하여 더 큰 모델을 능가할 수 있음을 입증한 연구

3. 해결하려는 문제

현재의 LLM 에이전트 메모리 시스템은 "수동적 축적(passive accumulation)" 패러다임에 갇혀있어, 메모리를 정적인 저장소로만 취급하고 있습니다. 이는 세 가지 주요 문제를 야기합니다:

조잡한 경험 추출: 전체 궤적(trajectory) 수준의 경험은 핵심 논리와 무관한 정보를 포함하여 에이전트가 핵심을 파악하기 어렵게 만듭니다.
맥락 부적응: 가져온 경험이 새로운 상황에 맞춰 조정되지 않고 그대로 적용되어, 약간 변화된 시나리오에서 실패합니다.
메모리 품질 저하: 적시 업데이트 전략이 없어 경험 풀(pool)이 유효한 통찰과 해로운 노이즈가 섞인 상태로 퇴화됩니다.

원문 인용: "To bridge the gap between static storage and dynamic reasoning, an ideal procedural memory system must function not merely as a database, but as an evolving cognitive substrate satisfying three core criteria: 1) High-quality Extraction: The system should distill generalized, reusable knowledge from noisy execution trajectories, rather than raw, problem-specific observations. 2) Task-grounded Utilization: Retrieved memories should be dynamically adapted to the specific requirements of the current task, maximizing their utility in novel scenarios. 3) Progressive Optimization: The memory pool should maintain its vitality through continuous updates, autonomously reinforcing effective entries while removing outdated ones to prevent degradation over time."

4. 제안 기술

ReMe(Remember Me, Refine Me)는 메모리 생애주기 전반에 걸쳐 세 가지 핵심 메커니즘을 통합한 포괄적 프레임워크입니다:

다면적 증류(Multi-faceted Distillation): 성공 패턴 인식, 실패 분석, 비교 통찰 생성을 통해 세밀한 경험을 추출합니다.
맥락 적응 재사용(Context-adaptive Reuse): 시나리오 인지 인덱싱, 재순위화, 적응적 재작성을 통해 과거 통찰을 새로운 맥락에 맞춥니다.
유용성 기반 정제(Utility-based Refinement): 유효한 메모리를 자율적으로 추가하고 구식 메모리를 제거하여 고품질 경험 풀을 유지합니다.

원문 인용: "ReMe innovates across the memory lifecycle via three mechanisms: 1) multi-faceted distillation, which extracts fine-grained experiences by recognizing success patterns, analyzing failure triggers and generating comparative insights; 2) context-adaptive reuse, which tailors historical insights to new contexts via scenario-aware indexing; and 3) utility-based refinement, which autonomously adds valid memories and prunes outdated ones to maintain a compact, high-quality experience pool."

5. 단락별 정리

Abstract

핵심 내용:

ReMe는 **절차적 메모리(procedural memory)**를 통해 LLM 에이전트가 "how-to" 지식을 내재화하여 시행착오를 줄이는 프레임워크입니다
다면적 증류(multi-faceted distillation), 맥락 적응 재사용(context-adaptive reuse), 유용성 기반 정제(utility-based refinement) 세 가지 메커니즘을 제공합니다
BFCL-V3와 AppWorld 벤치마크에서 **최고 성능(state-of-the-art)**을 달성했습니다
메모리 스케일링 효과(memory-scaling effect) 발견: ReMe를 장착한 Qwen3-8B가 메모리 없는 Qwen3-14B를 능가합니다
reme.library 데이터셋과 코드를 오픈소스로 공개합니다

원문 인용: "Qwen3-8B equipped with ReMe outperforms larger, memoryless Qwen3-14B, suggesting that self-evolving memory provides a computation-efficient pathway for lifelong learning."

1. Introduction

핵심 내용:

정적 언어 모델에서 **자율 에이전트(autonomous agents)**로의 전환은 AI의 중요한 변화입니다
절차적 메모리는 과거 상호작용으로부터 문제 해결 지식을 축적하여 에이전트 진화를 가능하게 합니다
현재 프레임워크는 "수동적 축적" 패러다임에 제한되어 있으며, 메모리를 정적 저장소로 취급합니다
이상적인 절차적 메모리 시스템은 고품질 추출, 작업 기반 활용, 점진적 최적화라는 세 가지 핵심 기준을 충족해야 합니다
ReMe는 이러한 문제를 해결하기 위해 피드백 주도 진화로 패러다임을 전환합니다

원문 인용: "By accumulating high-quality problem-solving experiences, agents can leverage prior successes and lessons to navigate novel scenarios, theoretically reducing redundant trial-and-error and circumventing local optima."

2. Related Work

핵심 내용:

메모리 강화 LLM 에이전트: 금융, 교육, 개인 비서 등 다양한 분야에 통합되고 있습니다
파라메트릭 메모리(parametric memory): 모델 가중치 내에 장기 지식을 인코딩합니다
비파라메트릭 메모리(non-parametric memory): 지식 베이스나 데이터베이스 같은 외부 자원을 활용합니다
경험 학습 전략: Synapse와 HiAgent는 완전한 궤적을 저장하지만, 관리가 어렵고 일반화가 제한됩니다
최근 연구들: Agent KB와 CER은 구조화된 지식을 요약하고 맥락 인지 검색을 구현하지만, 전략적 경험 제거 메커니즘이 부족합니다

원문 인용: "These methods neglect strategic experience removal mechanism, since harmful experiences inevitably exist even with human validation and initial helpful ones can also degrade over time."

3. Methodology

3.1 Overview of ReMe

핵심 내용:

ReMe는 세 가지 상호 연결된 단계로 작동합니다: 경험 획득(acquisition), 재사용(reuse), 정제(refinement)
경험 획득: 요약기(summarizer)가 에이전트 생성 궤적을 분석하여 구조화된 경험 풀로 추출합니다
경험 재사용: 새로운 작업이 주어지면 관련 경험을 회상하여 에이전트의 맥락을 강화합니다
경험 정제: 새로운 견고한 경험을 통합하고 구식 경험을 제거하여 경험 풀을 지속적으로 최적화합니다

원문 인용: "ReMe operates through three interconnected phases: experience acquisition, reuse, and refinement. In the experience acquisition phase, a summarizer analyzes agent generated trajectories (both successful and failed) and distills actionable knowledge into a structured experience pool."

3.2 Experience Acquisition

핵심 내용:

에이전틱 경험(agentic experiences) E는 에이전트 실행 통찰의 구조화되고 일반화 가능한 표현입니다
각 경험 E = ⟨ω, e, κ, c, τ⟩로 표현됩니다
- ω: 사용 시나리오(usage scenario)
- e: 핵심 경험 내용
- κ: 관련 키워드 집합
- c: 신뢰도 점수 [0, 1]
- τ: 사용된 도구 목록
실행 에이전트 LLM_execute가 환경과 상호작용하여 궤적을 축적합니다
각 작업 쿼리 q에 대해 N=8번 샘플링하여 다양한 실행 경로를 캡처합니다

원문 인용: "For each task query q, we sample trajectories N times aiming to capture diverse execution paths and thereby increase the likelihood of obtaining valuable success/failure pairs for comparisons during experience acquisition."

전체 워크플로우 설명

Phase 1: 초기 구축

과거 작업들에서 실행 궤적 수집
성공/실패/비교 분석을 통해 경험 추출
검증 및 중복 제거
구조화된 경험 풀 생성

Phase 2: 실시간 사용

새로운 작업 수신
관련 경험 검색 (인덱싱 전략 사용)
검색된 경험 재순위화
현재 맥락에 맞게 재작성
경험 주도 추론으로 작업 수행

Phase 3: 지속적 개선

성공 시: 새로운 경험 추가
실패 시: 반성 및 재시도 (성공 시 경험 추가)
사용 이력 추적 (빈도 및 유용성)
유용성이 낮은 경험 자동 삭제
업데이트된 경험 풀로 다음 작업 준비

3.2.1 Three Complementary Analyses

핵심 내용:

성공 패턴 인식(Success Pattern Recognition): 성공한 궤적에서 효과적인 전략을 식별하고 기본 원칙을 추출합니다
실패 분석(Failure Analysis): 실패한 시도를 면밀히 조사하여 공통 함정, 비효율적 접근법, 중요한 오류를 파악합니다
비교 분석(Comparative Analysis): 성공과 실패 궤적을 함께 검토하여 효과적인 시도와 비효율적 시도를 구분하는 중요한 차이를 식별합니다
검증 단계: LLM-as-a-Judge를 활용하여 추출된 경험이 실행 가능하고(actionable), 정확하며(accurate), 가치있는지(valuable) 평가합니다
중복 제거: 유사성 기반 중복 제거 프로세스를 통해 경험 풀을 컴팩트하게 유지합니다

원문 인용: "LLMsumm conducts failure analysis, scrutinizing unsuccessful attempts to derive valuable lessons. These preventive insights discuss common pitfalls, ineffective approaches, and critical errors that can be used to avoid repeating them in future tasks."

3.3 Experience Reuse

핵심 내용:

경험 풀을 바탕으로 작업 유사도에 따라 상위 K개의 관련 경험을 검색합니다
검색기(retriever)는 고급 임베딩 모델(text-embedding-v4)을 활용하여 현재 작업 쿼리를 인코딩하고 **코사인 유사도(cosine similarity)**를 계산합니다
맥락 인지 재순위화(context-aware reranker) LLM_rerank를 선택적으로 사용하여 선택을 더욱 정제합니다
재작성 모듈(rewriting module): 원래 맥락을 작업별 지침으로 재구성하여 새로운 작업 요구사항에 더 잘 맞춥니다
경험 재사용은 과거 지식과 현재 과제를 동적으로 연결하는 인지적 다리 역할을 합니다

원문 인용: "To better adapt the experiences to new task requirements, we introduce the rewriting module to reorganize the original context (containing multiple experiences) into a cohesive, task-specific guidance that is more directly applicable."

3.4 Experience Refinement

핵심 내용:

정적 경험 풀은 작업 분포 변화나 모델 능력 향상에 적응할 수 없어, 검색된 경험이 점점 무관해집니다
선택적 추가(selective addition): 성공으로 이어진 궤적만 경험으로 추출하여 저장합니다 (전체 추가보다 우수한 성능)
실패 인지 반성(failure-aware reflection): 새로운 작업 실패 시 대안 전략을 탐색하도록 권장합니다
- LLM_summ이 실패 시도를 분석하여 개선 영역에 대한 핵심 통찰을 추출합니다
- 새로운 시도가 성공하면 해당 교훈을 메모리에 통합하고, 그렇지 않으면 폐기합니다
- 무한 루프 방지를 위해 최대 자기 반성 횟수를 3으로 제한합니다

원문 인용: "The empirical evidence indicates that full addition often underperforms selective addition, which may be attributed to the quality of failure-based experiences."

3.4.1 Utility-based Deletion

핵심 내용:

구식이거나 비효율적인 경험의 축적을 방지하기 위해 유용성 기반 삭제 전략을 사용합니다
평균 유용성이 사전 정의된 임계값 β 아래로 떨어지는 경험을 제거합니다
ReMe는 기존 경험의 상태를 지속적으로 기록합니다:
- f: 총 검색 횟수
- u: 역사적 유용성 (성공적인 작업 완료에 기여할 때마다 +1)
경험 E는 자주 검색되지만 새로운 작업 성능 향상에 실패할 때 제거 대상으로 간주됩니다
삭제 조건: f(E) ≥ α이고 u(E)/f(E) ≤ β일 때
경험은 최소 α번 이상 검색된 후에만 제거를 고려합니다

원문 인용: "An experience E ∈ E is considered to be removed when it is frequently retrieved yet fails to improve new task performance: ϕremove(E) = (1[u(E)/f(E) ≤ β], if f(E) ≥ α, 0, otherwise.)"

4. Experiments

4.1 Experimental Settings

핵심 내용:

데이터셋: BFCL-V3와 AppWorld 두 가지 도구 증강 벤치마크에서 실험을 수행했습니다
- BFCL-V3: base multi-turn 카테고리에서 50개 작업을 초기 경험 풀 구축에 사용, 나머지 150개는 평가용
- AppWorld: 90개 훈련 작업으로 초기 경험 획득, test-normal 세트(168개 작업)로 평가
메트릭: Avg@4와 Pass@4 결과를 보고합니다
- Avg@4: 4번의 독립적 시도에서 평균 작업 성공률
- Pass@4: 4번의 독립적 시도 중 최소 1번 성공할 확률
베이스라인: No Memory, A-Mem, LangMem 세 가지와 비교했습니다

원문 인용: "We report both Avg@4 and Pass@4 results: the average task success rate across four independent trials, and the probability that at least one out of four independent task trials is successful."

4.1.1 Implementation Details

핵심 내용:

Qwen3 시리즈 instruct 모델을 LLM_execute로 사용하고, LLM_summ = LLM_execute로 설정했습니다
경험 인덱싱에는 Qwen3-Embedding (임베딩 차원 1024)을 사용했습니다
경험 획득 단계: N=8, temperature=0.9로 궤적 샘플링
경험 재사용 단계: top-K=5로 각 작업에 대해 가장 관련성 높은 5개 경험 검색
ReMe (fixed): 에이전트 실행 중 경험 풀이 동적으로 업데이트되지 않음
ReMe (dynamic): 에이전트 실행 중 경험 풀이 동적으로 업데이트됨
경험 정제 단계: 검색 임계값 α=5, 유용성 임계값 β=0.5
최대 반복 횟수 30회로 제한

원문 인용: "The configuration difference between ReMe (fixed) and ReMe (dynamic) lies in whether the experience pool is dynamically updated during agent execution."

4.2 Main Results

핵심 내용:

ReMe는 Qwen3 패밀리 모델 전반에 걸쳐 BFCL-V3와 AppWorld 벤치마크에서 최고 평균 작업 성공률을 달성했습니다
Qwen3-8B + ReMe는 No Memory 베이스라인 대비 평균 Pass@4에서 7.29%, Avg@4에서 8.83% 향상되었습니다
Pass@4의 성과는 검색된 경험이 탐색 공간을 넓히는 데 효과적임을 나타냅니다
성능 안정성: LangMem이 AppWorld에서 큰 성능 저하를 보이는 반면, ReMe(dynamic)은 두 벤치마크 모두에서 뛰어난 일관성을 보입니다
메모리 스케일링 효과 관찰:
- Qwen3-8B + ReMe(dynamic) > Qwen3-14B without memory (Pass@4: 55.03% vs. 54.65%)
- Qwen3-14B + ReMe(dynamic) > Qwen3-32B without memory (Avg@4: 44.66% vs. 40.89%)
ReMe의 동적 버전이 고정 버전을 일관되게 능가합니다

원문 인용: "Notably, smaller models equipped with our ReMe can be comparable to, or even surpass, larger models without memory."

4.3 Ablation Studies

핵심 내용:

세분화 수준 비교 (Granularity Ablations):
- 궤적 수준(trajectory-level) vs. 키포인트 수준(keypoint-level) 경험 획득을 비교했습니다
- 키포인트 수준 경험이 궤적 수준보다 실질적으로 높은 성능 향상을 가져옵니다
- Qwen3-8B: 키포인트 수준이 Avg@4에서 +4.17%, Pass@4에서 +6.22% 향상

구성 요소 제거 (Component Ablations):
- 선택적 추가 vs. 전체 추가: 선택적 추가가 BFCL-V3에서 Avg@4 +3.50%, Pass@4 +2.66% 향상
- 실패 인지 반성(reflection) 추가: 평균 작업 성공률 향상
- 유용성 기반 삭제(deletion) 추가: 추가적인 성능 향상, 구식 경험 제거의 중요성 입증

원문 인용: "This underscores that summarizing experiences at a fine-grained level enables more effective knowledge transfer, leading to superior agent performance across different tasks and model scales."

4.3.1 Retrieval Key Ablations

핵심 내용:

네 가지 검색 키를 탐색했습니다: task query, generalized query, query keywords, usage scenario
원시 작업 설명(task query)이나 추출된 키워드를 사용한 인덱싱은 LLM 생성 필드보다 성능이 낮습니다
사용 시나리오(usage scenario) 인덱싱 전략이 가장 효과적임이 입증되었습니다
- 작업 맥락과 잠재적 적용 영역을 모두 포착합니다
- 모든 모델 크기에서 일관되게 가장 높거나 거의 가장 높은 Avg@4 및 Pass@4 점수를 달성합니다

원문 인용: "The usage scenario indexing strategy, which likely captures both the task context and potential application areas, proves to be the most effective in retrieving relevant experiences from the database."

4.4 More Analysis

핵심 내용:

강력한 LLM_summ으로 에이전트가 더 많은 이득 획득:
- LLM_execute = Qwen3-8B로 고정하고 LLM_summ을 Qwen3-8B에서 Qwen3-32B로 스케일업
- 요약 능력이 강해질수록 Avg@4와 Pass@4 메트릭 모두에서 명확한 성능 향상 (Avg@4: +1.83% → +3.33%)
검색된 경험 수의 영향:
- K 값을 0에서 10까지 변경하며 실험
- K가 증가하면 성능이 상승하다가 포화점에 도달합니다
- 포화점 이후에는 무관하거나 노이즈가 있는 경험이 포함될 가능성이 높아져 성능이 저하됩니다
- 메인 실험에서 K=5를 선택한 이유

원문 인용: "These findings emphasize the critical role of high-quality experience summarization in overall agent performance, highlighting the potential for further gains through advanced summarization techniques."

4.4.1 Error Analysis

핵심 내용:

Qwen3-8B에 대해 ReMe 사용 여부에 따른 BFCL-V3 벤치마크의 오류 패턴을 분석했습니다
벤 다이어그램 분석:
- 총 실패 케이스 수가 62개(No Memory)에서 47개(ReMe)로 감소
- ReMe는 베이스라인 특정 오류 17개를 수정하면서 새로운 오류는 2개만 도입
오류 유형별 분석:
- 추론 오류(Reasoning Error) 대폭 감소: 22 → 14
- ReMe가 과거 경험을 활용하여 다단계 추론 능력을 강화함을 시사
- 작업 누락 오류(Action Omission) 적당한 감소
- 에이전트가 다중 턴 작업에서 누락된 단계를 인식하는 데 도움

원문 인용: "A substantial decrease in Reasoning Error (22 → 14) suggests that ReMe effectively leverages past experiences to strengthen its multi-step reasoning capabilities, leading to reduced propagation of earlier mistakes."

5. Conclusion

핵심 내용:

ReMe는 에이전트 추론을 맹목적 시행착오에서 전략적 경험 재사용으로 진화시키는 동적 절차적 메모리 프레임워크입니다
세밀한 수준의 구조화된 지식 추출을 통해 에이전트가 중요한 통찰을 활용할 수 있게 합니다
효과적인 경험 정제로 에이전트 진화를 위한 고품질 경험 풀을 유지합니다
광범위한 실험을 통해 ReMe가 여러 베이스라인을 크게 능가함을 검증했습니다
제거 연구를 통해 ReMe의 각 핵심 구성 요소의 가치를 강조했습니다
향후 연구 방향:
- 더 유연한 맥락 인지 검색 메커니즘
- 더 정교한 검증 기술
- 작은 모델을 위한 고급 요약 전략 설계

원문 인용: "By distilling structured knowledge from prior trajectories at a fine-grained level, ReMe enables agents to leverage critical insights, thus avoiding potential experience interference in coarse-grained approaches."

핵심 기여 및 인사이트

측면 내용

핵심 혁신	정적 저장소에서 피드백 주도 진화로 패러다임 전환
주요 발견	메모리 스케일링 효과: Qwen3-8B + ReMe > Qwen3-14B (메모리 없음)
실용적 가치	계산 효율적인 평생 학습 경로 제공
데이터셋 공개	reme.library - 구조화된 성공 패턴과 실패 교훈 포함
성능 향상	BFCL-V3와 AppWorld에서 최고 성능(SOTA) 달성

Appendix 상세 정리

A. Dataset Details (데이터셋 세부사항)

BFCL-V3 (Berkeley Function Calling Leaderboard V3)

핵심 내용:

목적: LLM의 함수 호출(function calling)과 도구 사용(tool-using) 능력을 평가하는 벤치마크입니다
특징:
- 1,800개 이상의 테스트 작업 제공
- 다중 턴(multi-turn) 및 다중 단계(multi-step) 시나리오에 중점
- 여러 프로그래밍 언어 지원: Python, Java, JavaScript
- 병렬 함수 호출(parallel function calls) 같은 복잡한 상호작용 처리
평가 방법:
- AST(Abstract Syntax Tree) 매칭: 구문적 정확성 확인
- 실행 가능 테스트(executable testing): 기능적 결과 검증
성공 기준: 에이전트가 필요한 함수 호출을 올바르게 수행하고 예상된 출력을 산출할 때 성공으로 간주됩니다

원문 인용: "Berkeley Function Calling Leaderboard V3 (BFCL-V3) is a benchmark which assesses the function calling and tool-using capabilities of LLMs, particularly in multi-turn and multi-step scenarios."

AppWorld

핵심 내용:

목적: 함수 호출과 대화형 코딩 에이전트를 평가하기 위한 벤치마크입니다
구조:
- 9개의 일상 애플리케이션 시뮬레이션 (예: email, Spotify, Venmo)
- 457개의 API 제공
- 약 100명의 시뮬레이션된 사용자의 디지털 활동으로 채워짐
평가 프레임워크:
- 상태 기반 단위 테스트(state-based unit tests)를 사용하여 작업 완료 평가
- 두 가지 메트릭 제공:
  1. TGC (Task Goal Completion): 에이전트가 모든 평가 테스트를 통과한 작업의 비율
  2. SGC (Scenario Goal Completion): 에이전트가 시나리오의 모든 작업에 대한 모든 단위 테스트를 통과한 시나리오의 비율
실험에서 사용: Task Goal Completion 메트릭을 보고하며, 이는 작업 성공률을 자연스럽게 반영합니다

원문 인용: "AppWorld is a benchmark designed to evaluate function calling and interactive coding agents. It simulates a world of 9 day-to-day applications (e.g., email, Spotify, Venmo) through 457 APIs and is populated with the digital activities of approximately 100 simulated users."

B. Baseline Details (베이스라인 세부사항)

LangMem

핵심 내용:

정의: Langchain의 장기 메모리 모듈로, 대화에서 핵심 정보를 추출하고 저장하여 향후 검색에 사용합니다
기능:
- 모든 저장 시스템과 호환되는 기능적 프리미티브 제공
- LangGraph의 저장 계층과 네이티브 통합
- 에이전트의 지속적 개선 가능
실험 구현: LangMem의 에피소딕 메모리(episodic memory) 구현을 채택하여 에이전트가 경험으로부터 학습하도록 지원합니다

원문 인용: "LangMem is Langchain's long-term memory module that extracts and stores key information from conversations for future retrieval. It provides both functional primitives compatible with any storage system and native integration with LangGraph's storage layer, enabling agents to continuously improve."

A-Mem

핵심 내용:

정의: LLM 에이전트에게 에이전틱 메모리(agentic memory)를 제공하도록 설계된 시스템으로, 자율적으로 장기 지식을 관리할 수 있게 합니다
구조:
- 에이전트를 위한 메모리 중심 지식 그래프(memory-centric knowledge graph) 구성
- 목표와 상호작용에 기반하여 저장, 회상, 업데이트할 정보를 능동적으로 결정
실험 구현: 오픈소스 코드를 사용하여 A-Mem을 재현했으며, 절차적 메모리를 추출하기 위해 약간의 프롬프트 수정을 가했습니다

원문 인용: "A-Mem is a system designed to provide LLM agents with agentic memory, allowing them to autonomously manage their own long-term knowledge. It constructs a memory-centric knowledge graph for agents, actively deciding what information to store, recall, and update based on their goals and interaction."

C. Implementation Details (구현 세부사항)

C.1 For Experience Acquisition (경험 획득 상세)

핵심 내용:

궤적 샘플링 전략:

각 작업 쿼리에 대해 N=8번 궤적 샘플링을 수행하여 다양한 잠재적 솔루션 세트를 얻습니다
높은 보상과 낮은 보상 결과를 모두 포함합니다
같은 작업에 해당하는 각 그룹 내에서 모든 궤적을 보상에 따라 정렬합니다
최저 점수와 최고 점수 예제만 선택하여 후속 경험 획득에 사용합니다

세 가지 추출 전략:

1. 성공 패턴 인식 (Success Pattern Recognition):

정의: 사전 정의된 점수 임계값(경험적으로 1.0으로 설정)을 초과하는 궤적
프로세스: LLM_summ에게 작업 성공에 기여하는 **핵심 포인트(key point)**를 식별하도록 프롬프트합니다

2. 실패 분석 (Failure Analysis):

트리거: 실패한 궤적이 실패 분석을 트리거합니다
프로세스: LLM_summ에게 최선이 아닌 결과로 이어지는 **가장 빠른 핵심 단계(earliest key step)**를 결정하도록 프롬프트합니다

3. 비교 통찰 생성 (Comparative Insight Generation):

조건: 선택된 두 궤적 간에 보상 격차가 존재할 때
프로세스: LLM_summ에게 높은 점수를 받은 시도와 낮은 점수를 받은 시도를 구분하는 특정 결정이나 행동을 명확히 설명하도록 프롬프트합니다

원문 인용: "First, we sample trajectories N=8 times for each task query to obtain a diverse set of potential solutions including both high-reward and low-reward results. Next, within each group corresponding to the same task, all trajectories are sorted by their rewards and only the lowest-scoring and highest-scoring examples are selected."

프롬프트 예제 상세

Table 6: Success Pattern Recognition 프롬프트

핵심 내용:

역할 설정: "당신은 AI 에이전트 실행의 성공적인 단계 시퀀스를 검토하는 전문 AI 분석가입니다"
작업: 향후 에이전트 실행을 안내할 수 있는 재사용 가능하고 실행 가능한 단계 수준 경험을 추출합니다
분석 프레임워크:
- 단계 패턴 분석: 성공으로 이어진 특정 행동 시퀀스 식별
- 결정 지점: 단계 중 내린 중요한 결정 강조
- 기술 효과성: 특정 접근법이 잘 작동한 이유 분석
- 재사용성: 유사한 시나리오에 적용할 수 있는 패턴 추출
추출 원칙: 전이 가능한 기술과 결정 프레임워크에 집중하며, 통찰을 실행 가능한 가이드라인과 모범 사례로 구성합니다
출력 형식: JSON 객체로 1-3개의 단계 수준 성공 통찰 생성

원문 인용: "Focus on identifying specific patterns, techniques, and decision points that contributed to success."

Table 7: Failure Analysis 프롬프트

핵심 내용:

역할 설정: "AI 에이전트 실행의 실패한 단계 시퀀스를 검토하는 전문 AI 분석가"
작업: 향후 실행에서 유사한 실수를 방지하기 위해 실패로부터 학습 경험을 추출합니다
분석 프레임워크:
- 실패 지점 식별: 단계가 어디서 왜 잘못되었는지 정확히 파악
- 오류 패턴 분석: 반복되는 실수나 문제가 있는 접근법 식별
- 대안적 접근법: 다르게 할 수 있었던 것을 제안
- 예방 전략: 유사한 실패를 피하기 위한 실행 가능한 통찰 추출
추출 원칙: 일반 원칙과 특정 지침, 패턴과 규칙을 추출합니다
출력 형식: JSON 객체로 1-3개의 단계 수준 실패 예방 통찰 생성

원문 인용: "Focus on identifying error patterns, missed opportunities, and alternative approaches."

Table 8: Comparative Insights Generation 프롬프트

핵심 내용:

역할 설정: "높은 점수와 낮은 점수 단계 시퀀스를 비교하여 성능 통찰을 추출하는 전문 AI 분석가"
작업: 단계 수준에서 높은 성능과 낮은 성능 접근법 간의 핵심 차이점을 식별합니다
소프트 비교 분석 프레임워크:
- 성능 요인: 높은 점수에 구체적으로 기여한 요소 식별
- 접근법 차이: 방법론과 실행 전략 비교
- 효율성 분석: 한 접근법이 더 효율적이거나 효과적인 이유 분석
- 최적화 통찰: 성능 개선을 위한 교훈 추출
추출 원칙:
- 점진적 개선과 성능 최적화에 집중
- 더 나은 접근법과 좋은 접근법을 구분하는 품질 지표 추출
- 더 높은 점수로 이어지는 개선 전략 식별
입력: 높은 점수 단계 시퀀스와 낮은 점수 단계 시퀀스
출력 형식: JSON 객체로 1-2개의 성능 개선 통찰 생성

원문 인용: "Focus on what made the higher-scoring approach more effective, even when both approaches may have had partial success."

Table 9: Experience Validation 프롬프트

핵심 내용:

역할 설정: "추출된 단계 수준 경험의 품질과 유용성을 검증하는 전문 AI 분석가"
작업: 추출된 경험이 실행 가능하고(actionable), 정확하며(accurate), 향후 에이전트 실행에 가치있는지 평가합니다
검증 기준 (5가지):
1. 실행 가능성(Actionability): 경험이 향후 행동을 안내할 만큼 구체적인가?
2. 정확성(Accuracy): 경험이 관찰된 패턴을 올바르게 반영하는가?
3. 관련성(Relevance): 경험이 유사한 향후 시나리오에 적용 가능한가?
4. 명확성(Clarity): 경험이 명확하게 표현되고 이해하기 쉬운가?
5. 독창성(Uniqueness): 경험이 새로운 통찰을 제공하는가, 아니면 상식인가?
출력 형식: JSON 객체로 검증 평가 제공
- is_valid: true/false
- score: 0.0 (품질 낮음) ~ 1.0 (품질 우수)
- feedback: 검증 결정에 대한 상세 설명
- recommendations: 해당되는 경우 개선 제안
무효 처리 기준: 점수가 0.3 미만이거나 경험에 근본적인 문제가 있는 경우

원문 인용: "Score should be between 0.0 (poor quality) and 1.0 (excellent quality). Mark as invalid if score is below 0.3 or if there are fundamental issues with the experience."

C.2 For Experience Retrieval (경험 검색 상세)

핵심 내용:

검색 메커니즘:

새로운 작업이 수신되면 LLM_execute는 현재 작업의 쿼리 q_new를 저장된 경험의 사용 시나리오 필드 ω와 매칭하여 관련 경험 E_r을 검색합니다

수식:

E_r = arg topk[simcos(Ei, qnew)]

simcos: 임베딩 간 코사인 유사도 계산을 의미합니다
과거 경험은 사용 시나리오 필드 ϕ(ω)의 벡터 표현을 사용하여 인덱싱됩니다
Qwen3-Embedding 모델 ϕ(·)을 사용하여 얻습니다

코사인 유사도 계산 공식:

simcos(E, qnew) = ϕ(w) · ϕ(qnew) / (∥ϕ(w)∥ ∥ϕ(qnew)∥)

다양한 인덱싱 전략:

Section 4.3에서 더 많은 인덱싱 전략을 탐색했습니다
Figure 6은 이러한 검색 키 간의 차이를 보여줍니다

원문 인용: "When a new task is received, LLMexecute retrieves relevant experiences Er by matching the current task's query qnew against the usage scenario field w of stored experiences."

D. Experience Examples (경험 예제)

핵심 내용:

Trajectory-level Experience (궤적 수준 경험):

when to use: 사용자가 현재 시장 상태를 평가하고 정보에 입각한 거래 결정을 내려야 할 때 (주식 구매 또는 주문 취소)
content:
1. get_current_time을 사용하여 현재 시간 검색
2. 검색된 시간을 사용하여 update_market_status를 통해 시장 상태 업데이트 및 획득
3. 시장이 열려있고 사용자가 거래하기로 결정하면 place_order를 사용하여 거래 실행
4. 사용자가 취소를 요청하면 적절한 주문 ID로 cancel_order 호출
5. 사용자가 요청하면 get_account_info를 통해 계정 세부정보 업데이트 제공
특징: 완전한 절차적 세부사항을 포착하여 전체 워크플로우를 보여줍니다

Keypoint-level Experience (키포인트 수준 경험):

when to use: 사용자가 특정 가격을 제공하지 않고 주식 주문을 하고자 할 때
experience content: 어시스턴트는 먼저 get_stock_info를 사용하여 현재 주가를 검색한 다음 place_order 함수에서 해당 가격을 사용하는 체계적인 접근법을 보여주었습니다. 이 2단계 프로세스는 사용자의 시장 가격 기반 주문 의도에 부합하면서 place_order 함수의 필수 매개변수 준수를 보장합니다.
특징: 중요한 행동을 강조하고 덜 관련된 단계는 생략합니다

비교 분석:

궤적 수준: 철저한 절차적 세부사항 포착
키포인트 수준: 핵심 행동에 집중하고 불필요한 세부사항 생략

원문 인용: "We contrast the structural and content characteristics of the two granularity levels, showing how trajectory-level captures exhaustive procedural details, while keypoint-level emphasizes critical actions and omits less relevant steps."

BFCL-V3 경험 예제 (Figure 7)

핵심 내용:

when to use: 사용자가 특정 가격을 제공하지 않고 주식 주문을 하고자 할 때
experience content: 어시스턴트는 체계적인 접근법을 보여주었습니다. 먼저 get_stock_info를 사용하여 현재 주가를 검색한 다음, place_order 함수에서 해당 가격을 사용했습니다. 이 2단계 프로세스는 place_order 함수의 필수 매개변수 준수를 보장하면서 시장 가격 기반 주문에 대한 사용자의 의도에 부합합니다.

원문 인용: "The assistant demonstrated a methodical approach by first retrieving the current stock price using get_stock_info and then using that price in the place_order function."

AppWorld 경험 예제 (Figure 8)

핵심 내용:

when to use: 정밀한 인증 매개변수와 데이터 추출이 필요한 API와 상호작용할 때
experience content:
- 높은 점수 접근법: 실행 전 API 사양 검증 우선순위 (예: 전화 로그인에 사용자 이름으로 전화번호 필요 확인), 인증 실패에 대한 강력한 오류 처리 구현, 정밀한 데이터 추출 기술 사용 (태그/쿼리 필터로 search_notes)
- 낮은 점수 접근법: 반복적인 인증 오류 발생, 코드 블록에 설명 텍스트를 포함하여 구문 오류 유발, 깨끗한 제목 대신 메타데이터를 유지하는 비효율적인 문자열 파싱 사용

원문 인용: "The higher-scoring approach prioritized API specification validation before execution (e.g., confirming phone login requires phone number as username), implemented robust error handling for authentication failures, and used precise data extraction techniques."

인덱싱 전략 비교 예제 (Figure 6)

핵심 내용: 동일한 BFCL-V3 작업 경험에 대한 다양한 인덱싱 예제:

1. task query (작업 쿼리): "Access and retrieve the details of my most recent order, as I've misplaced the ID but need the latest transaction."

2. query keywords (쿼리 키워드): ["order retrieval", "ambiguous requests", "efficiency", "user experience"]

3. generalized query (일반화된 쿼리): "Retrieve recent order details when order ID is unavailable."

4. when to use (사용 시나리오): "When users need order details without explicit order IDs."

experience content (모든 인덱싱 방법에 공통): 높은 점수 접근법은 기록을 가져온 후 자동으로 가장 최근 주문 세부정보(ID 12446)를 검색하고 표시한 반면, 낮은 점수 응답은 즉각적인 세부정보 검색 없이 주문 ID만 나열했습니다. 이는 기록 조회와 직접 세부정보 가져오기를 결합하여 모호한 사용자 요청을 효율적으로 처리하는 것을 보여줍니다.

원문 인용: "This demonstrates efficiency in handling ambiguous user requests by combining history lookup with direct detail fetching."

E. Additional Experimental Results (추가 실험 결과)

E.1 Retrieval Key Analysis (검색 키 분석)

Table 5: 검색 키 제거 연구

핵심 내용:

주요 발견:

단순 인덱싱 방법 (원시 작업 쿼리, 쿼리 키워드)는 일반적으로 낮은 성능을 보입니다
LLM 생성 검색 키 (일반화된 쿼리, 사용 시나리오)는 일관되게 우수한 결과를 보입니다
사용 시나리오(usage scenario) 필드가 모든 모델에서 가장 높거나 거의 가장 높은 Avg@4 및 Pass@4 점수를 달성합니다
Figure 3에서 관찰된 경향과 일치합니다

원문 인용: "Consistent with the trends observed in Figure 3, simple indexing methods such as raw task query and query keywords generally yield lower performance. In contrast, LLM-generated retrieval keys, particularly the usage scenario field, exhibit consistently strong results across all models."

종합 인사이트

Appendix의 핵심 기여

섹션 핵심 내용 실용적 가치

데이터셋 세부사항	BFCL-V3와 AppWorld의 구조, 평가 메트릭, 특징 상세 설명	벤치마크 이해와 재현성 향상
베이스라인 구현	LangMem과 A-Mem의 구조와 실험 설정 명시	공정한 비교와 재현 가능성 보장
프롬프트 엔지니어링	성공/실패/비교 분석을 위한 상세한 프롬프트 템플릿	실무 적용 가능한 프롬프트 가이드 제공
검증 메커니즘	5가지 검증 기준과 점수 시스템	경험 품질 관리 프레임워크 제시
검색 전략	코사인 유사도 계산과 4가지 인덱싱 방법 비교	최적 검색 전략 선택 가이드
경험 예제	궤적 수준 vs 키포인트 수준 비교	세분화 수준 선택의 영향 시각화

재현성을 위한 핵심 하이퍼파라미터

파라미터 값 목적

N (샘플링 횟수)	8	다양한 궤적 확보
temperature	0.9	탐색적 샘플링
top-K (검색)	5	최적 경험 수
α (검색 임계값)	5	삭제 고려 최소 검색 횟수
β (유용성 임계값)	0.5	삭제 결정 유용성 비율
최대 반복	30	무한 루프 방지
최대 자기 반성	3	실패 학습 시도 제한

원문 인용: "In the experience acquisition phase, we set N = 8 and temperature = 0.9 for trajectory sampling. In the experience reuse phase, we use a top-K value of 5, retrieving the five most relevant experiences for each task."

중국 오픈소스 AI 모델 비교

빛나는 일상 — Tue, 30 Dec 2025 20:36:28 +0900

핵심 요약

GLM 4.7: 355B 총 파라미터, 32B 활성 (MoE), Preserved Thinking 기능, 코딩과 에이전트 작업에 특화

Kimi K2: 1T 총 파라미터, 32B 활성 (MoE), MuonClip 옵티마이저, 에이전틱 AI에 최적화

MiMo V2: 309B 총 파라미터, 15B 활성 (MoE), 하이브리드 어텐션과 Multi-Token Prediction으로 150 tok/s 달성

DeepSeek V3.2: 685B 총 파라미터, 37B 활성 (MoE), DeepSeek Sparse Attention으로 효율성 향상, GPT-5 수준

MinMax M2.1: 230B 총 파라미터, 10B 활성 (MoE), 가장 가벼운 SOTA 모델, Digital Employee 컨셉

모델 기본 사양 비교

모델명	개발사	출시일	총 파라미터	활성 파라미터	아키텍처	컨텍스트 윈도우
GLM 4.7	Z.ai (智谱AI, Zhipu AI)	2025년 12월 22일	355B (MoE)	32B	• MoE 아키텍처 • Interleaved Thinking • Preserved Thinking • Turn-level Thinking	200K 입력<br>128K 출력
Kimi K2	Moonshot AI	2025년 (정확한 날짜 미공개)	1T (MoE)	32B	• MoE (384 experts, 8 active) • 61 layers • MuonClip optimizer • Multi-head Local Attention (MLA)	128K (256K in 0509 version)
MiMo V2	Xiaomi	2025년 12월 16일	309B (MoE)	15B	• Hybrid Sliding Window Attention • 5:1 ratio (SWA:GA) • Multi-Token Prediction (MTP) • 48 layers	256K
DeepSeek V3.2	DeepSeek AI	2025년 12월 1일	685B (MoE)	37B	• DeepSeek Sparse Attention (DSA) • MoE 아키텍처 • Multi-head Latent Attention	128K
MinMax M2.1	MiniMax	2025년 12월 23일	230B (MoE)	10B	• Sparse MoE • Interleaved Thinking • 23:1 sparsity ratio	200K

주요 특징 비교

모델	핵심 강점	특화 기능	벤치마크 성능
GLM 4.7	• 코딩 능력 (SWE-bench 73.8%) • Vibe Coding (UI 생성) • 에이전트 워크플로우	• Preserved Thinking (세션 간 사고 유지) • Turn-level Thinking (턴별 추론 제어) • Claude Code 통합	• SWE-bench: 73.8% • SWE-bench Multilingual: 66.7% • Terminal Bench 2.0: 41% • HLE: 42.8%
Kimi K2	• 에이전틱 인텔리전스 • 15.5T 토큰으로 학습 • 툴 콜링 능력	• MuonClip optimizer로 안정적 학습 • 자율적 문제 해결 • MIT 라이선스	• SWE-bench Verified: 65.8% • AIME: competitive • GPQA-Diamond: SOTA • 약 960GB 모델 크기
MiMo V2	• 150 tok/s 추론 속도 • 다국어 코딩 • 6배 KV 캐시 절감	• Multi-Token Prediction (3배 속도 향상) • Hybrid Attention (128-token window) • FP8 Mixed Precision	• SWE-bench Verified: 73.4% (#1 오픈소스) • SWE-bench Multilingual: SOTA • LiveCodeBench V6: 84.9%
DeepSeek V3.2	• GPT-5 수준 성능 • IMO/IOI 골드메달 • 추론과 에이전트 통합	• DeepSeek Sparse Attention<br>• Thinking in Tool-Use<br>• V3.2-Speciale 버전 (deep reasoning)	• IMO 2025: 골드<br>• IOI 2025: 골드<br>• GPT-5와 동등 수준<br>• Speciale은 Gemini 3.0 Pro 수준
MinMax M2.1	• 최경량 (10B 활성) • 다국어 코딩 • Digital Employee 컨셉	• Composite Instruction Constraints • VIBE benchmark (앱 개발) • Web3 최적화	• SWE-bench Verified: 74% • Multi-SWE-Bench: 49.4% • VIBE: 88.6% • MMLU: 88

기술적 혁신 비교

모델	핵심 기술	학습 방법	효율성 특징
GLM 4.7	• Preserved Thinking: 세션 간 사고 유지 • Interleaved Thinking: 매 응답/툴 콜 전 사고 • Turn-level Thinking: 턴별 추론 제어	• Temperature: 1.0 • Top-p: 0.95 • vLLM, SGLang 지원	• 32B 활성으로 효율적<br>• MIT 라이선스<br>• 400GB 디스크 필요
Kimi K2	• MuonClip Optimizer: 대규모 학습 안정화 • 384 Experts: 8개만 활성화 • Multi-head Local Attention	• 15.5T 토큰 학습 • Zero training instability • vLLM, SGLang, KTransformers 지원	• 10-12x H100 or 16x A100 필요 • 4-bit: 3x H100 • 2-bit GGUF: 230GB
MiMo V2	• Multi-Token Prediction: 3배 속도 향상 • Hybrid Attention: 6배 KV 캐시 절감 • Sliding Window: 128-token window	• 27T 토큰 학습 (FP8) • MOPD (Multi-Teacher On-Policy Distillation) • Large-Scale Agentic RL	• 150 tok/s 생성 속도 • 8x H100 or 4x A100 • Claude 비용의 3.5%
DeepSeek V3.2	• DeepSeek Sparse Attention: fine-grained sparse attention • Scalable RL Framework • Developer Role: 검색 에이전트 전용	• Domain-specific KL strengths<br>• Unbiased KL estimate<br>• Large-Scale Agentic Task Synthesis	• Temperature: 1.0<br>• Top-p: 0.95<br>• vLLM, SGLang 지원<br>• MIT 라이선스
MinMax M2.1	• 23:1 Sparsity Ratio: 최고 효율성 • Digital Employee: 엔드투엔드 오피스 자동화 • Interleaved Thinking	• Temperature: 1.0 • Top-p: 0.95, Top-k: 40 • vLLM, SGLang, MLX-LM 지원	• 가장 가벼운 SOTA • 14 tok/s (Q6 local) • $0.30/1M input tokens

벤치마크 상세 비교

벤치마크 GLM 4.7 Kimi K2 MiMo V2 DeepSeek V3.2 MinMax M2.1

SWE-bench Verified	73.8%	65.8% (71.6% with test-time compute)	73.4%	-	74%
SWE-bench Multilingual	66.7%	47.3%	SOTA 수준	-	-
Multi-SWE-Bench	-	-	-	-	49.4%
Terminal Bench 2.0	41%	-	-	-	-
LiveCodeBench V6	-	-	84.9%	-	-
τ²-Bench	87.4%	-	-	-	-
HLE (Humanity's Last Exam)	42.8%	-	-	-	-
IMO/IOI	-	-	-	Gold Medal	-
VIBE	-	-	-	-	88.6%
MMLU	-	-	-	-	88

사용 사례 및 적합성

모델 최적 사용 사례 에이전트 프레임워크 지원 가격 (대략)

GLM 4.7	• 복잡한 코딩 에이전트<br>• 터미널 기반 워크플로우<br>• UI/프론트엔드 생성<br>• 다국어 코딩	Claude Code, Kilo Code, Cline, Roo Code	$3/월 (GLM Coding Plan)<br>Claude 비용의 1/7
Kimi K2	• 자율적 문제 해결<br>• 툴 통합 워크플로우<br>• 장문맥 추론<br>• 연구 및 파인튜닝	범용 에이전트 프레임워크	$0.60/1M input<br>$2.50/1M output
MiMo V2	• 고속 추론 필요 시<br>• 다국어 코딩 (특히 수학/알고리즘)<br>• 실시간 응답 필요<br>• 코스트 민감 환경	Claude Code, Cline, Roo Code (thinking mode off 권장)	$0.1/1M input<br>$0.3/1M output<br>Claude의 3.5%
DeepSeek V3.2	• 복잡한 추론 작업<br>• 툴 사용 통합 추론<br>• 수학 올림피아드 수준<br>• 연구 및 프로덕션	범용 에이전트 프레임워크	약 50% 가격 인하<br>(정확한 가격 미공개)
MinMax M2.1	• 경량 배포<br>• 오피스 자동화<br>• 다국어 실전 코딩<br>• Web3/블록체인	Claude Code, Cline, Kilo, Roo Code, BlackBox	$0.30/1M input<br>$1.20/1M output

아키텍처 비교 (메타포)

각 모델을 건물에 비유하면:

GLM 4.7: 경험을 기억하는 호텔 - 손님(사용자)이 다시 방문해도 이전 대화와 선호도를 기억하는 Preserved Thinking 기능이 있음
Kimi K2: 1조 개의 방이 있는 도서관 - 방대한 지식(1T 파라미터)을 보유하지만 한 번에 32개 방만 열어서 효율적으로 운영
MiMo V2: 고속 엘리베이터가 있는 빌딩 - Multi-Token Prediction으로 한 번에 여러 층(토큰)을 동시에 이동해 3배 빠른 속도 달성
DeepSeek V3.2: 올림픽 금메달리스트 선수촌 - IMO/IOI 금메달 수준의 추론 능력, sparse attention으로 효율성과 성능 모두 달성
MinMax M2.1: 컴팩트 오피스 빌딩 - 10B 활성으로 가장 가벼우면서도 실무에 필요한 모든 기능 구비, Digital Employee 역할

개발 배경

모델 개발사 정보 개발 철학 GitHub/논문

GLM 4.7	• Z.ai (Zhipu AI, 智谱AI)<br>• 청화대 스핀오프	Claude 대체재, 오픈소스로 최고 성능 제공	GitHub<br>HuggingFace
Kimi K2	• Moonshot AI (月之暗面)<br>• Yang Zhilin, Zhou Xinyu, Wu Yuxin 공동 창업 (2023년 3월)	에이전틱 AI 민주화, MuonClip optimizer 개발	GitHub<br>HuggingFace
MiMo V2	• Xiaomi (샤오미)<br>• LLM-Core 팀	추론 효율성 극대화, 오픈소스	GitHub<br>HuggingFace<br>Technical Report
DeepSeek V3.2	• DeepSeek AI	GPT-5 수준 오픈 모델, sparse attention 연구	GitHub<br>HuggingFace<br>Tech Report
MinMax M2.1	• MiniMax<br>• 2025년 Q1 홍콩 IPO 예정	Digital Employee, 실전 복잡 작업에 최적화	GitHub<br>HuggingFace

참조한 사이트

GLM 4.7:

Kimi K2:

MiMo V2:

DeepSeek V3.2:

MinMax M2.1:

MiniMax 모델

빛나는 일상 — Tue, 30 Dec 2025 15:53:27 +0900

MiniMax 모델 핵심 요약

중국 상하이 기반 AI 스타트업, 2021년 12월 설립, 25억 달러 가치

M2.1 모델은 230B 파라미터 중 10B만 활성화하는 MoE 구조로 효율 극대화

SWE-bench Verified 74.0점으로 Claude Sonnet 4.5 능가

가격은 Claude의 약 8~10% 수준으로 비용 효율적

멀티언어 프로그래밍(Rust, Java, Go 등) 특화

MiniMax 회사 정보

MiniMax는 중국 상하이에 본사를 둔 AI 스타트업으로, 다음과 같은 특징을 가지고 있습니다.

설립 배경

설립 시기: 2021년 12월
창립자: SenseTime(센스타임) 출신 컴퓨터 비전 전문가들
기업 가치: 약 25억 달러 (2024년 기준)
별칭: 중국의 "AI Tiger" 기업 중 하나

투자 현황

주요 투자자: Alibaba Group, Tencent, MiHoYo(원신 개발사), Hillhouse Investment, HongShan, IDG Capital
자금 조달: 총 약 8억 5천만 달러 규모

주요 제품 라인업

제품 카테고리	제품명	설명
텍스트 모델	MiniMax M2.1 MiniMax M2 MiniMax-Text-01	코딩 및 에이전트 워크플로우 특화 모델 230B 파라미터(10B 활성) Linear Attention 기반
비전-언어 모델	MiniMax-VL-01	멀티모달 이해 및 생성 모델
비디오 생성	Hailuo AI Video-01 T2V-01-Director I2V-01-Director	텍스트/이미지 to 비디오 생성 6~10초, 768P~1080P 해상도
음성 생성	Speech 2.6 T2A-01-HD	실시간 음성 합성 및 음성 복제
음악 생성	Music 2.0	AI 음악 생성
캐릭터 AI	Talkie (국제) Xing Ye (중국)	AI 캐릭터 대화 플랫폼 5백만 이상 사용자

MiniMax M2.1 모델 기술 상세

아키텍처 설계

MiniMax M2.1은 최신 프로그래밍 및 에이전트 작업을 위해 최적화된 모델입니다.

구성 요소	세부 사항
총 파라미터	230B (2,300억 개)
활성 파라미터	10B (추론 시 활성화)
아키텍처	Sparse Mixture-of-Experts (MoE) Hybrid Attention 메커니즘
컨텍스트 윈도우	200K 토큰 (약 15만 단어)
양자화	FP8 네이티브 양자화
추론 속도	약 14 tokens/sec (Q6 quantization)

핵심 기술: Hybrid Attention

Linear Attention + Softmax Attention 조합

7개 레이어: Lightning Attention (선형 복잡도 O(Nd²))
1개 레이어: 전통적 Softmax Attention (정확도 보정)
효과: O(N²) → O(Nd²)로 복잡도 감소하면서도 정보 검색 능력 유지

전통적 Transformer 복잡도: O(N²d)
→ 시퀀스 길이가 2배 증가하면 계산량 4배 증가

MiniMax M2.1 복잡도: O(Nd²)
→ 시퀀스 길이가 2배 증가해도 계산량 2배만 증가

특화 기능

1. 멀티언어 프로그래밍 지원

Python 외에 Rust, Java, Golang, C++, Kotlin, Objective-C, TypeScript, JavaScript 등 체계적 강화
시스템 개발부터 애플리케이션 레이어까지 전체 스택 커버

2. 웹/앱 개발 능력

Web Development: UI/UX 생성, 3D 과학 시뮬레이션
Android/iOS 네이티브 개발: 산업계 약점이었던 모바일 개발 대폭 강화
VIBE 벤치마크: 실제 런타임 환경에서 앱 작동 여부와 시각적 품질 검증

3. Advanced Interleaved Thinking

복잡한 문제를 단계별로 사고하며 해결
복합 명령 제약 조건(Composite Instruction Constraints) 처리에 탁월
코드 정확성뿐만 아니라 설계 트레이드오프까지 고려

4. 디지털 직원(Digital Employee) 기능

웹 콘텐츠를 텍스트로 처리하고 마우스/키보드 입력 제어
일상 업무 자동화: 행정, 데이터 과학, 재무, HR, 소프트웨어 개발
엔드투엔드 작업 완료 가능

성능 벤치마크 비교

1. 소프트웨어 엔지니어링 벤치마크

벤치마크 MiniMax M2.1 Claude Sonnet 4.5 Claude Opus 4.5 Gemini 3 Pro DeepSeek V3.2 GLM-4.7

SWE-bench Verified	74.0%	69.4%	77.2%	78.0%	73.1%	70.0%
Multi-SWE-bench	49.4%	44.3%	50.0%	42.7%	37.4%	30.0%
SWE-bench Multilingual	72.5%	68.0%	77.5%	65.0%	70.2%	-
Terminal-bench 2.0	47.9%	50.0%	57.8%	54.2%	46.4%	-

핵심 포인트:

Claude Sonnet 4.5를 Multi-SWE-bench에서 5.1점 초과 (다국어 프로그래밍 우위)
Claude Opus 4.5에 근접하는 성능 달성
DeepSeek V3.2 대비 다국어 시나리오에서 우위

2. 풀스택 개발 벤치마크 (VIBE)

VIBE (Visual & Interactive Benchmark for Execution): 실제 런타임 환경에서 앱의 상호작용 로직과 시각적 미학을 자동 평가하는 혁신적 벤치마크

VIBE 서브셋 MiniMax M2.1 Claude Opus 4.5 Claude Sonnet 4.5

VIBE 평균	88.6%	-	-
VIBE-Web	91.5%	더 낮음	더 낮음
VIBE-Android	89.7%	-	-
VIBE-iOS	-	-	-

3. 에이전트 도구 사용 벤치마크

벤치마크 MiniMax M2.1 Claude Sonnet 4.5 Claude Opus 4.5 Gemini 3 Pro Kimi K2 GLM 4.7

Toolathlon	43.5	38.9	43.5	36.4	17.6	18.8
BrowseComp	47.4	19.6	37.0	37.8	41.5	45.1

4. 일반 지능 및 수학 추론

벤치마크 MiniMax M2.1 Claude Opus 4.5 GLM-4.7 DeepSeek V3.2

MMLU	88.0%	-	-	-
AIME 2025	78.3%	-	95.7%	93.1%
HLE w/o tools	22.0	-	-	-

약점 분석:

수학 추론에서 GLM-4.7과 DeepSeek V3.2에 뒤처짐
10B 활성 파라미터가 추상적 수학 추론에는 밀도가 부족

5. 경쟁 모델과의 종합 비교

중국 AI Tiger 모델들과의 경쟁 구도:

모델 특징 강점 약점

MiniMax M2.1	230B(10B 활성)<br>코딩 특화	멀티언어 코딩\n비용 효율\n추론 속도	순수 수학 추론 약함
GLM-4.7 (Zhipu AI)	수학 특화	AIME 95.7%\n깊은 추론	코딩은 M2.1보다 약함
DeepSeek V3.2	671B(37B 활성)<br>DSA 메커니즘	수학 93.1%\n128K 컨텍스트\n컨텍스트 캐싱 90% 할인	도구 사용은 약함
Kimi K2 Thinking	Moonshot AI	추론 능력	도구 사용 17.6점\n가격 비쌈
MiMo-V2-Flash	Xiaomi	속도 112~150 tk/s	명령 따르기 불안정\n도구 호출 신뢰성 낮음

가격 및 비용 효율성

가격 비교표

모델 입력 토큰 (백만 개당) 출력 토큰 (백만 개당) Claude 대비 비용

MiniMax M2.1	$0.30	$1.20	8~10%
Claude Sonnet 4.5	$3.00	$15.00	100%
Claude Opus 4.5	-	$22.50	-
GPT-4o	$2.50	-	-
Kimi K2 Thinking	$0.60	$2.50	20~25%
GLM-4.7	낮은 티어 가능	-	-
DeepSeek V3.2	기본 가격<br>캐시 90% 할인	-	매우 저렴

비용 효율성의 의미:

예시: 100만 토큰 입력 + 100만 토큰 출력 시
- Claude Sonnet 4.5: $18.00
- MiniMax M2.1: $1.50
- 절감액: $16.50 (약 92% 절감)

하드웨어 요구사항

배포 방식 하드웨어 비고

클라우드 API	없음	가장 간편
로컬 배포	H100 GPU 4개<br>또는<br>RTX 4090 듀얼	230B 파라미터 모델\n10B 활성화로 효율적
추론 프레임워크	vLLM, SGLang,<br>Transformers, MLX-LM	다양한 선택지

실제 사용 사례 및 프레임워크 지원

지원 개발 도구

도구/프레임워크 특징

Claude Code	기본 스캐폴딩\n시스템 프롬프트 오버라이드 가능
Cline	VS Code 통합\n인기 있는 코딩 도구
Kilo Code	오픈소스 AI 코딩 어시스턴트\nVS Code, JetBrains, CLI 지원
Roo Code	에이전트 기반 코딩
BlackBox	AI 코딩 플랫폼
Droid (Factory AI)	모바일 개발 특화

Skill.md 및 에이전트 프롬프팅 지원

Context Management 메커니즘: Skill.md, Claude.md, agent.md, cursorrule
Slash Commands 지원
15개의 전문 스킬 포함 (문서, 디자인, 테스트, 개발)

실제 개발 시나리오 테스트

시나리오 결과

Express API with TypeScript (URL 단축)	처음부터 완벽 구축 성공
Python 리팩토링	고려하지 못한 엣지 케이스 식별\n깔끔한 pytest 테스트 스위트 생성
코드 리뷰	가치 있는 통찰 제공\n(다만 불필요한 장황함 있음)
도구 체인 호출	자연스러운 연결\n상태 유지\n우아한 에러 처리

경쟁 기술 및 유사 모델

경쟁 모델 비교 (특성별)

1. 코딩 특화 모델:

Claude Sonnet 4.5: 가장 강력하나 가격 10배
Cursor AI: IDE 통합 특화
GitHub Copilot: 자동완성 중심

2. 오픈소스 경쟁자:

DeepSeek V3.2: 더 큰 모델(671B), 수학 강점
Qwen3 235B: 22B 활성, 일반 지능 우수
GLM-4.7: 수학 추론 최강

3. 다국어 모델:

Llama 3.1: Meta의 오픈소스 모델
Mistral Large: 유럽 AI 스타트업

MiniMax만의 차별점

기존 모델들의 문제점:
├─ 고비용 (Claude, GPT-5)
├─ Python 편향 (대부분 모델)
├─ 모바일 개발 약함
└─ 추론 속도 느림

MiniMax M2.1 해결책:
├─ 비용 90% 절감
├─ 멀티언어 체계적 강화
├─ 네이티브 Android/iOS 강화
└─ 10B 활성화로 빠른 추론

GitHub 저장소 및 오픈소스

공식 GitHub 저장소

저장소 URL 설명

MiniMax-M2.1	https://github.com/MiniMax-AI/MiniMax-M2.1	최신 M2.1 모델
MiniMax-M2	https://github.com/MiniMax-AI/MiniMax-M2	M2 모델
MiniMax-M1	https://github.com/MiniMax-AI/MiniMax-M1	하이브리드 어텐션 추론 모델
MiniMax-01	https://github.com/MiniMax-AI/MiniMax-01	Text-01 및 VL-01 모델
Mini-Agent	https://github.com/MiniMax-AI/Mini-Agent	에이전트 데모 프로젝트
MiniMax-MCP	https://github.com/MiniMax-AI/MiniMax-MCP	Model Context Protocol 서버

Hugging Face

모델 다운로드: https://huggingface.co/MiniMaxAI/MiniMax-M2.1
라이선스: Modified-MIT (100M MAU 이상은 특별 라이선스 필요)

배포 가이드

추천 추론 프레임워크:

SGLang: MiniMax M2.1에 대한 day-0 지원
vLLM: 효율적인 LLM 서빙
Transformers: Hugging Face 표준
MLX-LM: Apple Silicon 최적화

권장 파라미터:

temperature=1.0
top_p=0.95
top_k=40

약점 및 제한사항

제한사항 상세 설명 대안

수학 추론	AIME 78.3%\nGLM-4.7(95.7%) 대비 낮음	수학 특화 작업은 GLM-4.7 사용
장황함	간단한 설명도 긴 답변	프롬프트 엔지니어링 필요\n후처리 권장
하드웨어 요구	로컬 배포 시 H100 4개 필요	클라우드 API 사용 권장
특정 프레임워크 약점	Nuxt, Tauri에서 미세한 디자인 결함 놓침	GLM-4.7이 더 나음
인용 정확도	Claude 대비 약할 가능성	사실 확인 필요

로드맵 및 향후 전망

최근 출시 (2025년)

2025년 1월: MiniMax-Text-01, MiniMax-VL-01, T2A-01-HD 출시
2025년 1월 28일: T2V-01-Director, I2V-01-Director (비디오 생성 향상)
2025년 12월 23일: MiniMax M2.1 출시

예정 사항

홍콩 IPO: 2025년 초 상장 예정
VIBE 벤치마크 오픈소스화: 곧 공개 예정
SWE-Review 벤치마크 오픈소스화: 곧 공개 예정
M2.1 오픈 웨이트 완전 공개: 완료됨 (HuggingFace)

최종 평가 및 활용 권장사항

종합 평가

"불가능한 삼각형" 달성: 성능, 비용, 속도의 균형

성능: ★★★★☆ (4.5/5)
비용: ★★★★★ (5/5)
속도: ★★★★★ (5/5)
사용성: ★★★★☆ (4/5)
종합: ★★★★☆ (4.5/5)

결론: MiniMax M2.1은 비용 대비 성능이 뛰어난 실용적 코딩 AI 모델로, 특히 멀티언어 프로그래밍과 에이전트 워크플로우에서 Claude Sonnet 4.5를 능가하면서도 비용은 10분의 1 수준이라는 점에서 혁신적입니다.

참조 사이트

샤오미 모델 MiMo

빛나는 일상 — Tue, 30 Dec 2025 15:49:16 +0900

샤오미 AI 모델 개발 핵심 요약

MiMo 시리즈: 2025년 4월 첫 공개된 오픈소스 추론 모델로 AI 경쟁에 본격 진입

다양한 특화 모델: 언어(MiMo-7B), 비전-언어(MiMo-VL), 체화 AI(MiMo-Embodied), 스마트홈(MiMo-VL-Miloco) 등

핵심 인재 영입: DeepSeek 출신 루 푸리(Luo Fuli)를 2025년 11월 MiMo 팀장으로 영입

대규모 투자: 향후 5년간 R&D에 2000억 위안(약 38조원) 투자 계획

AGI 지향: "사람-자동차-집" 생태계를 연결하는 범용 AI 플랫폼 구축 목표

샤오미 AI 모델 개발 개요

샤오미는 2025년 4월부터 본격적으로 AI 모델 개발에 진입하여, **MiMo(Mi Model)**라는 브랜드로 다양한 AI 모델을 공개했습니다. 이는 샤오미가 스마트폰, IoT 가전, 전기차 등 하드웨어 중심의 사업에서 AI 소프트웨어 생태계로 확장하는 전략적 움직임입니다.

주요 AI 모델 시리즈

모델명 공개 시기 주요 특징 파라미터 규모 특화 분야

MiMo-7B	2025년 4월	추론과 코딩에 특화된 경량 모델 - OpenAI o1-mini 성능 초과 - 오픈소스로 공개	7B (70억)	수학 추론 코드 생성
MiMo-V2-Flash	2025년 12월	초고속 추론 모델 - 150 tokens/초 속도 - MoE 아키텍처 사용	309B 총합 15B 활성	범용 어시스턴트 에이전트 작업
MiMo-VL-7B	2025년 6월	비전-언어 멀티모달 모델 - 2.4조 토큰 학습 - 50+ 벤치마크 평가	7B	시각 이해 멀티모달 추론
MiMo-Embodied	2025년 11월	자율주행+체화 AI 통합 모델 - 29개 벤치마크 SOTA 달성 - 크로스 도메인 협업 최초 실현	7B	자율주행 로봇 제어
MiMo-VL-Miloco	2025년 12월	스마트홈 특화 모델 - 제스처/활동 인식 - IoT 기기 연동	7B	스마트홈 제스처 제어

개발 팀 및 조직

MiMo 코어 팀 구성

**샤오미 빅 모델 코어 팀(Xiaomi LLM-Core Team)**이 전담하여 개발하고 있으며, 주요 특징은 다음과 같습니다:

규모: 언어, 멀티모달, 음성 기술 분야의 최고 엔지니어와 연구자들로 구성
협력 팀: LLM-Plus, Mify, MiChat, CloudML 팀 등과 협업
리더십: 2025년 11월 DeepSeek 출신의 루 푸리(Luo Fuli) 영입

루 푸리(Luo Fuli) 영입의 의미

루 푸리는 AI 업계의 주요 인물로, 그녀의 영입은 샤오미의 AI 역량 강화에 결정적입니다:

학력: 베이징 사범대 컴퓨터과학 학사, 북경대 계산언어학 석사
경력:
- 전 알리바바 DAMO Academy에서 VECO, AliceMind 프로젝트 리드
- 2022년 DeepSeek 합류, DeepSeek-V2 공동 개발
- Nature 표지 논문 공저자
- 11,000회 이상 인용 (2025년에만 8,000회)
역할: MiMo 팀장으로서 공간 지능(Spatial Intelligence) 개발 주도

기술적 혁신 포인트

1. Multi-Token Prediction (MTP)

MTP는 샤오미 모델의 핵심 기술로, 여러 토큰을 동시에 예측하여:

정확도 향상: 추론 작업의 정밀도 증가
추론 속도 향상: 병렬 처리로 생성 속도 90% 수락률 달성
효율성: 작은 모델에서도 큰 모델 성능 달성

2. 강화학습(RL) 최적화

학습 데이터: 130,000개의 수학 및 코딩 문제
검증 방식: 규칙 기반 검증기로 정확도 확인
난이도 기반 보상: 어려운 문제 해결 시 더 높은 보상
성능: MiMo-7B-RL-0530이 AIME24에서 DeepSeek R1(79.8) 초과 달성

3. 전처리 파이프라인 최적화

데이터 규모: 약 25조 토큰으로 사전 학습
합성 데이터: 대규모 다양한 추론 데이터 생성
3단계 데이터 믹싱: 사전 학습 단계별 데이터 분포 조정
다차원 필터링: 추론 패턴 밀도 향상

4. 하이브리드 어텐션 아키텍처 (MiMo-V2-Flash)

구조: Sliding Window Attention(SWA)와 Global Attention(GA)를 5:1 비율로 교차
윈도우 크기: 128 토큰의 공격적인 윈도우 사용
효율성: KV 캐시 저장 공간 6배 감소
긴 컨텍스트: learnable attention sink bias로 성능 유지

개발 타임라인

시기 주요 이벤트

2022년	휴머노이드 로봇 프로토타입 공개 AI 통합 제품 개발 야심 표명
2024년 후반	레이 쥔(Lei Jun) CEO가 루 푸리 영입 추진 10,000 GPU 클러스터 구축 시작
2025년 4월	MiMo-7B 첫 공개\n오픈소스 추론 모델로 AI 경쟁 본격 진입
2025년 5월	MiMo-7B-RL-0530 버전 출시 SFT 데이터셋 500K→6M 확장 RL 학습 윈도우 32K→48K 확장
2025년 6월	MiMo-VL-7B 비전-언어 모델 공개 2.4조 토큰 학습 완료
2025년 9월	MiMo-Audio 감정 인식 가능 음성 모델 공개
2025년 11월	루 푸리 MiMo 팀장 공식 취임 발표 MiMo-Embodied 체화 AI 모델 공개
2025년 12월	MiMo-V2-Flash 고속 추론 모델 출시 MiMo-VL-Miloco 스마트홈 특화 모델 공개 2025 파트너 컨퍼런스에서 MiMo 플랫폼 공식 발표

투자 및 생태계 전략

R&D 투자 계획

샤오미는 AI 개발에 대규모 투자를 진행 중입니다:

5년 투자: 2000억 위안(약 278억 달러, 약 38조원)
2025년 투자: 320~330억 위안(약 4.4~4.6억 달러)
2026년 계획: 약 400억 위안(약 5.6억 달러)
목표: 하드코어 기술의 글로벌 리더로 도약

"사람-자동차-집" 생태계

MiMo는 샤오미의 통합 생태계 전략의 핵심입니다:

┌─────────────────────────────────────────────┐
│          MiMo AI 플랫폼 (중앙 두뇌)          │
│    - 추론, 멀티모달, 공간 지능             │
│    - 범용 AI 어시스턴트                    │
└──────────┬──────────┬──────────┬────────────┘
           │          │          │
    ┌──────▼───┐ ┌───▼────┐ ┌──▼──────┐
    │  사람    │ │ 자동차  │ │   집    │
    │ (People) │ │ (Car)   │ │ (Home)  │
    └──────────┘ └─────────┘ └─────────┘
    │          │ │         │ │         │
    ▼          ▼ ▼         ▼ ▼         ▼
 스마트폰   전기차(SU7)   IoT 가전
 태블릿     자율주행      로봇청소기
 웨어러블   YU7 SUV      스마트홈 기기
 HyperOS                 MiJIA 카메라

경쟁 모델과의 비교

벤치마크 성능

MiMo-7B 시리즈는 작은 크기에도 불구하고 뛰어난 성능을 보입니다:

벤치마크	MiMo-7B-RL	비교 대상	특징
AIME24	79.8+	DeepSeek R1: 79.8	수학 올림피아드 수준 문제
AIME25	상위권	-	32회 반복 평균
LiveCodeBench v5/v6	최상위	-	실시간 코딩 과제
MATH500	높은 점수	OpenAI o1-mini 초과	수학 추론

MiMo-V2-Flash는 추론과 에이전트 작업에서 특히 강점:

Kimi K2 Thinking 및 DeepSeek V3.2 Thinking과 동등한 추론 성능
SWE-Bench Verified: 73.4% 점수로 모든 오픈소스 경쟁자 초과
GPT-5-High에 근접한 에이전트 작업 성능
비용: 입력 토큰당 $0.1, 출력 토큰당 $0.3 (가장 비용 효율적)

MiMo-VL-7B는 멀티모달에서 탁월:

Qwen2.5-VL-7B 대비 40개 작업 중 35개에서 우수
OlympiadBench: 59.4점 (78B 파라미터 모델 초과)
OSWorld-G: 56.1점 (UI-TARS 등 특화 모델 초과)

오픈소스 전략

샤오미는 모든 MiMo 모델을 오픈소스로 공개하고 있습니다:

공개 플랫폼

GitHub: https://github.com/XiaomiMiMo
Hugging Face: https://huggingface.co/XiaomiMiMo
ModelScope: https://www.modelscope.cn/organization/XiaomiMiMo

공개 자료

모델 체크포인트 (Base, SFT, RL 버전)
기술 보고서 (Technical Report)
평가 도구 및 벤치마크 스위트
양자화 버전 (GGUF 형식)
통합 프레임워크 (SGLang, vLLM 지원)

오픈소스 철학

샤오미는 공식 보고서에서 다음과 같이 밝혔습니다:

"폐쇄적인 개발 방식을 넘어 전 세계 연구자들과 협력해 AI 기술의 상용화를 앞당기고, 자율주행과 로봇 산업 전반에 새로운 표준을 제시하기 위함"

논문 및 기술 문서

샤오미는 각 모델에 대한 상세한 기술 보고서를 arXiv에 공개했습니다:

논문 제목	arXiv ID	공개일	주요 내용
MiMo: Unlocking the Reasoning Potential of Language Model	2505.07608	2025년 5월	사전 학습부터 후처리까지\n추론 능력 최적화 방법론
MiMo-VL Technical Report	2506.03569	2025년 6월	비전-언어 모델 개발\n4단계 사전 학습 파이프라인\nMixed RL 기법
MiMo-Embodied: X-Embodied Foundation Model	2511.16518	2025년 11월	자율주행+체화 AI 통합\n크로스 도메인 전이 학습\n29개 벤치마크 SOTA
Xiaomi MiMo-VL-Miloco Technical Report	2512.17436	2025년 12월	스마트홈 특화 모델\n제스처/활동 인식\nGRPO 기반 RL

경쟁 기술 및 유사 프로젝트

중국 내 경쟁사

기업	주요 모델	특징
DeepSeek	DeepSeek-V2, V3, R1, Prover	수학 정리 증명에 특화 강화학습 선도 추론 모델 강점
Alibaba	Qwen 시리즈	대규모 멀티모달 모델 범용성 강점
Baidu	Ernie 시리즈	중국어 특화 검색 엔진 통합
Huawei	PanGu 시리즈	산업 특화 모델 5G/클라우드 통합

글로벌 경쟁사

기업	주요 모델	샤오미와의 차이점
OpenAI	GPT-4, o1 시리즈	폐쇄형 모델 더 큰 규모 샤오미는 오픈소스 지향
Google	Gemini	멀티모달 통합 샤오미는 경량화에 집중
Anthropic	Claude	안전성 우선 샤오미는 하드웨어 통합 강조
Meta	Llama 시리즈	오픈소스 전략 유사 샤오미는 IoT 생태계 강점

차별화 포인트

샤오미 MiMo의 독특한 강점:

하드웨어 통합: 스마트폰, IoT, 전기차와 긴밀한 연계
경량 고성능: 7B 파라미터로 32B 모델 성능 달성
특화 모델 다양성: 추론, 비전, 체화 AI, 스마트홈 등 세분화
완전 오픈소스: 모든 체크포인트, 코드, 데이터 공개
생태계 접근: 단일 모델이 아닌 통합 플랫폼 전략

향후 전망

단기 목표 (2026년)

R&D 투자 400억 위안 집행
MiMo 플랫폼의 모든 샤오미 제품 통합
추가 특화 모델 출시 (음향, 센서 융합 등)
개발자 생태계 확장

중장기 목표

AGI 실현: 범용 인공지능을 향한 장기 여정
공간 지능: 언어적 지능에서 물리적 지능으로 확장
글로벌 표준: 자율주행 및 체화 AI 분야의 새로운 기준 제시
온디바이스 AI: 효율적인 엣지 컴퓨팅 배포

도전 과제

대형 모델과의 격차: GPT-4, Gemini 등 거대 모델과의 성능 차이
늦은 진입: 2025년 진입이 다소 늦은 시기
인재 확보: AI 인재 경쟁 심화
상용화: 실제 제품 통합 및 사용자 경험 최적화

결론

샤오미의 AI 모델 개발은 **"늦게 시작했지만 방향은 명확하다"**는 평가를 받고 있습니다. 특히:

오픈소스 전략으로 커뮤니티 협력 강화
하드웨어 생태계 강점을 AI로 연계
경량 고성능 모델로 차별화
체화 AI와 자율주행 통합으로 미래 대비

2025년은 샤오미 AI의 **원년(元年)**이며, MiMo는 이제 시작 단계입니다. 향후 5년간의 대규모 투자와 루 푸리 같은 핵심 인재 영입으로 볼 때, 샤오미는 AI 분야에서도 스마트폰처럼 빠르게 성장할 가능성이 높습니다.

참조 URL

RLVR 기술(Reinforcement Learning with Verifiable Rewards)

빛나는 일상 — Tue, 30 Dec 2025 15:13:52 +0900

- RLVR은 검증 가능한 보상을 활용한 강화학습 기술로, 2024년 DeepMind에서 개발한 수학 문제 해결을 위한 혁신적인 방법
- 기존 RLHF(인간 피드백 기반 강화학습)의 한계를 극복하기 위해 자동으로 검증 가능한 보상 신호를 사용
- 특히 Gemini 2.0 Flash Thinking 모델에 적용되어 수학적 추론 능력을 크게 향상
- 인간 피드백 없이도 자가 개선이 가능하며, 프로그래밍, 수학 등 명확한 정답이 있는 도메인에서 효과적 방법

1. 기술 개요

**RLVR (Reinforcement Learning with Verifiable Rewards)**은 대규모 언어 모델(LLM, Large Language Model)의 추론 능력을 향상시키기 위해 검증 가능한 보상 신호를 활용하는 강화학습 방법론입니다.

핵심 특징

특징 설명

보상 시스템	• 이진 보상 (0 또는 1) • 정답 여부를 자동으로 검증 • 규칙 기반 평가 함수 사용
인간 피드백 불필요	• 전통적인 RLHF(인간 피드백 기반 강화학습) 대비 • 인간 레이블링 비용 절감 • 자동화된 검증 시스템 활용
적용 도메인	• 수학 문제 해결 • 코드 생성 및 실행 • 논리적 추론 작업 • 명확한 정답이 있는 작업
보상 해킹 방지	• 명확한 검증 기준 • 부분 점수 없음• 투명한 평가 프로세스

2. 개발 배경 및 연구진

주요 개발 기관 및 연구

연구/모델 개발 기관 시기 주요 기여

DeepSeek-R1	DeepSeek AI	2025년 1월	• GRPO 알고리즘 활용 • 순수 강화학습으로 추론 능력 개발 • Nature 저널 게재 (2025년 9월)
DeepSeekMath	DeepSeek AI	2024년	• GRPO 알고리즘 최초 제안 • 수학적 추론에 RLVR 적용
Gemini 2.0 Flash Thinking	Google DeepMind	2024년	• RLVR 기술 통합 • 수학 문제 해결 능력 향상
Tülu 3	AI2 (Allen Institute for AI)	2024년	• 오픈소스 RLVR 구현 • 검증 가능한 보상 프레임워크

주요 논문

논문 제목	저자/기관	발표 시기	arXiv URL
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning	DeepSeek AI	2025년 1월	https://arxiv.org/abs/2501.12948
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models	DeepSeek AI	2024년	관련 논문
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs	다기관 공동 연구	2025년 6월	https://arxiv.org/abs/2506.14245
Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers	학술 연구	2025년 10월	https://arxiv.org/abs/2510.00915

3. 핵심 알고리즘: GRPO (Group Relative Policy Optimization)

DeepSeek-R1에서 사용된 GRPO는 RLVR의 핵심 알고리즘입니다.

GRPO vs PPO 비교

비교 항목	PPO (Proximal Policy Optimization)	GRPO (Group Relative Policy Optimization)
Critic 모델	• 필수 • 가치 함수 추정에 사용 • 정책 모델과 동일한 크기	• 불필요 • 그룹 점수로 기준선 추정 • 메모리 사용량 50% 감소
메모리 요구량	• 정책 모델 + Critic 모델 • 참조 모델 + 보상 모델 • 총 4개 LLM 필요	• 정책 모델 + 참조 모델 • 총 2개 LLM만 필요 • 보상은 규칙 기반 함수
학습 효율성	• 복잡한 학습 과정 • 높은 계산 비용	• 단순화된 학습 • 비용 효율적
안정성	• KL divergence 제약 • Clipping 메커니즘	• 적응형 가중 대조 손실 • 성공 확률 증폭 보장

GRPO 작동 원리

1. 각 프롬프트에 대해 K개의 후보 솔루션 생성 (예: K=8)
   입력: "37 × 29는 무엇인가요?"
   출력: [1073, 1072, 1073, 1074, 1073, 1071, 1073, 1073]

2. 각 출력을 검증하여 보상 할당
   보상: [1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 1.0, 1.0]

3. 높은 보상 경로를 선호하도록 정책 업데이트
   - 그룹 내 상대적 이점(Advantage) 계산
   - KL divergence로 정규화
   - 정책 경사 업데이트

4. 새로운 프롬프트로 반복

GRPO의 수학적 특징

적응형 가중 대조 손실: 이전 정책의 성공 확률에 따라 가중치 조정
- 성공 확률이 높으면 → 오답을 더 강하게 페널티
- 성공 확률이 낮으면 → 정답을 더 강하게 보상
성공 증폭 보장: 학습 후 성공 확률이 초기보다 항상 증가
폐쇄형 재귀: 최적 정책을 명시적으로 표현 가능

4. 검증 가능한 보상 (Verifiable Rewards)의 종류

보상 유형 분류

보상 유형	설명	예시	검증 방법
정확성 검증	생성된 답변과 정답 비교	수학 문제: 37 × 29 = 1073	• 문자열 매칭 • 수식 등가성 검사
형식 준수	출력 형식이 요구사항 충족	<Think>...</Think><br><Answer>...</Answer>	• 정규표현식 • 구문 분석
코드 실행	코드가 테스트 케이스 통과	프로그래밍 문제	• 단위 테스트 • 통합 테스트
논리적 타당성	추론 과정의 논리성	수학 증명	• 형식 검증기 • 정리 증명 도구

DeepSeek-R1의 보상 설계

DeepSeek-R1-Zero는 다음 세 가지 규칙 기반 보상을 사용:

정확성 보상: 최종 답변이 정답과 일치하는지 검증
형식 보상: 지정된 템플릿 형식을 준수하는지 확인
언어 일관성 보상: 동일 언어로 응답하는지 확인 (다단계 학습)

5. RLVR의 장점 및 한계

장점

장점	설명
비용 효율성	• 인간 레이블링 불필요 • DeepSeek-R1 학습 비용: 약 $294,000 • 기존 대비 10배 이상 저렴
확장 가능성	• 자동화된 평가 • 대규모 데이터셋 처리 가능 • 빠른 반복 학습
객관성	• 편향 없는 평가 • 일관된 기준 • 감사 가능성
자가 개선	• 명시적 감독 없이 능력 향상 • 탐색을 통한 학습 • 새로운 추론 패턴 발견

한계 및 도전 과제

한계	설명	완화 방법
도메인 제한	• 명확한 정답이 있는 작업만 적용 가능 • 창의적 글쓰기, 주관적 평가 불가	• RLHF와 하이브리드 접근 • 보상 모델과 병행 사용
검증기 설계	• 완벽한 검증기 구축 어려움 • False Positive/Negative 발생	• 노이즈 보정 알고리즘 • 다중 검증기 앙상블
보상 해킹 위험	• 불완전한 검증기 악용 • 60% 정확도 검증기 → 40% 악용 가능	• 포괄적 테스트 케이스 • 정기적 검증기 업데이트
능력 확장 논쟁	• 추론 경계 확장 vs 샘플링 효율성 • 실제 능력 향상 vs 포맷팅 개선	• CoT-Pass@K 평가 지표 • 오염되지 않은 데이터셋 검증

6. 주요 연구 결과 및 성능

DeepSeek-R1-Zero 성능

벤치마크	초기 성능	최종 성능	개선 폭
AIME 2024 (수학)	15.6%	71.0%	+355%
Self-Consistency 적용	-	86.7%	-
OpenAI o1-0912 비교	-	동등 수준	-

학습 비용 및 자원

항목	DeepSeek-R1-Zero	DeepSeek-R1
GPU 사용	648 × H800	648 × H800
학습 시간	약 198시간	약 80시간
총 비용	-	약 $294,000
SFT 데이터셋	불필요	5,000 GPU 시간

증류 모델 (Distillation) 성능

모델 크기	AIME 2024	MATH-500
DeepSeek-R1-7B	55.5%	-
DeepSeek-R1-70B	-	94.5% (o1-mini 수준)

7. RLVR 학습 과정에서 발견된 현상

"Aha Moment" (깨달음의 순간)

DeepSeek-R1-Zero 학습 중 발견된 흥미로운 현상:

1. 초기 시도: 문제 해결 시도
2. 실패 인식: 답이 틀렸음을 깨달음
3. 자기 수정: 추론 과정 재검토
4. 올바른 해결: 새로운 접근으로 정답 도출

이는 인간의 문제 해결 과정과 유사한 자기 성찰(self-reflection) 능력의 자연스러운 발현입니다.

학습 중 출현한 고급 추론 패턴

패턴	설명
자기 검증	• 답변의 정확성을 스스로 확인 • 모순 탐지
전략 적응	• 문제 유형에 따라 접근법 변경 • 동적 전략 선택
단계별 분해	• 복잡한 문제를 단계로 나눔 • 각 단계별 검증

8. 경쟁 및 유사 기술

비교표

기술	개발 기관	핵심 차이점	장점	단점
RLVR	DeepSeek, AI2 등	규칙 기반 보상	• 비용 효율적 • 확장 가능	• 도메인 제한
RLHF	OpenAI, Anthropic	인간 피드백 기반	• 주관적 작업 가능 • 범용성 높음	• 비용 높음 • 확장 어려움
RLAIF	Anthropic	AI 피드백 기반	• 인간 라벨링 불필요 • 일관성 높음	• 보상 모델 필요
Process Reward Models (PRM)	OpenAI	단계별 보상	• 세밀한 피드백 • 추론 과정 개선	• 학습 데이터 수집 어려움
MCTS (Monte Carlo Tree Search)	게임 AI 전통	탐색 기반	• 체계적 탐색 • 최적 경로 발견	• 계산 비용 높음 • LLM 확장 어려움

RLVR + RLHF 하이브리드

최신 연구 방향:

RLMT (RL with Model-rewarded Thinking): RLVR을 일반 대화로 확장
- 검증 가능한 도메인: RLVR 사용
- 오픈엔드 작업: RLHF 스타일 보상 모델 사용
- 두 접근법의 장점 결합

9. GitHub 저장소 및 오픈소스 자료

주요 GitHub 저장소

저장소	URL	설명
awesome-RLVR	https://github.com/opendilab/awesome-RLVR	• RLVR 관련 큐레이션<br>• 논문, 도구 종합
One-Shot-RLVR	https://github.com/ypwang61/One-Shot-RLVR	• 단일 예제로 RLVR 학습<br>• NeurIPS 2025
Spurious_Rewards	https://github.com/ruixin31/Rethink_RLVR	• RLVR 학습 신호 재고<br>• 실험 재현 코드
limit-of-RLVR	https://github.com/LeapLabTHU/limit-of-RLVR	• RLVR 한계 연구<br>• Tsinghua 대학
RLVR-World	https://github.com/thuml/RLVR-World	• 월드 모델 학습<br>• NeurIPS 2025
DeepRetrieval	https://github.com/pat-jj/DeepRetrieval	• 검색 에이전트 학습<br>• COLM 2025

10. 평가 지표의 혁신: CoT-Pass@K

기존 Pass@K의 문제점

최종 답변만 평가: 추론 과정은 무시
우연히 맞은 답: 잘못된 추론으로도 정답 가능
RLVR 모델 불리: 다양성 감소로 Pass@K 낮아짐

CoT-Pass@K 개선

기준	Pass@K	CoT-Pass@K
평가 대상	최종 답변만	답변 + 추론 과정
정답 조건	답이 맞으면 성공	답 + 추론 모두 올바르면 성공
RLVR 평가	과소평가	정확한 평가

CoT-Pass@K를 사용하면 RLVR이 모든 K 값에서 추론 경계를 확장함을 입증할 수 있습니다.

11. 실무 적용 가이드

RLVR 적용이 적합한 경우

✅ 수학 문제 해결
✅ 프로그래밍 과제 (코딩 대회)
✅ 논리 퍼즐
✅ STEM 분야 문제
✅ 형식적 검증 가능한 작업

RLVR 적용이 부적합한 경우

❌ 창의적 글쓰기
❌ 주관적 선호도 작업
❌ 브랜드 보이스 정립
❌ 미묘한 논증 평가
❌ 예술적 콘텐츠 생성

검증기 설계 원칙

포괄성: 가능한 모든 오류 케이스 커버
정확성: False Positive/Negative 최소화
효율성: 빠른 검증 속도 (실시간 RL)
투명성: 검증 기준 명확화
업데이트: 정기적 검증기 개선

12. 향후 연구 방향

현재 활발한 연구 주제

주제	연구 질문	잠재적 해결책
능력 확장	RLVR이 실제로 추론 능력을 확장하는가?	• 오염되지 않은 데이터셋 • 전이 학습 평가
일반화	검증 가능한 도메인에서 일반 작업으로 확장?	• RLMT 하이브리드 • 다단계 학습
검증기 개선	불완전한 검증기 문제 해결	• 노이즈 보정 • 다중 검증기 앙상블
효율성	더 적은 샘플로 학습 가능?	• One-shot/Few-shot RLVR • 데이터 선택 전략
Base Model 의존성	사전학습 데이터의 영향은?	• 오염 탐지 • 순수 능력 측정

참고 자료 URL