축적의 시간

Agentic Context Engineering

카테고리 없음 2026.01.19 15:03

1. 논문 기본 정보제목: Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models저자(학교, 기관): Qizheng Zhang¹, Changran Hu², Shubhangi Upasani², Boyuan Ma², Fenglu Hong², Vamsidhar Kamanuru², Jay Rainton², Chen Wu², Mengmeng Ji², Hanchen Li³, Urmish Thakker², James Zou¹, Kunle Olukotun¹ (¹Stanford University, ²SambaNova Systems Inc., ³UC Berkeley)발표일: 2025년 10월 6일학회/저널명: arXiv prepr..

A Comprehensive Survey of Self-Evolving AI Agents

카테고리 없음 2026.01.13 07:03

논문 정리: A Comprehensive Survey of Self-Evolving AI Agents핵심 요약자가 진화 AI 에이전트: 환경과의 상호작용을 통해 자율적으로 내부 구성 요소를 최적화하며 지속적으로 자기 개선하는 시스템Three Laws of Self-Evolving AI Agents: Endure (안전 적응), Excel (성능 보존), Evolve (자율 진화)라는 세 가지 원칙 제시MOP→MOA→MAO→MASE 패러다임: 정적 사전학습에서 완전 자율적인 평생 자가 진화 시스템으로의 발전 경로 제시통합 개념 프레임워크: System Inputs, Agent System, Environment, Optimisers로 구성된 피드백 루프 기반 최적화 체계다양한 최적화 기법: 단일 에이전트(..

SYNAPSE: Trajectory-as-Exemplar Prompting with Memory for Computer Control

카테고리 없음 2026.01.10 20:27

1. 논문 기본 정보제목: SYNAPSE: Trajectory-as-Exemplar Prompting with Memory for Computer Control저자(학교, 기관): Longtao Zheng, Rundong Wang, Xinrun Wang, Bo An (NTU, Singapore)발표일: 2024년 1월 (ICLR 2024)학회/저널명: ICLR 2024 (International Conference on Learning Representations)DOI/URL: arXiv:2306.07863v3 [cs.AI]2. 한줄 요약대규모 언어모델을 활용한 컴퓨터 제어 에이전트로, 상태 추상화(State Abstraction), 궤적 기반 프롬프팅(Trajectory-as-Exemplar), 예시..

LEGOMem

카테고리 없음 2026.01.10 15:12

1. 논문 기본 정보제목: LEGOMem: Modular Procedural Memory for Multi-agent LLM Systems for Workflow Automation (레고멤: 워크플로우 자동화를 위한 다중 에이전트 LLM 시스템의 모듈식 절차적 메모리)저자(학교, 기관): Dongge Han, Camille Couturier, Daniel Madrigal Diaz, Xuchao Zhang, Victor Rühle, Saravan Rajmohan (Microsoft)발표일: 2025년 5월학회/저널명: AAMAS 2026 (25th International Conference on Autonomous Agents and Multiagent Systems)DOI/URL: arXiv:2510..

ReasoningBank

카테고리 없음 2026.01.10 10:37

1. 논문 기본 정보제목: ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory저자(학교, 기관): Siru Ouyang (University of Illinois Urbana-Champaign), Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki (Google Cloud AI Research), Xiangru Tang (Yale University), 외 다수발표일: 2025년 9월 29일학회/저널명: arXiv preprintDOI/URL: https://arxiv.org/pdf/2509.251402. 한줄 요약대규모 언어..

ReMe - Remember Me, Refine Me

AI 최신 트렌드 2026.01.08 08:59

- 초기 학습을 통해서 Agent의 작업경험 추출 방법, 사용, Refinement 방법론 관련해서 제안- 여러 실험을 통한 최적의 방법론 제안 - 추출 프롬프트 제공함 - 단, consolidation 관련 부분은 내용이 부족함1. 논문 기본 정보제목: Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution저자(학교, 기관): Zouying Cao (Shanghai Jiao Tong University), Jiaji Deng, Li Yu, Weikang Zhou, Zhaoyang Liu, Bolin Ding (Tongyi Lab, Alibaba Group), Hai Zhao (Sh..

중국 오픈소스 AI 모델 비교

AI 최신 트렌드 2025.12.30 20:36

핵심 요약GLM 4.7: 355B 총 파라미터, 32B 활성 (MoE), Preserved Thinking 기능, 코딩과 에이전트 작업에 특화Kimi K2: 1T 총 파라미터, 32B 활성 (MoE), MuonClip 옵티마이저, 에이전틱 AI에 최적화MiMo V2: 309B 총 파라미터, 15B 활성 (MoE), 하이브리드 어텐션과 Multi-Token Prediction으로 150 tok/s 달성DeepSeek V3.2: 685B 총 파라미터, 37B 활성 (MoE), DeepSeek Sparse Attention으로 효율성 향상, GPT-5 수준MinMax M2.1: 230B 총 파라미터, 10B 활성 (MoE), 가장 가벼운 SOTA 모델, Digital Employee 컨셉모델 기본 사양 비교모..

MiniMax 모델

AI 최신 트렌드 2025.12.30 15:53

MiniMax 모델 핵심 요약중국 상하이 기반 AI 스타트업, 2021년 12월 설립, 25억 달러 가치M2.1 모델은 230B 파라미터 중 10B만 활성화하는 MoE 구조로 효율 극대화SWE-bench Verified 74.0점으로 Claude Sonnet 4.5 능가가격은 Claude의 약 8~10% 수준으로 비용 효율적멀티언어 프로그래밍(Rust, Java, Go 등) 특화MiniMax 회사 정보MiniMax는 중국 상하이에 본사를 둔 AI 스타트업으로, 다음과 같은 특징을 가지고 있습니다.설립 배경설립 시기: 2021년 12월창립자: SenseTime(센스타임) 출신 컴퓨터 비전 전문가들기업 가치: 약 25억 달러 (2024년 기준)별칭: 중국의 "AI Tiger" 기업 중 하나투자 현황주요 투자..

샤오미 모델 MiMo

카테고리 없음 2025.12.30 15:49

샤오미 AI 모델 개발 핵심 요약MiMo 시리즈: 2025년 4월 첫 공개된 오픈소스 추론 모델로 AI 경쟁에 본격 진입다양한 특화 모델: 언어(MiMo-7B), 비전-언어(MiMo-VL), 체화 AI(MiMo-Embodied), 스마트홈(MiMo-VL-Miloco) 등핵심 인재 영입: DeepSeek 출신 루 푸리(Luo Fuli)를 2025년 11월 MiMo 팀장으로 영입대규모 투자: 향후 5년간 R&D에 2000억 위안(약 38조원) 투자 계획AGI 지향: "사람-자동차-집" 생태계를 연결하는 범용 AI 플랫폼 구축 목표샤오미 AI 모델 개발 개요샤오미는 2025년 4월부터 본격적으로 AI 모델 개발에 진입하여, **MiMo(Mi Model)**라는 브랜드로 다양한 AI 모델을 공개했습니다. 이는 ..

RLVR 기술(Reinforcement Learning with Verifiable Rewards)

AI 최신 트렌드 2025.12.30 15:13

- RLVR은 검증 가능한 보상을 활용한 강화학습 기술로, 2024년 DeepMind에서 개발한 수학 문제 해결을 위한 혁신적인 방법- 기존 RLHF(인간 피드백 기반 강화학습)의 한계를 극복하기 위해 자동으로 검증 가능한 보상 신호를 사용- 특히 Gemini 2.0 Flash Thinking 모델에 적용되어 수학적 추론 능력을 크게 향상- 인간 피드백 없이도 자가 개선이 가능하며, 프로그래밍, 수학 등 명확한 정답이 있는 도메인에서 효과적 방법1. 기술 개요**RLVR (Reinforcement Learning with Verifiable Rewards)**은 대규모 언어 모델(LLM, Large Language Model)의 추론 능력을 향상시키기 위해 검증 가능한 보상 신호를 활용하는 강화학습 방법..

ABOUT ME

축적의 시간 축적의 시간

리스트 : 콘텐츠가 있으면 최근 5건을 불러옵니다.

갤러리: 콘텐츠가 있으면 최근 4건을 불러옵니다.

티스토리툴바