PASK: Toward Intent-Aware Proactive Agents with Long-Term Memory
论文链接:https://arxiv.org/pdf/2604.08000
代码链接:https://github.com/xzf-thu/Pask
摘要
主动性是通用人工智能(AGI)的核心期望。以往的研究大多局限于实验室环境,在现实世界的主动智能体方面存在明显的不足:深度、复杂性、模糊性、精确性和实时性等约束。我们研究了这一场景,其中有效的干预需要从持续的上下文中推断潜在需求,并在延迟和长期约束下,将行动建立在不断演变的用户记忆之上。我们首先提出 DD-MM-PAS (Demand Detection, Memory Modeling, Proactive Agent System) 作为流式主动人工智能智能体的通用范式。我们在 Pask 中实现了这一范式,其中 DD 采用流式 IntentFlow 模型,MM 采用混合记忆(工作区、用户、全局),PAS 采用基础架构框架,并阐述了这些组件如何构成一个闭环。我们还引入了 LatentNeeds-Bench,这是一个基于用户同意的数据构建的真实世界基准测试,并经过数千轮人工编辑的完善。实验表明,在延迟约束下,IntentFlow 能够与领先的 Gemini3-Flash 模型相媲美,同时还能识别更深层次的用户意图。
1.Introduction

通用人工智能(AGI)的长期目标是构建具有广泛、人类水平智能的系统,使其能够在开放世界中感知、推理和行动。近年来,多方面的进展推动了这一目标的实现。面向推理的模型提升了决策能力,统一基础模型缩小了不同模态之间的差距,而智能体系统则将规划、执行和适应整合到一个循环中。与此同时,新兴的人工智能技能表明,其能力超越了狭隘的特定任务行为,展现出更强的可迁移性和组合性。然而,目前大多数系统仍然以“你问,我答”的模式运行。我们认为,这造成了两个根本性的局限:一是与现实世界中智能的使用方式不匹配;二是信息瓶颈阻碍了人工智能对人类的深入理解。
从应用层面来看,现实世界中的智能受到时机、上下文与人为因素的制约。正如俗语“天时、地利、人和”所概括的那样,当前 AI 的交互模式在实际场景中往往会失效。在严格的时间约束下,例如观看视频或参与实时对话时,用户通常无法停下来向 AI 系统发起查询(天时)。在对上下文高度敏感的场景中,例如会议或社交环境中,调用 AI 可能会显得尴尬或具有干扰性(地利)。即使 AI 可用,要有效地使用它仍需要付出大量努力:用户必须识别自身意图、组织提示词,并适应一种高度明确且理性的交互方式,而许多人并不自然地使用这种方式(人和)。更广泛地说,如果 AI 要继续演进,它必须超越被动式的问答交互,并建立在共享的人类感知经验之上。这种转变将使 AI 从一个被动反应工具,变成一个能够预判用户需求并通过闭环数据飞轮不断改进的系统。
这些局限表明,仅仅扩展模型能力还远远不够。正如图 1 所示,主动式 AI(proactive AI)正在成为一种新的交互范式:模型能够实时感知上下文并及时提供帮助,从被动响应者转变为主动参与者。近期研究已经在特定领域探索了这一方向,包括编程辅助(Chen et al., 2025)、计算机操作辅助以及协作式游戏。然而,现有工作仍然主要聚焦于狭窄场景,并且大多在受控环境中进行评估,对于泛化能力以及现实世界关键需求(例如交互深度、实时响应性,以及动态环境中的鲁棒性)缺乏充分研究。更重要的是,当前系统尚未提供一种可持续演化的记忆机制,能够长期积累对用户的理解,并随着时间推移不断适应用户。
总体而言,我们识别出四个尚未解决的挑战:
- 如何定义一种通用且可能统一的主动式 AI 范式;
- 如何实现其核心能力,即在连续实时输入下,以低延迟且准确地检测用户的潜在需求;
- 如何为主动式智能体配备可演化的记忆机制,使其能够积累对用户的理解、随时间适应用户,并支持超越传统聊天机器人系统的人机长期协同进化;
- 如何构建一个具备稳定性能与低延迟的鲁棒系统,使主动式 AI 能够在现实世界应用中可靠运行,并支持持续改进。
在本文中,我们提出了 Pask,一个被设计为完整技术栈而非若干独立模块集合的主动式 AI 系统。我们的核心观点是,主动智能应当从四个层面协同研究:范式、核心能力、长期适应性以及系统实现。具体而言,我们做出了四项相互关联的贡献:(1) 我们提出了 DD-MM-PAS,一种面向主动式 AI 的通用架构;(2) 在该架构中,我们引入了 IntentFlow,一种用于实时需求检测的流式结构基础模型;(3) 我们设计了一种混合协同进化记忆系统(hybrid co-evolving memory system),用于跨会话的持续用户理解;(4) 我们将这些组件实现为一个完整可运行的端到端系统,能够在现实场景中提供实际价值。
我们首先提出 DD–MM–PAS(如图 2所示),作为一种面向主动式 AI 的通用范式,其包含三个核心组件。需求检测(Demand Detection, DD) 是主动式能力的核心:它持续接收实时信号,并利用结构化用户画像推断用户的潜在需求,使 AI 能够主动发起帮助,而不是被动等待请求。记忆模块(Memory Module, MM) 通过反复使用积累长期用户记忆,使主动式 AI 能够通过持续感知与经验建立“个人级”的用户理解。这超越了传统以问题为中心的被动式 AI,后者只能对孤立查询作出响应。主动式智能体系统(Proactive Agent System, PAS) 提供持续在线的执行循环,用于处理信息融合、并发任务执行以及基于反馈的更新,充当整个系统的骨干。
在这一框架的核心是需求检测,我们将其视为主动式 AI 的定义性能力。为支持这一能力,我们提出了 IntentFlow,一种专门面向主动场景构建的高速需求检测模型。IntentFlow 将用户画像、显式目标以及上下文场景作为系统指令输入,并持续处理流式输入,以决定系统是否以及如何在用户需求演化过程中进行干预。
为了训练 IntentFlow,我们通过精心设计的数据流水线,结合合成数据与真实世界采集数据,构建了一个包含 10.2 万样本的数据集。我们首先采用有监督微调(Supervised Fine-Tuning, SFT)训练模型,随后再进行强化学习(Reinforcement Learning, RL),从而使模型能够在实时条件下实现准确的需求识别与稳定的决策能力。
记忆是主动式 AI 的另一关键组成部分,因为长期适应能力不仅仅意味着一次处理一个查询。因此,我们提出了一种混合式记忆架构(hybrid memory architecture),以在即时性、完整性与可扩展性之间取得平衡。用户记忆(User Memory)(类似缓存 cache)存储稳定的用户特征以及最新观察到的关键信号,并作为需求检测的主要参考;工作区记忆(Workspace Memory)(类似工作内存 working memory)保存单次交互会话中的全部信息;它通过需求检测模型的上下文窗口实现,并由专门的记忆智能体持续组织;全局记忆(Global Memory)(类似外部存储 external storage)则实现为一个基于 LLM-RAG 的系统,用于增量式积累长期使用数据,并在需要时检索相关历史经验。这三层结构共同使记忆从一个被动存储单元,转变为支持长期人机协同进化的主动机制。
除了各个独立组件之外,我们还将主动式智能体系统(PAS)实现为一个在线系统,它集成了面向用户的前端、可扩展的服务器后端以及 AI 后端。该系统包含超过 20 个模型与智能体,以及 10 多个核心工程模块,为 DD–MM–PAS 范式提供稳定的运行环境,并支持其在真实世界场景中的持续部署。
总而言之,我们的贡献体现在以下四个方面:
- 主动式人工智能范式。我们提出了 DD–MM–PAS,这是一种结构化的主动式人工智能范式,它将需求检测、基于记忆的用户建模和始终在线的 Agent 执行统一到一个连贯且可扩展的架构中。
- IntentFlow 模型、数据管道、训练方案和开放基准测试。我们引入了 IntentFlow,这是一个用于主动辅助的超快速基础模型,以及一个数据整理管道,该管道利用合成数据和真实世界数据生成一个 10.2 万个用户的数据集。此外,我们还提供了一个混合 SFT-RL 训练方案,用于在流式输入下进行精确、低延迟的需求检测。我们还发布了一个开放基准测试,以支持该领域更严格、更标准化的评估。
- 协同演化的记忆系统。我们设计了一种混合记忆架构,它通过持续积累和选择性检索用户体验,支持持久的、人格层面的理解,从而超越以查询为中心的交互,走向长期协同演化。
- 一个完整的、可部署的系统。我们展示了一个功能齐全的端到端系统,包括前端交互、后端编排和人工智能基础设施,并展示了如何在现实世界环境中稳定地实现主动智能。

2.DD-MM-PAS: A Paradigm for Proactive AI
主动性不仅是智能系统的理想特性,在许多现实场景中也是一项实际必需,因为延迟援助往往意味着失败。然而,现有的人工智能系统大多仍局限于被动模式,在持续推断潜在人类意图以及通过记忆随时间推移发展个性化理解方面进展有限。
我们提出了一种名为 DD-MM-PAS 的主动式人工智能范式,它基于三个不可或缺的组件:DD 用于需求检测,MM 用于记忆建模,PAS 用于主动式 Agent 系统。这三个组件共同构成了人工智能系统在接收到明确指令之前感知、理解和提供帮助所需的最小结构。
2.1 Problem Formulation
我们将人机交互建模为一个随时间推移的连续决策过程。在每个时刻 ,系统会观察到不断演变的多模态上下文,并必须判断是否需要干预、何种形式的辅助更为合适,以及这种辅助是否值得承担中断的风险。与被动式人工智能(仅在收到明确查询后才采取行动)不同,主动式人工智能必须直接从持续的上下文中推断潜在需求,并及时、精准地做出响应。
目标是最大化主动式人工智能的预期收益 :
其中,
- 表示时刻 的潜在用户需求;
- 表示系统产生的援助;
- 衡量所提供的援助在满足潜在需求方面的效用;
- 衡量不必要、时机不当或方向错误干预的成本;
- 控制着帮助性和侵入性之间的权衡;
- 是时间衰减因子。
这种表述强调,主动式人工智能的本质是在不确定性下优化干预的问题:系统必须在需要时提供有效的帮助,而在无需干预时保持沉默。这反过来又需要 DD、MM 和 PAS 的共同支持。
2.2 The DD-MM-PAS Paradigm
DD-MM-PAS 将主动智能分解为三个相互关联的功能:DD、MM 和 PAS。其核心前提是,主动性并非仅仅源于响应生成,而是源于需求推断、个性化理解和执行能力的协调整合。
Demand Detection (DD) 判断当前上下文是否暗示潜在的求助需求,并直接推断用户的潜在意图和需求。它作为主动式人工智能的感知入口点,将连续的多模态观测转化为关于是否需要干预的可操作判断。
Memory Modeling(MM) 能够持续构建用户随时间演变的表征。它使系统能够根据用户积累的个人背景信息来解读当前的观察结果,从而使主动行为建立在个性化理解而非通用模式匹配之上。
Proactive Agent System(PAS) 提供运行基础架构,将推断出的需求转化为有效的帮助。它通过协调使用外部工具、计算资源和更强大的下游模型来支持行动执行,从而使主动帮助切实可行。
3.Pask-DD: IntentFlow

本节介绍 Pask-DD 的核心组件 IntentFlow。与传统的语音助手仅在用户明确提出查询后才做出响应不同,IntentFlow 旨在通过与用户即将产生的意图相匹配,从当前信息流中预测用户的帮助需求。我们的目标不仅是生成有用的回复,更是要让大语言模型能够根据交互上下文、任务指令和记忆信息,推断用户在当前时刻可能需要什么。
我们将 IntentFlow 构建为一个基于文本信息流的端到端需求检测框架。给定最新的信息片段,该模型首先预测三种决策状态之一:静默、快速干预或全面协助。这三种状态分别对应于保持不活动、根据当前上下文提供即时低延迟响应以及在做出最终决策前调用基于记忆的推理。
如图 3 所示,为了支持这一过程,IntentFlow 采用了双模型架构:Demand Detector 负责上下文理解、意图预测和最终的人类需求生成,而 MemLoader 则处理检索到的记忆并提炼出与检测器相关的证据。本节的剩余部分将分别介绍 IntentFlow 的架构、数据整理和训练流程。
3.1 Model Architecture

为了实现精准的意图识别和基于记忆的个性化辅助,我们将 IntentFlow 构建为一个实时、轮流进行的主辅助架构。主模型 Demand Detector 基于 Qwen3-30B-A3B-Instruct 架构,辅助模型 MemLoader 基于 Qwen3-4B-Instruct 架构。记忆提取机制本身将在第 4 节中介绍;此处我们重点关注在线交互过程。
在对话步骤 ,系统接收最新的文本信息片段 、多轮交互历史记录 以及外部记忆 。Demand Detector 首先预测决策 token。
分别对应于无干预、来自当前上下文的直接低延迟协助以及基于记忆的推理。如果 ,系统保持非活动状态。如果 ,系统会立即响应正在进行的交互。如果 ,系统会调用记忆路径:将最近的上下文总结为观察摘要 和一组显著实体 ,用于构建检索查询;然后由 MemLoader 精炼检索到的证据,并将其返回给需求检测器以生成最终响应或决定不响应。形式上,
其中, 表示由 MemLoader 生成的精炼记忆证据,而 可以返回一个响应,也可以返回 ,如果检索到的证据不足以支持进行干预。这样的设计将主动式辅助建模为一个基于不断增长的交互历史的在线决策过程,同时能够灵活协调直接响应与基于记忆的推理。不同决策模式下的系统行为如图 4所示。
Silent。当需求检测器(Demand Detector)预测为 <silent> 时,IntentFlow 不会产生任何输出,而是等待下一轮对话。这种模式能够避免不必要的打扰,并在用户状态并未显示出明显辅助机会时,保持自然的交互节奏。
Fast intervention。当模型预测为 <fast_intervention> 时,它会直接基于最新输入流以及最近的交互上下文生成辅助,而无需访问外部记忆。该路径适用于明确且短期的需求,例如解释一个概念、说明一条指令,或处理一个局部即可解决的请求。由于所需证据已经存在于当前交互中,因此该模式在保持响应性的同时,能够最大限度地降低延迟。
Full assistance。当需求检测器输出 <full_assistance> 时,系统会进入一个基于记忆支撑的推理流程,以实现个性化的主动辅助。一个基于 LLM 的智能体首先处理最近的上下文,以提取观测摘要 与关键实体 。这些信号会与最新输入以及交互历史结合,形成一个检索查询,并发送至 Pask-MM 模块:
由于检索得到的证据仍可能包含冗余或相关性较弱的内容,MemLoader 会进一步将其蒸馏为一个紧凑的核心信息集合:
随后,该结果会返回给需求检测器,用于最终决策。在这一模式下,当基于记忆的证据支持进行干预时,模型会生成个性化响应;而当更深层的推理表明无需辅助时,系统则会保持静默。
3.2 Data Curation

高质量的用户意图数据对于训练 IntentFlow 至关重要,它能够直接识别用户的潜在需求,而无需依赖显式的角色扮演式推理。现有模型通常需要额外的推理步骤来推断用户的需求,这与主动辅助所需的低首词延迟相冲突;此外,即使经过这样的推理,推断出的需求也往往不够深入或不可靠。为了克服这一局限性,我们采用了一种两阶段的数据中心策略:首先,我们通过大规模、高质量的监督学习将推理过程内化,使意图理解成为一种高效的前向预测,而非代价高昂的显式思考步骤;然后,我们通过强化学习进一步使模型与更深层次的人类意图相契合,从而实现比单纯监督学习更准确、更细致的主动辅助。
为了支持这一策略,我们构建了 LatentNeeds 数据集,该数据集包含 100k 个用于有监督式微调的合成样本和 2.1K 个从用户收集的真实世界会话。在这些真实世界数据中,2k 个会话用于强化学习对齐,而剩余的 100 个会话则用于基准测试的构建。数据集组成、生成流程和训练策略的概览如图 5 所示。
3.2.1 LatentNeeds-100k for Finetuning
3.2.2 LatentNeeds-2K for Intent-alignment Reinforcement Learning
3.3 Training Procedure
我们采用两阶段训练策略(图 5),包括单独的有监督微调和强化学习,以实现更深层次的意图对齐。
3.3.1 Separate supervised fine-tuning
我们首先使用 LatentNeeds-100k 数据集分别独立训练 Demand Detector 和 MemLoader,并根据各自的角色定制监督目标。对于 Demand Detector,输入包括人类背景信息 、交互上下文 、信息历史 和前一个决策序列 ,模型训练目标是预测当前决策 token 和相应的辅助内容 。其训练目标定义为 。为了提高模型在长交互范围内的鲁棒性,我们采用基于对话长度的训练计划,分三个阶段逐步扩展训练范围,直至达到 15 轮。对于 MemLoader,其输入包括人类背景 、交互上下文 、信息历史 以及 Pask-MM 模块返回的已检索记忆候选对象 。该模型经过训练,能够为当前步骤生成精心整理的记忆输出 ,目标函数为 。这一独立的监督式微调阶段建立了意图检测、需求生成和记忆提炼的基本能力,为后续的强化学习以实现更深层次的意图对齐奠定了基础。
3.3.2 Reinforcement learning for deep human intent alignment
我们进一步将强化学习应用于基于真实世界数据构建的 LatentNeeds-2K 数据集,以扩展 IntentFlow,使其更深入地贴合真实的人类意图。在此阶段,我们联合优化 Demand Detector 和 MemLoader,使整个系统能够在真实的交互动态下调整其干预决策和基于记忆的辅助功能。我们的强化学习阶段采用 DAPO 设置。
-
Rule-based reward:我们对那些可以精确验证的方面采用基于规则的奖赏机制。具体来说,奖赏机制会检查模型是否输出有效的特殊 token 和格式良好的需求,以及干预是否发生在适当的时机。这些信号为输出格式和干预时机提供了稳定的监督。
-
Model-based reward:对于无法明确规定规则的方面,我们采用 LLM-as-a-judge 的协议。评估者从三个维度对生成的需求进行评分:一致性,衡量与参考需求的一致性;合理性,衡量需求在当前情境下是否合理;以及必要性,衡量干预措施是否真正有用而非多余。每个维度的得分范围为 1 到 5,基于模型的奖赏计算如下:
其中 是三个评分,、 和 是它们对应的权重。最终奖励是基于规则的奖励和基于模型的奖励之和。
4.Pask-MM: Self-Evolving Hierarchical Memory Modeling
主动式人工智能系统必须精准预测人类需求,才能提供非侵入式辅助。为了实现高保真度的认知分析,其基础在于动态的、自演化的记忆架构。本节将介绍 PASK-MM,它是 Pask 系统的核心记忆模块。我们的目标是应对主动式记忆建模中的四个基本挑战:i) 处理来自长期实时输入的海量连续 token 流;ii) 在严格限制的延迟下运行,延迟时间不超过一秒;iii) 确保高决策准确率,避免干扰性干预;以及 iv) 基于长期交互数据实现持续、可扩展的演化,同时避免计算爆炸。
为了满足这些约束条件,我们从经典计算机体系结构中汲取灵感,将 PASK-MM 设计为一个分层的 “Cache–Main Memory–External Storage” 系统。其关键设计特点是采用有界树状结构表示,涵盖从粗粒度上下文抽象到细粒度语义记录的整个过程。为了在物理层面上解决多级树遍历与亚秒级延迟之间的矛盾,我们将即时状态推理与深度历史检索解耦。该系统采用异步的由粗到细遍历,并结合检索增强生成(RAG)技术。最后,我们引入了一种有界自演化策略,该策略包含冲突解决、记忆衰减和延迟合并机制,确保记忆系统在长期部署过程中保持稳定且紧凑的状态。
4.1 Architecture Definition

Pask-MM 的架构由高精度和实时响应的双重需求驱动。我们根据功能访问频率将该框架分为三个不同的组件:用户记忆 ()、工作区记忆 () 和全局记忆 ()。该框架如图 6 所示。
(User Memory as Cache)。用户背景决定了主动辅助的范式。我们将 设计为一个高优先级、高密度的缓存,直接注入到系统提示中。它是一种严格控制的用户画像表示,概括了用户的稳定属性(例如,领域专业知识、个性化阈值和行为先验)。通过利用 key-value 缓存重用, 提供了一个可立即访问的用于推理的零延迟用户模型。
(Workspace Memory as Main Memory)。在活跃的交互生命周期中, 维护 session 级的局部动态。类似于主记忆,它会随着活跃的推理过程不断更新。 会缓存对话历史、中间环境变量和内部系统状态,确保智能体将其即时处理与正在进行的任务紧密结合,同时保持短期的时间连贯性。
(Global Memory as External Storage)。 存储了完整的交互历史记录,用于验证假设、检索上下文知识和跟踪长期项目。 被形式化为一个有根树 。每个内部节点 存储一个语义标签 tag(),表示一个层级抽象。每个叶节点 携带一个有效 payload。
其中 表示细粒度标签, 表示上下文内容。这种拓扑结构通过 RAG 同时支持可扩展的宏摘要和精确的微检索。
4.2 Memory Access and Inference Mechanism
4.3 Memory Self-Evolution and Maintenance
5.Pask-PAS: System Implementation

本节将介绍 Pask-PAS 的组成部分。从硬件接口和运行时基础设施到记忆、Agent 执行和前沿模型,PAS 将整个系统栈连接成一个始终在线的感知、理解和行动循环。整体结构如图 7 所示。
Frontend Layer。将 PAS 连接到最能自然承载人类上下文的设备——AI 眼镜、电脑和手机——以便系统可以直接共享用户的感知流。
Server Backend。为稳定的协调和记忆管理提供运行时基础。控制层通过通信、调度、冲突隔离、资源协调和反馈循环,确保 PAS 作为始终在线的多进程运行时保持稳定。数据层为 Pask-MM 提供基础,通过生产级数据基础设施(例如 Redis 式热状态管理和基于对象存储/向量存储的长期持久化)实现用户配置文件、运行记忆、全局记忆和用户文件。
AI Backend。赋予 PAS 智能体智能,使其不仅能够感知和响应,还能通过工具使用和专家策略主动完成有用的工作。在此,需求检测只是桥梁——IntentFlow 决定人类的意图需求,而实际的帮助则由前沿模型池执行,包括但不限于 Vision Captioning 模型(如 Qwen3-VL、DeepSeek-VL2、GPT-5 和 Gemini3-pro);Speech Recognition 模型(如 Whisper、Qwen3-ASR、Paraformer 和 SenseVoice);LLM(如 Qwen3、IntentFlow 和 Gemini3-flash);以及其他基础模型,例如 Emotion-Thinker、 Omni-Captioner、VAD(语音活动检测)和 SpeakerLM。本文探索了更贴近实际场景的主动式人工智能,其中有效的辅助功能依赖于从持续的上下文中推断用户的潜在需求,并利用不断演变的用户记忆。为了支持这种场景,我们提出了 Pask,一个集成了 DD-MM-PAS 范式、用于需求检测的 IntentFlow 模型以及用于长期个性化的三级记忆模块的主动式人工智能系统。我们还引入了 LatentNeeds-Bench 作为基准,用于研究真实世界条件下的主动式辅助功能。实验结果表明,在延迟约束下,IntentFlow 可以达到具有竞争力的性能,并且在某些情况下能够识别出不太明确或上下文更深层次的用户意图。
总体而言,我们的研究结果表明,主动辅助可能是超越纯粹被动式人工智能交互的一个有前景的方向。这项工作强调了在统一的框架下,将需求检测、记忆和系统设计结合起来进行研究的潜在价值,而不是将主动性视为一种独立的能力。我们希望 Pask 及其配套的基准测试能够为未来关于主动式人工智能和长期人机交互的研究提供有益的基础。