电影《钢铁侠》中欧洲杯app,托尼 · 斯塔克的助手贾维斯(J.A.R.V.I.S.)能帮他限度多样系统并自动完成任务,曾让无数不雅众讴颂不已。
当今,这么的超等智能助手,终于变成现实了!
跟着多模态大说话模子的爆发式进化,OS Agents横空出世,它们能无缝操控电脑和手机,为你自动处理繁琐任务。
从 Anthropic 的 Computer Use,到苹果的 Apple Intelligence,再到智谱 AI 的 AutoGLM,以及 Google DeepMind 的 Project Mariner,科技巨头们的贪念都指向了消释个意见:打造信得过真谛上的操作系统智能助手。
OS Agents 依然不单是是"助手",它们正在改写"东说念主机交互"的游戏法例。
最近,浙江大学联手OPPO、零一万物等十个机构共同梳理了一篇综述著作《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》,不仅详备解读了 OS Agents 的硬核本事构造,还清点了它们的评估方法和翌日挑战。
科技行业的下一个新风口,会是 OS Agents 吗?
OS Agents 买卖学术同期迸发
像贾维斯这么的超等 AI 助手,一般被称为OS Agents,它们大要通过操作系统(OS)提供的环境和接口(如图形用户界面,GUI),在诸如电脑或者手机等狡计建设上自动化的完成千般任务。
OS Agents 有浩大的后劲改善全球数十亿用户的生涯,念念象一个天下:在线购物、预订差旅等平方举止都不错由这些智能体无缝完成,这将大幅提妙手们的生涯效用和分娩力。
往常,诸如 Siri [ 1 ] 、Cortana [ 2 ] 和 Google Assistant [ 3 ] 等 AI 助手,依然展示了这一后劲。可是,由于模子智商在往常较为有限,导致这些产物只可完成有限的任务。
红运的是,跟着多模态大说话模子的不停发展,如 Gemini [ 4 ] 、GPT [ 5 ] 、Grok [ 6 ] 、Yi [ 7 ] 和 Claude [ 8 ] 系列模子(排行阐发 2024 年 12 月 22 日更新的 Chatbot Arena LLM Leaderboard [ 9 ] ),这一限制迎来了新的可能性。
( M ) LLMs 展现出令东说念主瞩目的智商,使得 OS Agents 大要更好地意会复杂任务并在狡计建设上施行。
基础模子公司和手机厂商近期在这一限制动作同样,举例最近由 Anthropic 推出的 Computer Use [ 10 ] 、由苹果公司推出的 Apple Intelligence [ 11 ] 、由智谱 AI 推出的 AutoGLM [ 12 ] 和由 Google DeepMind 推出的 Project Mariner [ 13 ] 。
其中,Computer Use 哄骗 Claude [ 14 ] 与用户的狡计机径直互动,不错末端无缝的任务自动化。
与此同期,学术界依然提议了多样方法来构建基于 ( M ) LLM 的 OS Agents。
举例,OS-Atlas [ 15 ] 提议一种 GUI 基础模子,通过跨多个平台概述 GUI 操作数据,大幅更正了模子对 GUI 的操作智商,提高 OOD 任务的发挥。
而 OS-Copilot [ 16 ] 则是一种 OS Agents 框架,大要使智能体在少监督情况下末端无为的狡计机任务自动化,并展示了其在多种应用中的泛化智商和自我更正智商。
△OS Agents 的部分代表性买卖产物与学术研究
本文是对 OS Agents 进行的一次全面综述。
领先阐扬 OS Agents 的基础,探讨了其短处成分,包括环境、不雅察空间和动作空间,并概述了意会、运筹帷幄和施行操作等中枢智商。
接着,疑望了构建 OS Agents 的方法,要点关怀 OS Agents 限制特定的基础模子和智能体框架的诱骗。
随后,著作详备总结了评估左券和基准测试,展示了 OS Agents 在多种任务中的评估形状。
终末,著作商榷了面前的挑战并指出翌日研究的潜在意见,包括安全与秘籍、个性化与自我进化。
本文旨在梳理 OS Agents 研究的近况,为学术研究和工业诱骗提供匡助。
为了进一步鼓舞该限制的立异,团队还讴颂了一个开源的 GitHub 仓库,包含 250+ 关系 OS Agents 的论文以偏激他关系资源,何况仍在不绝更新中。(连络在著作末尾~)
△OS Agents 基础:短处成分和中枢智商 OS Agents 基础短处成分 ( Key Component )
要末端 OS Agents 对狡计建设的通用限度,需要通过与操作系统提供的环境、输入和输出接口进行交互来完成意见。
为得志这种交互需求,现存的 OS Agents 依赖三个短处成分:
环境(Environment):智能体操作的系统或平台,举例电脑、手机和浏览器。环境是智能体完成任务的舞台,撑持简略单的信息检索到复杂的多要道操作。
不雅察空间(Observation Space):智能体可取得的统统信息领域。这些信息诸如屏幕截图、文本刻画或 GUI 界面结构,是智能体意会环境和任务的基础。举例,网页的 HTML 代码或手机的屏幕截图。
动作空间(Action Space):智能体与环境交互的动作集结。它界说了可施行的操作,如点击、输入文本、导航操作致使调用外部器具。这使得智能体大要自动化完成任务并优化使命流。
中枢智商 ( Capability )
在 OS Agents 的这些短处成分后,何如与操作系统正确、有用的交互,这就需要熟习 OS Agents 自己各方面的智商。
OS Agents 必须掌捏的中枢智商不错总结为如下三点:
意会(Understanding):OS Agents 领先需要意会复杂的操作环境。非论是 HTML 代码、屏幕截图,照旧屏幕界面中密集的图标和文本信息,智能体都需要通过意会智商索取短处内容,构建对任务和环境的全面领略。这种意会智商是处理信息检索等任务的前提。
运筹帷幄(Planning):在职务施行中,OS Agents 的运筹帷幄智商至关遑急。运筹帷幄智商条目 OS Agents 将复杂任务拆解为多个子任务,并制定操作序列来末端意见。同期,它们最佳还要大要据环境变化动态调整规画,以符合复杂的操作系统环境,举例动态网页和实时更新的用户屏幕界面。
操作(Grounding):OS Agents 最终需要将运筹帷幄转动为具体的、可施行的操作,举例点击按钮、输入文本或调用 API。这种将运筹帷幄"落地"的智商使得它们大要在果然环境中高效完成任务,并末端从翰墨刻画到操作施行的精确养息。
OS Agents 的构建基础模子 ( Foundation Model )
要构建大要高效施行任务的 OS Agents ,其中枢在于诱骗适配的基础模子。
这些模子不仅需要意会复杂的屏幕界面,还要在多模态场景下施行任务。
底下是对基础模子的架构与素养计策的详备归纳与总结:
△OS Agents 基础模子:架构、预素养、监督微长入强化学习
架构(Architecture):咱们将主要的模子架构分为四个类别:1、Existing LLMs:径直接管开源的大说话模子架构,将结构化的屏幕界面信息以文本状貌输入给 LLMs,从而使得模子不错感知环境;2、Existing MLLMs:径直接管开源的多模态大说话模子架构,整合文本和视觉处聪敏商,提高对 GUI 的意会智商,减少文本化视觉信息而形成的特征亏欠;3、 Concatenated MLLMs:由 LLM 与视觉编码器桥接而成,生动性更高,不错阐发任务需求遴荐不同的说话模子和视觉模子进行组合;4、Modified MLLMs:对现存 MLLM 架构进行优化调整,以解决特定场景的挑战,如:添加出奇模块(高分别率视觉编码器或图像分割模块等),以更精细地感知和意会屏幕界面细节。
预素养(Pre-training):预素养为模子构建打下基础,通过海量数据提高对屏幕界面的意会智商。数据源包括大众数据集、合成数据集;预素养任务消散屏幕定位(Screen Grounding)、屏幕意会(Screen Understanding)与光学字符识别(OCR)等。
监督微调(Supervised Fine-tuning):监督微调让模子更贴合 GUI 场景,是提高 OS Agents 运筹帷幄智商和施行智商的遑急技巧。举例,通过记载任务施行轨迹生成素养数据,或哄骗 HTML 渲染屏幕界面细节,提高模子对不同 GUI 的泛化智商。
强化学习(Reinforcement Learning):现阶段的强化学习末端了用 ( M ) LLMs 动作特征索取到 ( M ) LLM-as-Agent 的范式改造,匡助了 OS Agents 在动态环境中交互,阐发奖励响应,不停优化决策。这种方法不仅提高了智能体的对王人进度,还为视觉和多模态智能体提供了更强的泛化智商与任务适配性。
近期 OS Agents 基础模子的关系论文总结如下:
△OS Agents 基础模子近期研究使命总结智能体框架 ( Agent Framework )
OS Agents 除了需要强劲的基础模子,还需要搭配上 Agent 框架来增强感知、运筹帷幄、驰念和行动智商。
这些模块协同使命,使 OS Agents 大要高效支吾复杂的任务和环境。
以下是 OS Agents 框架中四大短处模块的总结归纳:
△OS Agents 框架:感知、运筹帷幄、驰念和行动
感知(Perception):感知动作 OS Agents 的"眼睛",通过输入的多模态数据(如屏幕截图、HTML 文档)不雅察环境。咱们将感知细分为:1、文本感知:将操作系统的景况转动为结构化文本刻画,如 DOM 树或 HTML 文献;2、屏幕界面感知:使用视觉编码器对屏幕界面截图进行意会,通过视觉定位(如按钮、菜单)和语义结合(如 HTML 符号)精确识别短处元素。
运筹帷幄(Planning):运筹帷幄动作 OS Agents 的"大脑",发达制定任务的施行计策,不错分为:1、全局运筹帷幄:一次生成好意思满规画并施行;2、迭代运筹帷幄:跟着环境变化动态调整规画,使智能体大要符合实时更新的屏幕界面和任务需求。
驰念(Memory):OS Agents 框架的"驰念"部分不错匡助存储任务数据、操作历史和环境景况。驰念分为三个类型:1、里面驰念(Internal Memory):存储操作历史、屏幕截图、景况数据和动态环境信息,撑持任务施行的高下文意会和轨迹优化。举例,借助截图解析屏幕界面布局或阐发历史操作生成决策;2、外部驰念(External Memory):提供永久学问撑持,举例通过调用外部器具(如 API)或学问库取得限制布景学问,赞成复杂任务的决策;3、特定驰念(Specific Memory):聚焦于特定任务的学问和用户需求,举例存储子任务明白方法、用户偏好或屏幕界面交互功能,提供高度针对性的操作撑持。此外,咱们还总结了多种驰念优化计策。
行动(Action):咱们将 OS Agents 的行动领域界说为动作空间,这包含操作系统交互的形状,咱们将其细分为三个类别:1、输入操作:输入是 OS Agents 与数字屏幕界面交互的基础,主要包括鼠标操作、触控操作和键盘操作;2、导航操作:使 OS Agents 大要探索和迁移于意见平台,取得施行任务所需的信息;3、扩张操作:冲破了传统屏幕界面交互的狂放,为智能体提供更生动的任务施行智商,举例:代码施行与 API 调用。
近期关系 OS Agents 框架的论文总结如下:
△OS Agents 框架近期研究使命总结 OS Agents 的评估
在 OS Agents 的发展中,科学的评估起到了短处作用,匡助诱骗者辩论智能体在多样场景中的性能。
底下的表格总结了近期关系OS Agents 评估基准的论文:
△OS Agents Benchmark 近期研究使命总结评估左券 ( Evaluation Protocol )
操作系统智能体评估的中枢可总结为两个短处问题:评估历程应何如进行与需要对哪些方面进行评估。
底下本文将围绕这两个问题,敷陈操作系统智能体的评估原则和蓄意。
评估原则(Evaluation Principle):OS Agents 的评估结合了多维度的本事方法,提供对其智商与局限性的全面知悉,主要分为两种类型:1、客不雅评估(Objective Evaluation):通过圭臬化的数值蓄意,评估智能体在特定任务中的性能。举例,操作的准确性、任务的见效用以及语义匹配的精确度。这么的评估方法能快速且圭臬化地辩论智能体的性能;2、主不雅评估(Subjective Evaluation):基于东说念主类用户的主不雅感受,评估智能体的输出质地,包括其关系性、当然性、连贯性和合座成果。越来越多的研究也哄骗 ( M ) LLM-as-Judge 来进行评估,从而提高效用和一致性。
评估蓄意(Evaluation Metric):评估蓄意聚焦于 OS Agents 的意会、运筹帷幄和操作智商,辩论其在不同任务中的发挥。主要包括以下两个方面:1、要道级蓄意:评估智能体在每一步操作中的准确性,如任务施行中动作的语义匹配进度、操作准确性等;2、任务级蓄意:聚焦于统统这个词任务完成情况,包括任务的见效用和完成任务的效用。
评估基准 ( Evaluation Benchmark )
为了全面评估 OS Agents 的性能,研究者诱骗了多种评估基准,涵盖不同平台、环境成立和任务类别。
这些基准测试为辩论智能体的跨平台符合性、动态任务施行智商提供了科学依据。
评估平台(Evaluation Platform):评估平台构建了集成的评估环境,不同平台具有私有的挑战和评估要点,咱们将其主要分为三类:迁移平台(Mobile)、桌面平台(Desktop)与网页平台(Web)。
基准成立(Benchmark Setting):该部分将 OS Agents 的评估环境分为两大类:静态(Static)环境和交互式(Interactive)环境,并进一步将交互式环境细分为模拟(Simulated)环境和果然天下(Real-World)环境。静态环境适用于基础任务的离线评估,而交互式环境(尤其是果然天下环境)更能全面测试 OS Agents 在复杂动态场景中的推行智商。果然天下环境强调泛化智商和动态符合性,是翌日评估的遑急意见。
任务(Task):为了全面评估 OS Agents 的智商,面前的基准测试整合了多样专科化任务,涵盖从系统级任务(如装配和卸载应用法子)到平方应用任务(如发送电子邮件和在线购物)。主要不错分为以下三类:1、GUI 定位(GUI Grounding):评估 OS Agents 将指示养息为屏幕界面操作的智商,即如安在操作系统中与指定的可操作元故友互;2、信息处理(Information Processing):评估 OS Agents 高效处理和总结信息的智商,尤其在动态和复杂环境中,从多半数据中索取有用信息;3、智能体任务(Agentic Tasks):评估 OS Agents 的中枢智商,如运筹帷幄和施行复杂任务的智商。这类任务为智能体提供意见或指示,条目其在莫得显式辅导的情况下完成任务。
挑战与翌日
本部分商榷了 OS Agents 濒临的主要挑战及翌日发展的意见,要点聚焦于安全与秘籍(Safety & Privacy)以及个性化与自我进化(Personalization & Self-Evolution)两个方面。
安全与秘籍
安全与秘籍是 OS Agents 诱骗中必须爱重的限制。
OS Agents 濒临多种抨击形状,包括转折教导注入抨击、坏心弹出窗口和叛逆性指示生成,这些要挟可能导致系统施行荒唐操作或泄漏敏锐信息。
尽管目下已有适用于 LLMs 的安全框架,但针对 OS Agents 的贯注机制仍显不及。
面前研究主要集结于想象挑升支吾注入抨击和后门抨击等极度要挟的贯注决策,急待诱骗全面的且可扩张贯注框架,以提高 OS Agents 的合座安全性和可靠性。
为评估 OS Agents 在不同场景下的鲁棒性,还引入了一些智能体安全基准测试,用于全面测试和更正系统的安全发挥,举例 ST-WebAgentBench [ 17 ] 和 MobileSafetyBench [ 18 ] 。
个性化与自我进化
个性化 OS Agents 需要阐发用户偏好不停调整行径和功能。
多模态大说话模子正渐渐撑持意会用户历史记载和动态符合用户需求,OpenAI 的 Memory 功能 [ 19 ] 在这一方进取依然取得了一定进展。
让智能体通过用户交互和任务施行历程不绝学习和优化,从而提高个性化进度和性能。
翌日将驰念机制扩张到更复杂的状貌,如音频、视频、传感器数据等,从而提供更高等的预测智商和决策撑持。
同期,撑持用户数据脱手的自我优化,增强用户体验。
总结
多模态大说话模子的发展为操作系统智能体(OS Agents)创造了新的机遇,使得末端先进 AI 助手的念念法愈加接近现实。
本综述旨在概述 OS Agents 的基础,包括其短处构成部分和智商。
此外,著作还总结了构建 OS Agents 的多种方法,相等关怀限制特定的基础模子和智能体框架。
在评估左券和基准测试中,团队成员精细分析了千般评估蓄意,何况将基准测试从环境、设定与任务进行分类。
算计翌日,团队明确了需要不绝研究和关怀的挑战,举例安全与秘籍、个性化与自我进化等。这些限制是进一步研究的要点。
本综述总结了该限制确面前景况,并指出了翌日使命的潜在意见,旨在为 OS Agents 的不绝发展孝敬力量,并增强其在学术界和工业界的应用价值与推行真谛。
如有荒唐,迎接各人月旦指正,作家也暗示,期待诸君同业一又友调换商榷!
论文连络:https://github.com/OS-Agent-Survey/OS-Agent-Survey
技俩主页:https://os-agent-survey.github.io/
参考文献:
[ 1 ] Apple Inc. Siri - apple, 2024. https://www.apple.com/siri/
[ 2 ] Microsoft Research. Cortana research - microsoft research, 2024. https://www.microsoft.com/en-us/research/group/cortana-research/
[ 3 ] Google. Google assistant, 2024. https://assistant.google.com/
[ 4 ] Google. Gemini - google. https://gemini.google.com/
[ 5 ] OpenAI. Home - openai. https://openai.com/
[ 6 ] xAI. x.ai. https://x.ai/
[ 7 ] 01.AI. 01.ai. https://www.lingyiwanwu.com/
[ 8 ] Anthropic. Anthropic. https://www.anthropic.com/
[ 9 ] Chatbot arena: An open platform for evaluating llms by human preference, 2024. https://arxiv.org/abs/2403.04132
[ 10 ] Anthropic. 3.5 models and computer use - anthropic, 2024a. https://www.anthropic.com/news/3-5-models-and-computer-use
[ 11 ] Apple. Apple intelligence, 2024. https://www.apple.com/apple-intelligence/
[ 12 ] Autoglm: Autonomous foundation agents for guis. https://arxiv.org/abs/2411.00820
[ 13 ] Google DeepMind. Project mariner, 2024. https://deepmind.google/technologies/project-mariner/
[ 14 ] Anthropic. Claude model - anthropic, 2024b. https://www.anthropic.com/claude
[ 15 ] Os-atlas: A foundation action model for generalist gui agents. https://arxiv.org/abs/2410.23218
[ 16 ] Os-copilot: Towards generalist computer agents with self-improvement. https://arxiv.org/abs/2402.07456
[ 17 ] St-webagentbench: A benchmark for evaluating safety and trustworthiness in web agents, 2024. http://arxiv.org/abs/2410.06703
[ 18 ] Mobilesafetybench: Evaluating safety of autonomous agents in mobile device control, 2024. https://arxiv.org/abs/2410.17520^Memory and new controls for ChatGPT. https://openai.com/index/memory-and-new-controls-for-chatgpt/
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 技俩主页连络,以及辩论形状哦
咱们会(尽量)实时文告你
点这里� � 关怀我,记起标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~