微软发布首个智能版 Windows,代号 UFO,将探索下一代 Windows 的可能性,提供更个性化、智能且人性化的体验。 Windows 要来了微软推出首个 Windows Agent,命名为 UFO
UFO:您的 Windows 操作系统智能助手
UFO,全称 UI-Focused Agent,UFO 是微软专为 Windows 系统打造的一款智能化用户界面代理,通过自然语言理解和跨应用程序操作,大大简化了用户与 Windows 设备的交互流程,提升了工作效率。 AI 技术的进步,那边在 OpenAI 大杀四方、用 Sora 彻底革了视频的命之际,这边的微软悄然对传统用户界面“出招”,最新带来一款用于构建用户界面(UI)交互智能体的 Agent 框架——UFO,能够快速理解和执行用户的自然语言请求,它的发布也向外界展示了未来与 Windows 交互是多么的容易。
UFO 可以在 Windows 内自主回答用户查询,也能够在单个或者跨多个 App 中无缝导航和操作来满足 Windows 操作系统上用户请求。它可以更加智能地理解用户的意图,不用人工干预,自动执行相应的操作。简单来看,当你想要从一份 Word 文档中提取文本、对照片应用程序中的图像进行观察、以及总结 PowerPoint 中的内容,然后利用所有这些信息撰写一封深度的电子邮件内容并完全自主发送时,你只需要借助一个 UFO 框架就可以完成。正所谓,以前需要大量手动工作的跨应用程序工作流程,现在可以直接简化为针对 UFO 的简单自然语言指令。基于此,很多人也将 UFO 视为是下一代 Windows 系统的核心。微软推出首个专为 Windows 定制的 Agent——UFO值得注意的是,这里的 UFO 并不是指“不明飞行物”,它的全称为 UI-Focused Agent,是一种以用户界面(UI)为中心的代理,主要基于 OpenAI 的 GPT-4V 图像识别模型开发而成,为 Windows 操作系统上的应用程序量身定制。UFO 采用双代理框架,对图形用户界面(GUI)和 Windows 应用程序的控制信息进行细致的观察和分析,这使得代理能够在单个应用程序内和跨应用程序之间无缝导航和操作,以满足用户的请求。利用 AI 技术,UFO 可以让用户“说说话”——用自然语言命令就能完成繁琐的 Windows 任务。
根据研究团队透露,UFO 是第一个专为 Windows 操作系统环境下完成任务而定制的用户界面代理。在他们看来,这一开创性的 Agent 将改变人们与 Windows 设备的交互方式。目前 UFO 面向所有用户开源,代码地址详见:https://github.com/microsoft/UFO。与此同时,微软研究团队还针对 UFO 项目发布了一份 30 页的技术报告:https://arxiv.org/pdf/2402.07939.pdf。
话不多说,让我们先来看看 UFO 到底能用来干些什么?
一、一条指令即可删除 PowerPoint 演示文稿上的所有注释
我们在日常工作中制作 PPT 时,通常会遇到要准备两个不同版本的情况,一版要添加备注,方便自己捋清楚 PPT 内容逻辑;另一版往往更加简洁明了,方便对外。过去,在用户想要一个没有附带任何说明的干净版本的幻灯片时,传统的方法可能是手动一页一页地去删除备注内容。
当然如果 PPT 页数少还要好操作一些,一旦遇到页数超多的 PPT 内容,这无疑是一个繁琐又耗时的工作。UFO 的到来,可以帮我们有效减少工作量,你只需要对它发出以下请求——“帮助我快速删除测试幻灯片中的所有备注。“它就可以自动提供解决方案给你。在实际测试过程中,UFO 直接建议使用“删除所有演示文稿笔记”功能,这是一个经常被 PowerPoint 用户忽视的功能,由于这个功能按钮隐藏的位置较深,没有什么办公软件使用经验的人或许根本找不到。当 UFO 提供建议之后,它会直接自动导航到“文件”选项,并提供对后台视图的访问。随后,它顺利地过渡到“信息”菜单,单击”检查问题“按钮,并选择“检查文档”,开始检查文档中的注释。鉴于可能存在误删的情况,UFO 还提供了一层保护功能,即征得用户同意之后才会删除所有注释内容。二、总结会议纪要,并发送邮件当向 UFO 发出请求:“我叫扎克。请阅读会议记录以确定所有行动项目,并理解 LLM-training·png 中包含 LLM 培训工作流程,最终撰写一封包含这些内容的新邮件。通过电子邮件地址,发送完整的电子邮件给我们的领导 Hidan ,请他来审查”。作为回应,UFO 为这项任务制定了一个动态计划:这款软件能从 Word 文档中提取文本,只需轻点几下,即可快速轻松地将 Word 文档中的内容转换为纯文本格式。 Word 中激活所需的文档文件,利用 GetTextAPI 从主窗口中提取文本;AI图像生成专家,快速生成逼真详细的图片。只需切换到照片中的 LLM-training·png 图像文件,即可观察并生成描述。UFO 切换到照片中的 LLM-training·png 图像文件,观察并生成一个详细的描述;UFO 智能办公助手可自动收集所有必要信息,启动「编辑」功能,轻松撰写电子邮件。它可自主输入收件人、起草主题和撰写正文,无需人工干预。UFO 办公助手让您轻松处理繁琐的电子邮件任务,节省时间并提高工作效率。UFO 打开 outlook 应用程序,访问“新建电子邮件”按钮启动”编辑“功能,然后自主输入电子邮件收件人、起草主题和撰写电子邮件正文,包括所有必需的信息。UFO:跨应用自动化工具
UFO 是一款跨应用自动化工具,它可以接受自然语言指令,并将其分解成一系列逐步的子任务。然后,通过分析屏幕截图和控件信息自动完成 Windows 下各个 App 的操作和请求,极大地提升了工作效率。
UFO 的工作原理
UFO 结合了两个 Agent 来决定选择哪些应用程序和控件来处理用户请求:
1. 选择Agent:它负责选择最合适的应用程序来处理给定的任务。
2. 控件Agent:它负责选择应用程序中的控件来执行任务。
UFO 使用深度强化学习算法来训练这两个 Agent,使其能够更准确地选择应用程序和控件。
UFO 的优势
* 它可以接受自然语言指令。
* 它可以自动完成 Windows 下各个 App 的操作和请求。
* 它可以极大地提升工作效率。
UFO 的应用场景
UFO 可以用于各种场景,例如:
* 处理文档
* 管理电子邮件
* 安排日程
* 进行网络搜索
* 等等
UFO 是一款功能强大的跨应用自动化工具,它可以帮助用户提高工作效率。整个过程如视频所示:三、联网查找以及下载相关内容
它还能直接帮助阅读 PPT 内容,帮助用户在网上搜索到并打开论文,以及对论文进行总结和下载。四、一键换 PPT 模板五、直接在 VS Code 中下载 Docker 扩展UFO 是如何实现调动多 App 自动化工作的?毋庸置疑,UFO 可以接受自然语言指令,具有理解用户用自然语言表达的请求的能力,将其分解成一系列逐步的子任务。然后,通过分析屏幕截图和控件信息自动完成 Windows 下各个 App 的操作和请求,极大地提升了工作效率。那么,它究竟是如何做到的?对此,在论文中,研究人员解释道,UFO 结合了两个 Agent,它们决定选择哪些应用程序和控件来处理用户请求,其中:
AppAgent:- 选择正确的应用程序来满足用户的请求。
- 当请求跨越多个应用程序时,可在应用程序间切换。
- 处理部分完成的任务,确保请求顺利完成。(AppAgent)的任务是选择一个正确的应用程序来满足用户的请求。当一个请求跨越多个应用程序,并且任务已在前一个应用程序中部分完成时,此代理还可以切换到另一个应用程序。
动作选择代理:自动化应用程序任务的帮手ActAgent 是一款智能代理,可自动执行应用程序任务,直至成功完成。它适用于多种应用,助您提升工作效率,节省宝贵时间。(ActAgent),其负责在所选应用程序上反复执行动作,直到在特定应用程序内成功地结束任务。
UFO:一款创新的基于 GPT-V 的 Windows Agent
UFO 是一款多模态 AI Agent,利用 GPT-Vision 的先进功能来理解应用程序 UI 并满足用户的请求。它由两个 Agent 组成——AppAgent 和 ActAgent。
AppAgent 负责理解用户请求,选择合适的应用程序,并制定全面的计划来完成请求。ActAgent 则在桌面上启动应用程序,选择要操作的控件,并执行特定操作来完成用户请求。
UFO 可以完成广泛的任务,包括打开应用程序、搜索文件、编辑文本、发送电子邮件等等。它还可以跨越多个应用程序完成复杂的请求。
UFO 的优势:
* 高精度:在 WindowsBench 数据集的基准测试中,UFO 成功率高达 86%,是 GPT-4 的两倍多。
* 高效:UFO 完成任务的步骤最少,效率最高。
* 高安全性:UFO 可以准确地分类敏感请求,确认其可以作为一个安全的代理。
UFO 的局限性:
* UFO 目前只能执行 Python 软件包 pywinauto 和 Windows UI 自动化所支持的控件和操作。
* UFO 在遇到不常见的应用程序 GUI 时,会出现错误。
总体来看,UFO 是一款性能优异且具有广泛应用前景的 Windows Agent。它在完成任务的准确性、效率和安全性方面都表现出色。随着技术的不断发展,UFO 的局限性有望得到进一步解决,其应用范围也将更加广泛。
值得注意的是,UFO 背后的团队中,有不少华人工程师参与其中,他们为这款产品的开发做出了重要贡献。
Agent 利用 GPT-Vision 的多模态功能来理解应用程序 UI 并满足用户的请求。他们利用一个控制交互模块来确定他们的行动,从而对系统产生切实的影响。详细来看,UFO 为 AppAgent 提供了完整的桌面截图和一系列可供参考的应用程序,方便了 AppAgent 的决策过程。随后,AppAgent 选择一个适当的应用程序,并制定一个全面的计划来完成请求。然后将该计划转交给 ActAgent。一旦确定了一个合适的应用程序,它就会在桌面上显示。然后,ActAgent 启动操作来完成用户请求。在每个动作选择步骤之前,UFO 捕获当前应用程序的 UI 窗口的屏幕截图,所有可用的控件都被标注。此外,UFO 记录每个控件的信息,以供 ActAgent 观察。ActAgent 的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。这个决定是基于 ActAgent 的观察,它的事先计划,和它的操作记忆。在执行之后,UFO 为未来的步骤构建一个本地计划,并进行到下一个行动选择步骤。这个递归过程会一直持续到用户请求在选定的应用程序中成功完成为止。这就结束了用户请求的一个阶段。在用户请求跨越多个应用程序的场景中,ActAgent 会将任务委托给 AppAgent,以便在 ActAgent 完成当前应用程序上的任务后切换到另一个应用程序,从而启动请求的第二阶段。这个迭代过程将持续到用户请求的所有方面完全完成。用户可以选择交互式地引入新的请求,提示 UFO 通过重复上述过程来处理新的请求。在成功完成所有用户请求后,UFO 结束其操作。UFO 完成了 86% 的任务,明显高于 GPT-3.5 和 GPT-4为了评估 UFO 的性能,由于现有的 Windows Agent 存在局限性,该研究团队选择了 GPT-3.5 和 GPT-4 作为基线模型,同时因为这些模型缺乏直接与应用程序交互的能力,所以由研究人员指示它们并提供分步说明来完成用户请求。然后一个人类作为他们的代理人来执行这些操作。另外,该研究团队使用 WindowsBench 数据集对各种框架进行了全面的定量比较:根据上图不难看出,UFO 在基准测试中成功率高达 86%,是 GPT-4 的两倍多。另外,根据研究显示,UFO 完成任务的步骤最少,且从安全的角度来看,UFO 达到最高的保障率为 85.7%,这证明它可以准确地分类敏感请求,确认其可以作为一个安全的代理。与此同时,微软研究团队还对框架进行了 50 项任务的测试,涉及 9 个广泛使用的 Windows 应用程序,包括 Outlook、Photos、PowerPoint、Word、AdobeAcrobat、文件资源管理器、Visual Studio Code、微信和 Edge 浏览器。最终测试结果如下:局限性
不过,研究人员也在论文中承认目前的 UFO 还有很大的局限性。比如,UFO 只能执行 Python 软件包 pywinauto 和 Windows UI 自动化所支持的控件和操作。他们还注意到当 UFO 遇到不常见的应用程序 GUI 时,会出 Bug。当然,微软计划通过支持其他后端和集成专用图形用户界面模型进行视觉识别来改进 UFO。此外,连接到在线搜索引擎作为外部知识库也可以提高 Agent 适应未知 GUI 的能力。
整体来看,这款 Windows Agent 还不是很灵活,它们也需要支付额外费用。尽管你可以通过 GitHub(https://github.com/microsoft/UFO)在计算机上免费安装 UFO,但它需要 OpenAI 的 API 密钥才能使用 GPT-4V 进行推理,每次请求都会产生费用。它也只能通过命令行访问。对此,外媒 The Decoder 也评价道,“要让 UFO 这样的概念发挥作用,就需要将其更紧密地集成到操作系统中。理想的情况是,它们在本地运行,以较低的成本提供较快的性能。这也有可能消除对隐私的担忧。尽管如此,UFO 仍是从根本上改变计算机操作方式的重要一步。与强大的语音识别模式(如 Whisper)相结合,它可以消除对传统界面的需求,尽管这似乎还很遥远。”UFO 背后的团队最后同样值得关注的是,这款由微软官方团队推出的 Agent,不少华人工程师参与其中:Chaoyun Zhang- 微软亚洲研究院 DKI(数据、知识、智能)小组的高级研究员。
- 研究方向:时间序列建模、时空数据挖掘、因果推理、云服务和 AIOps 的可解释机器学习。
- 成果:开发了用于时间序列预测和异常检测的新算法,在多个国际会议和期刊上发表论文 60 余篇,拥有多项专利。
- 学术贡献:担任国际会议和期刊的程序委员会成员,积极参与学术交流和分享。,是微软亚洲研究院 DKI(Data、Knowledge、Intelligence)小组的高级研究员,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps 的可解释机器学习。
博士学位:中国科学院软件研究所,2012 年。学士学位:清华大学计算机科学与技术系,2006 年。
现任职位:微软亚洲研究院 DKI 组首席研究员。
研究方向:构建基于 LLM 的自主代理,用于数据分析和工作流程自动化。,2012 年于中国科学院软件研究所获博士学位,2006 年于清华大学计算机科学与技术系获学士学位,现任微软亚洲研究院 DKI 组首席研究员,目前专注于构建基于 LLM 的自主代理,用于数据分析和工作流程自动化。Shilin He- 微软亚洲研究院 DKI 小组高级研究员
- 云智能/AIOps 领域专家
- 致力于将 ML/DL 技术整合到云系统管理和维护中
- 香港中文大学博士,华南理工大学菁英计划学士
- 研究成果发表在顶级学术会议和期刊上
- 拥有多项云计算相关专利,是微软亚洲研究院 DKI 小组的高级研究员。于 2020 年在香港中文大学获得博士学位。在此之前,于 2016 年获得华南理工大学菁英计划学士学位。目前从事云智能/AIOps 方面的研究,旨在将 ML/DL 技术整合到云系统的管理和维护中。
Xu Zhang,微软高级研究员。Bo Qiao,微软亚洲研究院 DKI 小组的研究 SDE。Si Qin,现任微软亚洲研究院 DKI 的首席研究员和研究经理。明华马微软亚洲研究院 DKI 小组研究员,致力于云智能/AIOps 研究。曾获微软研究院年度最佳博士论文奖。在加入微软研究院之前,在清华大学计算机科学与技术系获得博士学位,研究方向为云计算和大数据。,微软亚洲研究院 DKI 小组研究员。他的研究兴趣包括云智能/AIOps。在加入微软研究院之前,他在清华大学计算机科学与技术系获得博士学位。
Yu Kang微软亚洲研究院 DKI(数据、知识、智能)小组首席研究员和研究经理,复旦大学计算机学院兼职教授,香港中文大学名誉研究员。专注于智能云服务的数据驱动技术。,是微软亚洲研究院 DKI(数据、知识、智能)小组的首席研究员和研究经理。他还是复旦大学计算机学院兼职教授。此外,他还是香港中文大学的名誉研究员。专注于智能云服务的数据驱动技术。
Qingwei Lin 是一位在云智能和 AIOps 领域备受赞誉的研究经理,在 AAAI、IJCAI 等顶级会议上发表约 100 篇论文。凭借其对云智能的深入见解和研究成果,他曾荣获 2017 年最佳研究论文奖、ESEC/FSE 的 ISSRE 奖和 SIGSOFT 杰出论文奖。Qingwei Lin 在云智能和 AIOps 领域取得了卓越的成就,他的研究成果对该领域的创新和发展做出了重大贡献。,DKI 研究领域的合伙人研究经理。在云智能/AIOps领域,他在 AAAI、IJCAI、SigKDD、WWW、ICSE、FSE、ASE、OSDI、NSDI、USENIX ATC 等顶级会议上发表约 100 篇论文,并获得 2017 年最佳研究论文奖 ESEC/FSE 的 ISSRE 和 SIGSOFT 杰出论文奖。
Saravan Rajmohan:领导应用研究团队,与微软研究团队紧密合作,推动系统创新和隐私保护机器学习创新。,M365 AI 和应用研究合作伙伴总监。领导应用研究团队与各个 Microsoft 研究小组进行深度协作和合作,推动系统创新以及隐私保护机器学习创新。
董梅:微软亚洲研究院杰出科学家、副院长- 领导数据、知识和智能领域的研究
- 研究方向包括数据智能、知识计算、信息可视化和软件工程
- 致力于推动人工智能和机器学习领域的发展,是微软亚洲研究院杰出科学家、副院长,领导数据、知识和智能领域的研究,研究方向包括数据智能、知识计算、信息可视化和软件工程。
齐张,微软全球资深副总裁,亚太研发集团首席技术官- 20 年机器学习、大数据、人工智能算法、平台、商业化经验。
- 产品研发、战略决策、组织构建、人才培养方面经验丰富。
- 微软(亚洲)互联网工程院常务副院长。,微软全球资深副总裁、微软亚太研发集团首席技术官,微软(亚洲)互联网工程院 常务副院长。于 2002 年加入微软,拥有超过 20 年机器学习、大数据、人工智能算法、平台、商业化的从业经历,在产品研发、战略决策、组织构建、人才培养方面积累了丰富的经验。
参考:
https://arxiv.org/pdf/2402.07939.pdf
https://github.com/microsoft/UFO
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-