• 隐私政策
  • 联系我们
  • 关于我们
2026 年 5 月 9 日 星期六
聚赢方舟
广告
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
聚赢方舟
No Result
View All Result
Home 贵金属

ChatGPT Agent 正式发布了,看看实力如何

by 聚赢方舟
10 月 ago
in 贵金属
Reading Time: 2 mins read
A A
分享至微博分享给朋友

【TechWeb】7 月 18 日消息,OpenAI CEO 奥特曼 (Sam Altman) 带队直播 25 分钟发布 「ChatGPT Agent」,首个统一智能体,大大提升了 ChatGPT 处理现实世界任务需求的能力。

例如,通过 ChatGPT Agent,可以让 ChatGPT 处理以下请求:「查看我的日历,并根据最新消息简要介绍即将召开的客户会议」、「计划和购买食材,为四人做日式早餐」 以及 「分析三个竞争对手并创建幻灯片」。ChatGPT 将智能地浏览网站、过滤结果、在需要时提示你安全登录、运行代码、进行分析,甚至提供可编辑的 PPT、Excel,总结其分析结果。

奥特曼称:「ChatGPT Agent 使用计算机执行复杂任务,对自己来说是一个真正感受 AGI 的时刻。」

即日起,专业版 (Pro)、增强版 (Plus) 和团队版 (Team)ChatGPT 用户都可使用 ChatGPT Agent。

ChatGPT Agent 的使用入口没变,还是在 ChatGPT 原页面,「工具」 下拉选择 「Agent mode」 即可。

融合三大能力,PPT 比人做得好

今年 1 月,OpenAI 发布了首个智能体 Operator,让 AI 像人类一样直接与 GUI 交互,可以自主上网、点击和输入。

Operator 推出 2 周后,OpenAI 又推出了首个 Deep Research,推理模型直接可以使用工具,开展研究,擅长分析和总结信息。

现在,ChatGPT Agent 融合了此前三大技术突破的优势:Operator 与网站交互的能力,Deep Research 整合信息的技巧,以及 ChatGPT 智能对话优势。

「Agent mode」 下的 ChatGPT 可以直接使用用户的计算机资源,包括智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能直出 PPT 和 Excel 汇总发现结果。

为了展示 ChatGPT Agent 能力,团队演示了一个真实场景:上传一张团队吉祥物图片,ChatGPT 可以制作公司吉祥物漫画风贴纸,然后再订购 500 张并送到某个地址。

在理解提示词后,ChatGPT 先整合搜索-再推理创作-再执行任务,调用用工具 Imagen 生成动漫版图片,设计贴纸,最后从 StickerMule 订购 500 份寄到的用户指定的地址。

另外,团队还演示了 ChatGPT Agent 做 PPT 的能力。

要求 ChatGPT 从 Google 云中提取分析评估数据并制作成 PPT,直接用图表展示结果。

ChatGPT Agent 链接 Google 云 API 进行搜索,并读取相关内容信息,并编写一些代码。

模型使用图像生成功能,为 PPT 图表做一些装饰和优化。

制作出第一张 PPT(如上图),还不够精致。

强化学习的一个关键特性是模型会审视自己的结果,并加以完善,以交付出色的最终结果。

最终,ChatGPT Agent 调用模型生成了如下 PPT 图表。

ChatGPT Agent 「跑分」 情况

在网页浏览、现实任务完成能力的评估中,ChatGPT Agent 全部刷新了 SOTA。

在人类最后考试 (HLE) 中,ChatGPT Agent 以 41.6% 的得分,刷新了最高纪录。当研究团队采用并行策略后,即同时运行最多 8 次并选取自信度最高结果,HLE 得分直接刷到了 44.4%。

在最难的数学基准测试 FrontierMath 中,通过使用工具,如访问终端执行代码,ChatGPT Agent 的准确率达到 27.4%,远远优于之前的 o3 和 o4-mini 两种模型。

在旨在评估模型在复杂、经济上有价值的知识工作任务上的性能的内部基准上,ChatGPT Agent 的输出大约有一半的情况下与人类相当或更好,同时明显优于 o3 和 o4 mini。

在评估数据科学生产力任务的 DSBench 中,ChatGPT Agent 显著超越了人类表现。

在 Excel 编辑能力的 SpreadsheetBench 测试中,当能够直接编辑电子表格时,ChatGPT Agent 的得分甚至更高,为 45.5%,而 Excel 中的 Copilot 为 20.0%。

在投行分析师 1-3 年级建模任务的内部评估中,ChatGPT Agent 表现优于 Deep Research 和 o3 模型。

在 OpenAI 发布的 BrowseComp 基准测试 (衡量浏览代理在网络上定位难以找到的信息的能力),ChatGPT Agent 以 68.9% 的准确率成为新 SOTA,比 Deep Research 高出 17.4%。

最后,关于 WebArena⁠(在新窗口中打开),这是一个旨在评估网络浏览代理在完成现实世界网络任务方面的性能的基准测试,ChatGPT Agent 比基于 o3 的 CUA(为 Operator 提供动力的模型) 有所改进。

AI Agent 三维竞争格局形成

2025 年是全球 AI Agent 技术爆发元年,行业从基础大模型竞争全面转向智能体落地,竞争格局呈现多层级分化。

在通用领域,今年年初,中国团队开发的全球首个通用 Agent「Manus」 发布即引发震撼,6 月访问量达 1616 万次。

在垂直领域,就在 OpenAI ChatGPT Agent 发布前一天,亚马逊云科技发布了企业级 Agent 部署平台 Amazon Bedrock AgentCore,提供七大核心服务 (如运行时隔离、代码沙盒、浏览器工具),支持 8 小时异步任务,帮助开发者打通 AI agent 从概念验证到生产部署之间的关键环节。

随着 OpenAI ChatGPT Agent 的强势加入,当前 AI Agent 已形成 「通用 vs 垂直」、「端到端 vs 多模型」、「C 端工具 vs B 端平台」 的三维竞争格局。

 

ADVERTISEMENT

【TechWeb】7 月 18 日消息,OpenAI CEO 奥特曼 (Sam Altman) 带队直播 25 分钟发布 「ChatGPT Agent」,首个统一智能体,大大提升了 ChatGPT 处理现实世界任务需求的能力。

例如,通过 ChatGPT Agent,可以让 ChatGPT 处理以下请求:「查看我的日历,并根据最新消息简要介绍即将召开的客户会议」、「计划和购买食材,为四人做日式早餐」 以及 「分析三个竞争对手并创建幻灯片」。ChatGPT 将智能地浏览网站、过滤结果、在需要时提示你安全登录、运行代码、进行分析,甚至提供可编辑的 PPT、Excel,总结其分析结果。

奥特曼称:「ChatGPT Agent 使用计算机执行复杂任务,对自己来说是一个真正感受 AGI 的时刻。」

即日起,专业版 (Pro)、增强版 (Plus) 和团队版 (Team)ChatGPT 用户都可使用 ChatGPT Agent。

ChatGPT Agent 的使用入口没变,还是在 ChatGPT 原页面,「工具」 下拉选择 「Agent mode」 即可。

融合三大能力,PPT 比人做得好

今年 1 月,OpenAI 发布了首个智能体 Operator,让 AI 像人类一样直接与 GUI 交互,可以自主上网、点击和输入。

Operator 推出 2 周后,OpenAI 又推出了首个 Deep Research,推理模型直接可以使用工具,开展研究,擅长分析和总结信息。

现在,ChatGPT Agent 融合了此前三大技术突破的优势:Operator 与网站交互的能力,Deep Research 整合信息的技巧,以及 ChatGPT 智能对话优势。

「Agent mode」 下的 ChatGPT 可以直接使用用户的计算机资源,包括智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能直出 PPT 和 Excel 汇总发现结果。

为了展示 ChatGPT Agent 能力,团队演示了一个真实场景:上传一张团队吉祥物图片,ChatGPT 可以制作公司吉祥物漫画风贴纸,然后再订购 500 张并送到某个地址。

在理解提示词后,ChatGPT 先整合搜索-再推理创作-再执行任务,调用用工具 Imagen 生成动漫版图片,设计贴纸,最后从 StickerMule 订购 500 份寄到的用户指定的地址。

另外,团队还演示了 ChatGPT Agent 做 PPT 的能力。

要求 ChatGPT 从 Google 云中提取分析评估数据并制作成 PPT,直接用图表展示结果。

ChatGPT Agent 链接 Google 云 API 进行搜索,并读取相关内容信息,并编写一些代码。

模型使用图像生成功能,为 PPT 图表做一些装饰和优化。

制作出第一张 PPT(如上图),还不够精致。

强化学习的一个关键特性是模型会审视自己的结果,并加以完善,以交付出色的最终结果。

最终,ChatGPT Agent 调用模型生成了如下 PPT 图表。

ChatGPT Agent 「跑分」 情况

在网页浏览、现实任务完成能力的评估中,ChatGPT Agent 全部刷新了 SOTA。

在人类最后考试 (HLE) 中,ChatGPT Agent 以 41.6% 的得分,刷新了最高纪录。当研究团队采用并行策略后,即同时运行最多 8 次并选取自信度最高结果,HLE 得分直接刷到了 44.4%。

在最难的数学基准测试 FrontierMath 中,通过使用工具,如访问终端执行代码,ChatGPT Agent 的准确率达到 27.4%,远远优于之前的 o3 和 o4-mini 两种模型。

在旨在评估模型在复杂、经济上有价值的知识工作任务上的性能的内部基准上,ChatGPT Agent 的输出大约有一半的情况下与人类相当或更好,同时明显优于 o3 和 o4 mini。

在评估数据科学生产力任务的 DSBench 中,ChatGPT Agent 显著超越了人类表现。

在 Excel 编辑能力的 SpreadsheetBench 测试中,当能够直接编辑电子表格时,ChatGPT Agent 的得分甚至更高,为 45.5%,而 Excel 中的 Copilot 为 20.0%。

在投行分析师 1-3 年级建模任务的内部评估中,ChatGPT Agent 表现优于 Deep Research 和 o3 模型。

在 OpenAI 发布的 BrowseComp 基准测试 (衡量浏览代理在网络上定位难以找到的信息的能力),ChatGPT Agent 以 68.9% 的准确率成为新 SOTA,比 Deep Research 高出 17.4%。

最后,关于 WebArena⁠(在新窗口中打开),这是一个旨在评估网络浏览代理在完成现实世界网络任务方面的性能的基准测试,ChatGPT Agent 比基于 o3 的 CUA(为 Operator 提供动力的模型) 有所改进。

AI Agent 三维竞争格局形成

2025 年是全球 AI Agent 技术爆发元年,行业从基础大模型竞争全面转向智能体落地,竞争格局呈现多层级分化。

在通用领域,今年年初,中国团队开发的全球首个通用 Agent「Manus」 发布即引发震撼,6 月访问量达 1616 万次。

在垂直领域,就在 OpenAI ChatGPT Agent 发布前一天,亚马逊云科技发布了企业级 Agent 部署平台 Amazon Bedrock AgentCore,提供七大核心服务 (如运行时隔离、代码沙盒、浏览器工具),支持 8 小时异步任务,帮助开发者打通 AI agent 从概念验证到生产部署之间的关键环节。

随着 OpenAI ChatGPT Agent 的强势加入,当前 AI Agent 已形成 「通用 vs 垂直」、「端到端 vs 多模型」、「C 端工具 vs B 端平台」 的三维竞争格局。

 

聚赢方舟

专业财经网站

聚赢方舟 (arkxx.com) 网站是长沙聚赢方舟文化传媒有限公司旗下运营的财经资讯门户网站。聚赢方舟致力于为用户提供全面而深入的财经资讯与金融数据分析。网站汇集了最新的市场行情、股票动态、投资策略以及经济趋势,为投资者和财经行业人士提供及时的新闻参考。网站通过高效的数据处理与分析工具,聚赢方舟帮助用户把握市场机会,优化投资决策。

此外,网站还定期发布专业的市场评估报告和财经评论,确保用户能够获得最准确的市场洞察。

方舟日历

2026 年 5 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 4 月    

标签

中国 中国企业 也不 买了 互联网 假日 养老金 北大 千元 印度 反超 奶茶 家族 工龄 怎么回事 或将 房价 房贷 新能源 新闻 日本 更大 有什么 村官 来了 楼市 江苏 沙特 浙江 特斯拉 电动车 石油 美元 美国 美籍 节日 芯片 让人 越南 长假 防晒 阿里 阿里巴巴 院士 首富

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

No Result
View All Result
  • Home

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

此网站使用 cookie。继续使用本网站即表示您同意使用 cookie。访问隐私和 cookie 策略.。