
北京时间3月6日凌晨,当硅谷还在为Claude反超、OpenClaw刷屏、Gemini抢跑而议论纷纷时,OpenAI不声不响扔出了一枚深水炸弹——GPT-5.4。这一次,AI不再是陪你聊天的“嘴强王者”,它直接拿走了你的鼠标和键盘。

GPT-5.4能自己操作电脑了!
不是那种“我给你写段代码你自己跑”的甩手掌柜,而是像你一样,看着屏幕,移动鼠标,点击按钮,跨软件完成任务。你在Excel里做报表,它在旁边帮你分析数据;你在浏览器查资料,它自己打开网页帮你整理。
100万token的上下文窗口,能一口气读完一整本《三体》三部曲。

测试数据更是吓人——在OSWorld-Verified桌面操作测试中,GPT-5.4以75%的成功率,直接把人类72.4%的基准水平踩在脚下。前代5.2才47.3%。
OpenAI这次分了两个版本:Thinking版面向普通付费用户,擅长复杂推理;Pro版专为最棘手的任务设计,价格贵得离谱——输入每百万token30美元,输出180美元。
但华尔街会抢着买单。为啥?投行基准测试得分从43.7%飙到88%,财务建模准确率提升30个百分点。
信创研报
一出大戏:Claude被“拉黑”,OpenClaw刷屏,Gemini偷袭
就在GPT-5.4发布的同一周,硅谷上演了一出宫斗大戏。
Anthropic,这家一度被视为OpenAI头号劲敌的公司,被特朗普政府直接拉黑了。国务院、财政部、卫生部三大内阁机构集体弃用Claude,五角大楼贴上“供应链风险”标签。
原因?Anthropic死活不肯撤掉两条红线:AI不得用于自主武器,不得用于大规模监控。

讽刺的是,就在禁令宣布几小时后,美国中央司令部在对伊朗的军事行动中,仍在用Claude辅助情报分析。
更戏剧性的是,用户开始用脚投票。受OpenAI与国防部合作消息影响,ChatGPT移动端在美国的卸载量环比暴涨295%,Claude下载量直接反超,上周六首次登顶App Store榜首。
就在这个节骨眼上,一个开源工具引爆科技圈。OpenClaw从春节前蹿红,在GitHub上狂揽超26万颗星,单周涌入200万访客。它能直接接管你的电脑,跨越软件排日程、写代码、理文件,甚至能原地克隆出一支“AI打工小队”。
字节、阿里云、腾讯云几乎在第一时间全面接入。月之暗面迅速推出Kimi K2.5,每周token使用量暴增261%。更夸张的是MiniMax,单周调用量3.07兆token,超Kimi、智谱、DeepSeek三家总和。港股MiniMax马年开市首日涨14.52%,今年累计涨幅超450%。
谷歌也没闲着,默默给Gemini来了波狠的。3月Pixel手机更新后,Gemini可以直接代你完成操作——叫车、点外卖、订餐厅,一气呵成。它在你手机后台运行,你随时可以监督或中断。
这功能苹果Siri画了两年大饼,到现在还没烙熟。谷歌还升级了“屏幕圈选搜索”,圈出穿搭就能搜单品;Magic Cue功能能在短信中基于场景主动给建议。
堪称降维打击。
信创研报
GPT-5.4的反击:不要一个打十个,而是主动突围
所以你看,GPT-5.4不是在真空中发布的。它的四周,是Claude反弹、OpenClaw刷屏、Gemini紧逼,以及众多国产大模型的默默蓄势。
但OpenAI这次是真的拿出了硬货。OpenClaw创始人刚加入OpenAI,GPT-5.4就具备了原生电脑操控能力。这不是巧合,是技术整合的红利开始兑现。

在GDPval职业任务测试中,GPT-5.4在83%的比较中达到或超越行业专业人士水平,前代只有71%。在法律AI平台Harvey的BigLaw Bench评估中,得分91%,在结构化复杂交易分析、跨长篇合同保持准确性方面,优于其他模型。
更狠的是工具搜索机制。以前模型每次请求都得预加载全部工具定义,工具一多,成本蹭蹭涨。现在只接收轻量化列表,需要时才检索完整定义。在Scale测试中,启用36个MCP服务器的情况下,token用量直接减少47%。

当然,问题也有。HyperWrite CEO试用后发现,GPT-5.4还是会忽略一些现实背景——比如规划春假旅行,选了个人山人海的地方。在OpenClaw中测试时,有时会在完成任务前突然停止。奥特曼承诺尽快修复。
但这恰恰说明——技术正在狂奔,边跑边改。
信创研报
AI的狂飙时代,你敢不敢上车?
GPT-5.4发布那天,奥特曼说:“我们正在从‘问答工具’走向‘数字员工’。”
这不是夸大。行业共识正从语言模型转向能理解物理规律的世界模型,AI正从感知迈向认知与规划。
有人焦虑:我的工作会被取代吗?
我的看法是:被AI取代的不是工作,而是不会用AI的人。投资公司高管说了句话很扎心:GPT-5.4在他们内部财务测试中准确率提升30个百分点,一个分析师带个AI助理,能干以前三个人的活。
GitHub首席产品官说得更直白:GPT-5.4是“企业第一天就应该采用的模型”。
两年前,我们惊叹AI能写诗;一年前,惊讶它能编程;现在,它已开始操作电脑。再过两年呢?
对普通人来说,这不是要不要参与的问题,而是如何参与的问题。学点提示词工程,试试开源项目,关注行业动态——这些门槛不高,但能让你在浪潮来临时站稳脚跟。
点评
信创研报
当GPT-5.4开始接管鼠标,Claude疯狂抢用户,OpenClaw在GitHub刷屏,千问、Gemini帮你点外卖,你再不伸手,连键盘都没得摸了。
机会留给抬头看路的人。AI这趟车,你是挤上去,还是目送它远去?评论区告诉我答案。
往期 · 推荐
点赞

分享

推荐
