这一周,国内外AI 世界发生了很多事。有些是新闻,有些是趋势,有些虽然现在看起来不重要,但少则几个月多则一两年就可能对我们普通人产生重大影响。我会每周整理国内外最重要AI 资讯,并在最后根据我的认知和判断进行趋势总结,消息来源包括Morning Brew,Stratechery,Lenny's Newsletter,The Batch,Ben’s Bites,Import AI,Hacker News等,我们不追热点,只筛选对普通人有用的真正重要的变化,关注我,帮你以最小的成本建立硅谷同频信息流,让你在AI时代中能够紧跟浪潮。
正文开始前帮朋友打个广告,最近朋友做了一个AI 模型聚合平台 537 AI,不用翻墙就能用 Claude、GPT、Gemini 等海外模型,接口方式和 OpenAI 一样,老项目基本不用改。我实际跑下来挺稳定,价格大概是官方的 1/10,按量付费,不心疼。如果你平时写代码、做 Agent 或用 AI 写东西又感觉用国外的模型太麻烦,可以了解下,网址是https://537-ai.net
1.苹果官宣IPhone将接入谷歌Gemini模型,马斯克发文质疑
苹果和谷歌已达成合作协议,下一代Siri和苹果基础模型将加入谷歌的Gemini。经过仔细评估,苹果认定谷歌的AI技术为苹果基础模型提供了最强大的基础,并对其为苹果用户解锁的创新新体验充满期待。苹果智能将继续在苹果设备和私有云计算上运行,同时保持苹果行业领先的隐私标准。马斯克发文称考虑到谷歌旗下还拥有安卓和Chrome浏览器,这种权力集中似乎有些不合理。信息来源:谷歌官方发布,马斯克X上推文
2.沃尔玛与谷歌宣布深度绑定并使用Gemini推出全新"代理型购物"功能,谷歌正在布局AI改变传统零售市场
1月11日,沃尔玛与谷歌宣布,计划将沃尔玛及山姆会员店的商品整合进谷歌的Gemini。与此同时,谷歌在全国零售联合会(NRF)大会上,正式发布通用商业协议(UCP),用于为谷歌搜索和Gemini的AI模式提供智能购物能力,旨在用AI布局传统零售市场。用户将无需离开AI聊天界面,即可在Gemini的对话框中浏览商品并完成购买。沃尔玛美国公司的CEO弗纳在新闻稿中表示,零售行业正在从传统网页或应用搜索,转向由AI智能代理主导的商业模式,这是零售行业的下一个重要演变。信息来源:36氪,TLDR AI
3.Anthropic推出了“Cowork”工具,将Claude的代码代理功能扩展到非编程任务
Anthropic 推出全新 AI 助理Claude Cowork,主打“给非程序员用的 AI 实习生”。它基于与 Claude Code 相同的底层技术,但彻底去掉了编程界面,更像一个会自动干活的“数字同事”,面向熟悉 Word、PPT、Excel 的普通职场用户,而不是工程师。Cowork 的核心能力,是在获授权后直接访问本地电脑文件,一次性执行多步骤复杂任务:例如根据内容自动整理文件夹、批量分析文档和表格、撰写报告、生成图表和 PowerPoint,甚至可以把一堆报销小票照片自动整理成费用报表。用户只需用自然语言下达一个指令,后续步骤由 Cowork 自行拆解完成。Anthropic 同时提醒,这类具备“实际操作能力”的代理型工具也带来风险:模糊指令可能导致删除文件等“破坏性动作”,因此使用时需要明确边界和权限。从行业视角看,Claude Cowork 上线,标志着 Anthropic 正在与 Google、OpenAI 以及众多初创公司一起,在“白领自动化代理(AI agents)”赛道上加速竞赛,将 AI 从聊天工具推向真正能落地执行任务的工作助手信息来源:The Rundown AI,TLDR AI
4.智谱AI发布首个完全基于华为芯片训练的开源图像生成模型GLM-Image。
智谱AI近日发布开源图像生成模型GLM-Image,被外媒形容为“首个完全基于华为硬件训练的大型开源图像模型”。该模型参数规模为 160 亿,训练与推理全程依托华为昇腾芯片及配套软件栈,实现对英伟达等美国 GPU 的“零依赖”,在当前芯片受限环境下具有明显信号意义。官方宣称,GLM-Image 在含有大量文字的图片生成任务上表现突出,在准确率基准测试中优于部分同类模型。不过,早期用户实际体验反馈认为,其整体图像质量仍落后于主流闭源模型和部分顶尖开源方案。尽管如此,GLM-Image 采用宽松开源许可,对科研和企业落地更为友好,也进一步巩固了智谱 AI 在自研大模型(此前推出 GLM-4.7 等)的技术路线,同时释放出中国 AI 厂商在“去美化”算力体系上的加速信号。信息来源:Morning Brew
5.OpenAI 6000 万美元收购医疗科技创业公司 Torch
2026 年 1 月中旬,OpenAI 以约 6000 万美元收购医疗科技初创公司 Torch。Torch 正在构建面向 AI 的「统一医疗记忆」(unified medical memory):将分散在不同厂商和多种格式中的患者数据汇聚到同一底层数据层,方便 AI 系统进行统一调用与推理。这笔交易意味着 OpenAI 不仅在模型层发力,也开始直接布局高价值的垂直行业数据与应用基础设施。医疗数据由于高度碎片化、标准不一且隐私要求极高,一直被视为 AI 落地的关键难点之一。通过整合 Torch 团队及其技术,OpenAI 有望在临床决策支持、个性化诊疗等场景中打造更强的 AI 能力,同时在合规前提下掌握更高质量的结构化医疗数据资产,为后续医疗健康方向的产品和合作打下基础。信息来源:TLDR AI,IT Brew
6.百川智能发布 Baichuan-M3,国产医疗AI获得新突破
百川智能正式开源新一代医疗增强大语言模型 Baichuan-M3,在 HealthBench 及 HealthBench Hard 等权威评测中斩获第一,医疗相关性能超越 OpenAI GPT-5.2,且所有测试环节表现优于人类医生,实现国产医疗 AI 关键突破。该模型核心破解医疗 AI 高幻觉痛点,通过 Fact-aware 强化学习与全动态 Verifier System 训练,将医疗幻觉率压低至 3.5% 的全球最低水平,无需外部检索即可输出可信答案。依托 SCAN 原则构建的 “严肃问诊范式”,使其具备原生端到端问诊能力,能主动追问病史、关联跨系统症状,形成完整诊疗闭环。目前,Baichuan-M3 已接入医疗应用 “百小应”,面向医生与患者双端开放,既助力医生推演诊疗思路,也帮助患者普及健康认知,为医疗资源优化与健康服务升级提供新支撑。信息来源:Morning Brew,Import AI
7.阿里千问 App 升级为全链路 AI 办事中枢,打通生活与办公场景
2026 年 1 月 15 日,阿里千问 App 重磅升级,一次性上线 400 余项新功能,深度整合淘宝、支付宝、飞猪、高德、淘宝闪购等生态能力,率先实现从“搜索—决策—支付—履约”的全链路 AI 办事闭环,被定位为从聊天工具迈向“动手办事助手”的关键一步。本次升级以 Qwen 大模型与通用 Agent 架构为底座,通过统一入口「任务助理」覆盖生活服务、购物、旅游、办公与政务等高频场景:用户一句话即可完成多店批量下单、制定并预订机酒一体化行程、按真实评价和测评做购物决策;在办公侧可自动完成表格处理、PPT 生成、行业报告撰写及小程序搭建;在民生侧可直达护照办理、社保查询等政务服务。信息来源:极客公园,新华社
8.全球首个实时交互 AI 模型问世!PixVerse R1 改写 AIGC 视频生态
2026 年 1 月,爱诗科技推出全球首款通用实时世界模型 PixVerse R1,以 1080P 高清分辨率和即时响应能力,推动 AIGC 视频生成从 “静态输出” 迈入 “实时交互” 新阶段。与传统 AI 视频生成的数十秒至数分钟等待不同,该模型可随用户提示词实时调整内容,连续优化角色、环境与镜头切换,且始终保持逻辑连贯。无论是生成特定物体、模拟交互动作,还是复杂镜头转换,均能实现秒级响应。其核心优势源于三大底层架构:Omni 原生多模态模型保障跨模态内容连贯,流式生成记忆机制维持长时序一致性,实时响应引擎提供高效计算支撑。依托爱诗科技全球超 1 亿用户基础,PixVerse R1 不仅优化个人创意创作,未来还将广泛应用于游戏、影视、互动娱乐等领域,实现虚拟场景实时响应、互动叙事定制等创新体验。信息来源:极客公园
本周AI趋势总结
信息时代,得入口者得天下,AI 正在把“入口”升级为“可执行的交易与行动中枢”。谁不仅能回答问题,而是谁能把事情真正办完,谁才拥有长期价值。
一、AI 正在从「信息入口」走向「交易入口」
苹果选择 Gemini、沃尔玛把商品接入 AI 对话、阿里千问打通搜索—支付—履约,背后指向同一个共识:未来的核心入口,不再是 App 或搜索框,而是 AI 对话本身。当用户能在一次对话中完成信息获取、决策、下单和执行,传统流量分发和平台壁垒正在被削弱。这也是为什么搜索引擎、购物平台、大模型厂商被迫正面竞争“谁掌控最终交易”。
二、「代理型 AI」成为主战场
无论是 Claude Cowork、千问任务助理,还是 Gemini 购物代理,它们的共同点是:不再教你怎么做,而是直接替你去做。对普通人而言,这不是 AI 变聪明了,而是工作结构开始被重写。
三、算力与数据正在「分叉」
智谱基于昇腾训练开源模型、OpenAI 收购医疗数据公司,释放出一个信号:AI 竞争正在从模型能力,转向算力体系 + 行业数据 + 场景资产。未来真正有壁垒的公司,往往不是模型最强的,而是拥有稀缺数据占据高价值场景能在合规与效率间取得平衡
四、AIGC 进入「实时世界模型」阶段
PixVerse R1 的意义不在画质,而在方向,AIGC 正从“生成内容”,走向“生成可交互的世界”。实时响应与连续一致性,让 AI 成为游戏、影视、XR 的底层引擎,这是一次与「静态网页 → 实时 App」同级别的跃迁。
一句话总结
AI 的竞争,正在从“谁更会说”,升级为“谁更能把事办成”。AI进入中后期,赢家将会是最早跑通 AI 行动与交易闭环的那一方。如果 AI 能替我完成 30% 的决策与执行,我该把时间用在什么地方?