本周AI研报|2026.2.23

这一周，国内外 AI 世界发生了很多变化。有的是新闻，有的是趋势，有一些在当下看似不起眼，却可能在几个月甚至一两年后，对普通人产生重大影响。我会持续整理每周国内外最重要的 AI 资讯，并在最后对关键信号进行趋势层面的梳理与总结。信息来源包括 Morning Brew、Stratechery、Lenny’s Newsletter、The Batch、Ben’s Bites、Import AI、Hacker News 、经济学人等。我们不追逐短期热度，而是关注那些正在缓慢发生、却可能深刻改变个人选择和社会结构的 AI 变化。目标只有一个：帮助普通人，帮你以尽可能低的时间和认知成本，建立一条与硅谷同频的 AI 信息流，在技术快速演进的时代里，保持清醒与前瞻。

1. Gemini 3.1 Pro 发布，成为 Gemini 体系的新核心模型

Google 发布 Gemini 3.1 Pro，作为 Gemini 3「Deep Think」能力升级后的核心模型，并陆续上线 Gemini API、AI Studio、Vertex AI、Android Studio、Gemini App 与 NotebookLM。官方披露其在 ARC-AGI-2 上达到 77.1%，显著高于上一代。
这标志着推理能力开始从“实验能力”走向“默认能力”。当更强的推理被嵌入到开发、写作与知识管理等日常工具中，普通人使用 AI 的方式会从“问问题”转向“让 AI 参与复杂决策与规划”，AI 将更像长期协作者，而不是即时问答机。

信息来源：The Rundown AI/谷歌官方发布

2. Google 将音乐生成模型 Lyria 3 集成进 Gemini，AI 音乐进入主流入口

Google 将音乐生成模型接入 Gemini，用户可通过文本或图片生成 30 秒音乐，并自动生成歌词与封面；模型由 DeepMind 研发，所有生成内容带 SynthID 水印并支持检测，YouTube Shorts 的 Dream Track 同步开放。
这是 AI 音乐第一次进入“超级入口”级产品，音乐生成不再需要专门工具，而是变成一次对话行为。长期看，这会改变普通人对“创作”的心理预期：音乐不再是专业技能，而是表达方式的一部分。对平台而言，音乐生产被内置进流量入口，也意味着创作生态与版权治理将被重新洗牌。

信息来源：The Rundown AI

3.Anthropic发布了中端模型Claude Sonnet 4.6，其性能接近旗舰产品，但成本更低。

Anthropic发布Claude Sonnet 4.6，在代码生成、电脑操作、规划、长上下文推理和知识工作等方面都有明显提升，同时保持原有定价。这一版本引入最高100万token的上下文窗口（测试版），意味着可以在一次对话中处理整本书级别的文档或大型代码库，更适合复杂项目和企业场景。Sonnet 4.6已经成为Claude应用中免费和专业用户的默认模型，降低了普通用户体验高级模型的门槛。结合改进后的电脑使用能力，模型能更好地完成多步骤操作和任务自动化，早期 Claude Code 测试者中，70% 更偏好 4.6 版本。
模型能力正在快速向中低价位“下放”。为“智能体式”应用打下基础。总体来看，Sonnet 4.6是在性能与成本之间做出的平衡升级。

信息来源：TLDR AI

4. OpenAI 收购 OpenClaw，从聊天机器人走向自治智能体

OpenAI 收购 OpenClaw，将其工具调用、沙盒执行与多平台集成能力纳入生态，使 AI 不只是回答问题，而是可以实际执行任务。
AI 的产品形态正在从“对话界面”升级为“自动化执行层”。这意味着未来的 AI 会直接嵌入到业务流程中，承担检索、操作系统、调用工具等具体工作。对普通人而言，AI 会从“帮你想”变成“帮你做”，工作结构与岗位边界都会随之发生变化；对企业而言，权限、审计与安全边界将成为新基础设施。

信息来源：TLDR AI

5. OpenAI 挖来 Instagram 的好莱坞对接负责人，冲刺娱乐产业生态

OpenAI 聘请前 Instagram 名人合作负责人 Charles Porch，专职负责与娱乐与创意行业的合作；曾主导 Beyoncé 突袭专辑发布、教皇入驻 Instagram 等标志性事件，被视为科技公司与明星之间的“翻译官”。此前，OpenAI 已与迪士尼达成约 10 亿美元合作，为 Sora 引入 Marvel、皮克斯和星战角色。
生成式视频的核心瓶颈正在从技术转向信任与关系网络。当 AI 开始大规模进入影视与娱乐产业，真正决定其能否落地的，不再只是模型能力，而是版权机制、创作者态度与平台博弈。对普通人而言，这意味着未来你看到的内容中，AI 参与度会越来越高，但“哪些内容被允许出现”，将更多取决于平台与行业规则，而不是技术本身。

信息来源：《The Rundown AI》

6.OpenAI收购OpenClaw：从聊天机器人走向自治智能体

OpenAI收购OpenClaw被解读为“ChatGPT时代”向“自治智能体时代”转折的重要信号。OpenClaw因其强大的任务执行能力而受到欢迎，特点是几乎不受限制的工具调用、沙盒代码执行以及与各类消息平台的集成，这些能力让AI不仅能对话，还能真正“去做事”。通过此次收购，OpenAI将把这些智能体能力纳入自家生态，为企业提供可控、安全、可部署的任务执行智能体解决方案。这意味着未来的AI产品形态会从单一对话界面，演变为深度嵌入业务流程的自动化执行层。企业也将更加关注权限管理、审计和安全边界等问题。

信息来源：TLDR AI

7. GPT-5.2 在粒子物理中推翻“标准答案”

OpenAI 公布预印本论文：研究版 GPT-5.2 在一次独立研究中发现，粒子物理领域一个被广泛接受的答案是错误的，并给出了新的公式与完整证明。模型在约 12 小时内自主写出形式化数学证明，并通过哈佛、剑桥、普林斯顿多位物理学家验证。相关学者评价称，AI 选择了一条“人类不会尝试的路径”，显示其在复杂推理与探索新解法方面的潜力。这一成果正加速把讨论从“AI 能不能思考”转向“AI 会多快改写我们既有的科学共识”。

信息来源：The Rundown AI 《GPT-5.2 makes an original physics discovery》

8.OpenAI与Anthropic竞争进入白热化，两大阵营裂痕公开化

在 India AI Impact Summit 合影环节，印度总理 Narendra Modi 试图拉起科技领袖组成牵手合照，Sam Altman 与 Dario Amodei 却以握拳抬手代替牵手，这一尴尬瞬间迅速在社交媒体传播。事后 Altman 表示自己当时有些困惑，不清楚合影流程；而事件发生前后，Anthropic 与 OpenAI 因广告争议、产品路线与品牌冲突已多次隔空交锋。
头部 AI 实验室之间的竞争正从技术层走向叙事与立场对立。当两家最具影响力的机构难以在公共场合呈现统一姿态，外界看到的不只是“尴尬瞬间”，而是整个行业在商业模式、安全路线与舆论策略上的分裂，这种对立会直接影响政策讨论、行业合作与公众信任。

信息来源：The Rundown AI

9. Tavus 发布Phoenix-4：能“读空气”的实时情感数字人

Tavus 发布 Phoenix-4 模型，可实时生成具有细腻表情和情绪切换的 AI 头像。与传统仅对嘴型和少量表情做驱动的方案不同，Phoenix-4 在每一帧从零渲染整张脸和头部，并基于数千小时真人对话进行训练，可在对话中识别语境变化，呈现十余种情绪状态并自然过渡，如从专注聆听到理解、再到鼓励或同理。该模型支持 40 FPS、高清输出，足以用于在线问诊、教育辅导与销售顾问等场景，在这些场景中，“被认真倾听”的感受会直接影响转化与结果。但同时，这种高度逼真的数字人也提升了深度伪造与身份冒用的潜在风险，AI 从“能说话”进化到“会共情式互动”，视频形态的人机交互逼近可规模化应用阶段，同时也带来更高的欺骗与滥用风险。如何配套水印、溯源及监管机制，将成为下一阶段的重要议题。

信息来源：TLDR AI / Tavus 官方

10.NotebookLM：用自然语言重写PPT的“Prompt-Based Revisions”

NotebookLM推出Prompt-Based Revisions功能，让用户可以直接用自然语言指令来修改PPT内容和结构，而不必手动一页页编辑。目前该功能支持PPTX格式，后续会扩展到Google Slides。用户只需用提示词描述希望的改动，例如“语气更专业”“压缩到10页并突出关键结论”等，系统就会自动生成修改版幻灯片。该功能尤其适合需要频繁迭代演示文稿的团队，如销售、咨询和内部汇报场景，能显著减少重复排版和微调的时间。官方还提供了视频演示，帮助用户快速理解使用方式和效果。

信息来源：TLDR AI

11.Meta与Nvidia扩大全球最大AI算力合作

Meta计划在其AI数据中心中部署数以百万计的Nvidia芯片，包括GPU和独立CPU，并与Nvidia达成扩大合作的长期协议。双方宣称愿景是为全球用户提供“个人超级智能”，这暗示Meta将围绕社交、内容和生产力推出更深度的AI功能。虽然交易的具体金额未披露，但Meta预计今年在AI上的资本支出可高达1350亿美元，显示出对算力基础设施的极端重视。这一投入不仅会推动大模型训练与推理能力提升，也将加剧云厂商和互联网巨头之间的算力竞赛，对芯片供应链和数据中心行业产生深远影响。

信息来源：TLDR AI

12. Apple 加速布局“有眼有耳”的 AI 穿戴设备

Apple 正在加速推进三款搭载摄像头的 AI 穿戴设备：智能眼镜、AI 挂件和带摄像头的新款 AirPods，核心目的是为 Siri 提供实时视觉和环境感知能力，并通过 iPhone 进行处理。智能眼镜将采用双摄和自研镜框，但不配备显示屏，目标在今年底完成量产准备，2027 年面向消费者发布。挂件被内部称为手机的“眼睛与耳朵”，持续采集画面与声音，为手机和 Siri 提供上下文。带低分辨率摄像头的 AirPods 有望最早在今年亮相，用于视觉辅助和实时翻译。这些设备都将依托即将大改版的 Siri，对接由 Google Gemini 驱动的聊天式界面，如果 Siri 真正升级成功，Apple 将在 AI 硬件战中获得重要筹码。

信息来源：TLDR AI

13. Figma 与 Anthropic 打通“从代码到画布”的闭环

Figma 发布与 Anthropic 的“Code to Canvas” 集成功能，可将 Claude Code 里已经跑起来的 Web 界面，一键捕获为 Figma 画布上的可编辑设计稿。系统会将浏览器中的真实 UI 自动转换为 Figma 的原生图层，设计团队可对其进行复制、注释、重排和优化，从而在不重建界面的前提下，对 AI 生成或工程师实现的原型进行“精修”。配合 Figma 现有的 MCP 服务，开发者还能把经过修改的设计重新同步回编码环境，保持产品、设计和开发三方共享同一上下文。此举意在将“AI 快速搭出能跑的界面”与“设计质量可控、易于协作”结合起来，让 Figma 成为 AI 时代从粗糙原型到可交付设计之间的关键一环。

14.Manus Agents：把个人智能体嵌入聊天应用

Manus Agents 让用户不必再单独打开应用或网页，而是直接在即时通讯工具中调用 AI 智能体。目前支持 Telegram，未来将扩展到更多平台。这个智能体可以进行一定程度的多步推理与任务执行，通过工具调用完成复杂操作，例如安排日程、信息检索、内容整理等。其设计思路是“智能体随人走”：用户在哪里聊天，智能体就在哪里出现，从而降低使用门槛，提高粘性。随着更多平台支持和工具生态扩展，这类“聊天内嵌智能体”有望成为个人 AI 助手的主流形态，让自然语言成为日常操作系统的统一入口。

信息来源：Introducing Manus in Your Chat: Your Personal Agent, Everywhere You Are（TLDR AI 2026-02-17）

15.美光豪投2000亿美元，冲破AI内存瓶颈

Micron 正在大规模扩产以应对 AI 带来的内存需求爆发，总投资约 2000 亿美元。公司计划投入 500 亿美元扩建现有 450 英亩园区，新建两座芯片工厂，其中首座预计在 2027 年中期开启 DRAM 量产。同时，美光在纽约开建一座 1000 亿美元级别的晶圆厂，并在日本宣布 96 亿美元投资。此番投入瞄准的是“内存瓶颈”——随着大模型和推理任务膨胀，算力不再是唯一限制，高带宽、高容量内存成为新短板。大规模扩产不仅有望缓解供应压力，还可能在中长期拉低 AI 基础设施成本，加速大模型在更多行业的普及。

信息来源：Micron Is Spending $200 Billion to Break the AI Memory Bottleneck（TLDR AI 2026-02-17）

16. SpaceX 参与五角大楼无人机蜂群项目

SpaceX 及其全资子公司 xAI 正参与一个高度机密的五角大楼项目，目标是打造可语音控制的自主无人机蜂群技术。这意味着战场指挥官可通过语音发出作战指令，由 AI 将自然语言转换成无人机群的战术行动。值得注意的是，马斯克曾高调反对完全脱离人类控制的自主武器，如今却在前沿军用 AI 项目中扮演重要角色，引发外界对其立场变化的讨论。OpenAI 也通过协作方 Applied Intuition 参与其中，但其工作据称仅限于将语音和指令转为数字指令，不参与无人机实际操控、武器集成或目标决策，以划清技术与致命武力之间的界线。

信息来源：TLDR Newsletter，原文指向 CNBC 报道

17. AI 无处不在，但生产率统计才刚刚抬头

一则简短观察指出，美国 2025 年的劳动生产率提升约为 2.7%，几乎是过去十年 1.4% 年均增速的两倍。长期以来，很多人感叹“科技变化巨大，但宏观生产率数据反应平淡”，AI 和数字化的红利似乎未能完全体现在统计指标中。如今数据开始显现更高增速，可能意味着 AI、自动化和软件工具的积累效应正在被逐步释放。当然，一年数据难言趋势，但这为“AI 是否真正提高生产率”这场争论提供了实证佐证，也提醒政策制定者和商业决策者，要为持续的效率提升预留制度和组织层面的调整空间。

信息来源：You see tech and AI everywhere, but in the productivity statistics（TLDR AI 2026-02-17）

附：2026年已融资过亿美金的17家美国AI公司概览

一篇TechCrunch统计文章列出了2026年在美国融资达1亿美元或以上的17家AI公司，包括Simile、Anthropic、Runway、Goodfire、Fundamental、ElevenLabs、PaleBlueDot AI、Decagon、Flapping Airplanes、Baseten、Inferact、OpenEvidence、humans&、SkildAI、Deepgram、Arena和xAI。这些公司覆盖生成式媒体、多模态模型、开发者基础设施、语音合成、企业知识管理等多个赛道，反映资本对“模型+应用+工具链”全栈布局的持续看好。名单中既有广为人知的头部玩家，也有专注垂直领域的新秀，对观察行业趋势和寻找合作对象具有参考价值。

本周趋势总结：

多家 AI 厂商在基础模型和算力层面动作频繁。xAI 正在公测 Grok 4.20，新版本引入四个并行协作智能体的工作流，提升复杂任务与检索研究能力。Meta 与 Nvidia 宣布一项覆盖数百万 GPU/CPU 的多年期芯片合作，用于构建 Meta 的下一代 AI 基础设施。Cohere Labs 开源了 33.5 亿参数的小模型 Tiny Aya，支持 70+ 种语言，尤其在以往被忽视的语种上有明显提升。法国初创公司 Mistral 则完成首笔收购，将无服务器平台 Koyeb 并入其云基础设施业务 Mistral Compute，以增强推理与服务能力。

真正的变化不只发生在模型层，而是发生在产品形态与组织方式上。 AI 开始嵌入办公、创作、设计、流程执行与硬件终端，逐步变成“默认工作层”。当工具调用、长上下文与自动化能力变得稳定可用，普通人的工作方式会从“用 AI 提速”，转向“围绕 AI 重新组织流程”。下一阶段的分水岭，将不是谁的模型更强，而是谁更早把 AI 变成可持续的基础设施。

ZBlogIt

Nice to meet you, too!

本周AI研报|2026.2.23

wang 发表于2026-02-23 15:02:10 浏览10 评论0

1. Gemini 3.1 Pro 发布，成为 Gemini 体系的新核心模型

2. Google 将音乐生成模型 Lyria 3 集成进 Gemini，AI 音乐进入主流入口

4. OpenAI 收购 OpenClaw，从聊天机器人走向自治智能体

5. OpenAI 挖来 Instagram 的好莱坞对接负责人，冲刺娱乐产业生态

8.OpenAI与Anthropic竞争进入白热化，两大阵营裂痕公开化

信息来源：The Rundown AI

少长咸集

« 2025年6月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30