
写在前面
“【Rocky Ding独家AI产业研报】栏目专注于分享AI行业核心方向的最新进展与价值资讯。
”
AIGC时代的《三年面试五年模拟》AI算法/开发工程师求职面试秘籍独家资源:https://github.com/WeThinkIn/AIGC-Interview-Book
Rocky最新撰写AI Agent(AI智能体)的深入浅出全维度解析文章:https://zhuanlan.zhihu.com/p/1919046969076195976
AIGC算法岗/开发岗面试面经交流社群(涵盖AI绘画、AI视频、大模型、AI多模态、数字人等AIGC面试干货资源)欢迎大家加入:

大家好,我是Rocky。
Rocky总结归纳了过去十八天中AI行业里高价值、本质、热门、具备跨周期潜质的最新资讯、项目与行业进展,并结合了Rocky的思考与分析,分享给大家。
大家如果觉得Rocky的汇总有遗漏,欢迎在评论区分享更多高价值的AI行业资讯、项目与最近进展。一起共建,一起深度参与到AIGC时代AI行业的快速发展与持续深耕中来!
So,enjoy!(与本文的BGM一起食用更佳哦):
1. AI投融资与市场信号
最值得关注的方向动态
大模型融资正在从“未来故事”变成“产能扩张”。 Anthropic 650 亿美元 Series H(和Rocky一起学一级市场知识:Series H指H轮融资,通常来说是公司在首次公开募股 (IPO) 之前进行的第 8 轮私募股权融资,属于非常后期的成长型融资阶段,通常是上市前最后一轮或倒数第二轮大规模融资) 的意义不只是金额巨大,而是它把企业需求、算力供给、安全研究、模型能力和全球分发绑在了一起。对头部大模型公司来说,融资不再只是补血,而是争夺下一阶段计算资源和客户交付能力。 企业级 adoption 正在变成估值的重要支撑。 KPMG 276,000 人规模的合作,和 Anthropic 披露的高 run-rate revenue(指年化收入 / 收入运行率,将公司某一较短时期内的实际收入年化推算出的全年预计收入),共同说明大模型公司的估值叙事正在从“大模型可能改变世界”转向“大模型已经进入各行各业的组织流程”。 资本强信号集中在大模型、算力和企业基础设施层。 Rocky认为,AI应用层仍然会有融资窗口,但纯AI应用如果没有客户数据、流量入口和交付闭环,很容易被大厂平台的后续默认功能吸收。越靠近大模型、算力、安全、开发者生态和关键企业流程,越容易支撑跨周期的价值判断。 安全与可解释性开始成为融资后的硬投入方向。 Anthropic 将资金用途指向 safety、interpretability、compute 和产品伙伴关系,说明下一阶段竞争不只是把大模型参数量做大,还要让更强大模型在企业、代码和高风险行业里安全可控地运行。 资本正在从“AI 应用故事”转向更硬的基础设施和物理世界入口。 Cerebras、Fractile、Mind Robotics 和 Config 代表的不是同一种公司,却共同指向推理硬件、芯片、工业机器人和机器人数据基础设施。它们的共同点是离模型调用更远、离产业瓶颈更近。 推理硬件成为大模型商业化的底层赌注。 当大模型进入金融、办公、Agent、移动端和企业系统,成本、吞吐、延迟和供给稳定性就不再是后台问题,而是产品毛利和交付能力的一部分。Cerebras 的 IPO 热度和 Fractile 的大额 B 轮,反映的是市场对“非 GPU 默认路径”的持续寻找。 Physical AI 的资本叙事开始从机器人本体转向数据、场景和工业部署。 Mind Robotics 背靠 Rivian 工业制造场景,Config 强调机器人训练数据,说明具身智能的融资逻辑不只在“造一个聪明机器人”,而在真实工厂、真实轨迹、真实仿真和可迁移控制栈。 应用层融资仍有机会,但必须回答平台吸收风险。 Nectar Social 这类营销 Agent 公司如果只有内容生成,很容易被大模型平台、广告平台或营销套件吞掉;它真正需要证明的是能否沉淀品牌数据、社交渠道反馈、转化闭环和企业工作流入口。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
Rocky认为,这一阶段的 AI 投融资不能只看金额,而要看资金流向解决什么瓶颈。
Anthropic 的 Series H 是强信号,因为它对应的是基础大模型、企业 adoption、算力扩张、安全可控和全球市场组织能力。它不是一个“AI应用公司拿钱扩销售”的故事,而是大模型公司在争夺产业核心底座位置。KPMG 这种专业服务组织的引入,也比普通 logo list 更值得看:审计、税务、法律、咨询天然包含大量文档、判断、流程、合规和交付责任,如果 Claude 能在这些场景里稳定进入交付链条,就会彻底改变专业服务公司的人效结构。
但这也提醒我们,AI 应用层公司会更难。通用大模型越来越强,平台入口的用户护城河越来越深,AI Agent 和多模态能力越来越默认化。AI应用公司必须证明自己不是“大模型无长期价值套壳”,而是能掌握客户、数据、流程和行业责任的完整系统。资本不是不投AI应用,而是会越来越挑:谁只是demo,谁是真正的护城河owner,谁具备跨周期价值,差距会越来越大。
推理硬件和 AI 芯片之所以更有跨周期价值,不是因为融资金额更大,而是因为它们直接绑定了大模型商业化的底层约束。大模型越多、AI Agent 越多、视频和多模态越深入生产,推理成本、显存效率、吞吐、能耗和供应链就越难绕开。Cerebras 和 Fractile 代表的是这条线。
具身智能融资的价值,也不能只看金额。Mind Robotics 的信号强在工业场景、资本规模和 Rivian spinout 背景,但公开论文、开源组件、开发者生态仍不充分;Config 的融资规模小很多,却更靠近机器人数据这个长期瓶颈。前者适合看产业部署,后者适合看基础设施层。
应用层融资则需要更谨慎。Nectar Social 这类公司如果能掌握品牌内容、社交渠道反馈、营销转化和 Agent 执行流,就可能成为垂直工作流入口;如果只是包装通用大模型做内容生成,就会面临被大厂平台全盘吸收风险。AI 应用公司的融资强不强,不在于新闻稿有多漂亮,而在于它有没有客户、数据、渠道和执行闭环。
2. AI Agent
最值得关注的方向动态
Agent 正在从聊天框成为AI系统入口。 Google I/O 2026 把 Gemini 3.5、Gemini App、AI Mode、Daily Brief、Gemini Spark、Enterprise Agent Platform 和开发者平台串起来,说明 Agent 不再只是一个独立应用,而是在搜索、移动端、企业平台和开发工具里成为默认能力。 企业 Agent 的核心约束开始从“能不能做事”转向“能不能被安全可控的完整执行任务”。 Anthropic 的 containment 工程文不是营销材料,而是 Agent 产品化绕不开的底层问题:claude.ai、Claude Code、Claude Cowork 面对不同边界,必须在环境层、权限层、执行层控制 agent 的行为半径。 Workspace、白盒记忆、模型路由和 Always-on 正在成为 Agent 工程化关键词。 PilotDeck 的价值不在于又做了一个 Agent UI,而在于它把项目隔离、可编辑记忆、成本路由、后台执行、MCP 接入和多前端一致性放在同一个系统里。 工具调用正在从“大模型会用工具”升级为“工具被结构化暴露给 Agent”。 Model Studio CLI 把文本、图像、视频、音频、多模态理解、Web search、知识库和应用调用做成 CLI 与结构化 tool calls,这代表平台能力正在以 Agent 可编排的方式下沉。 Agent 研究正在补长期推理和上下文一致性。 Reasoning in Memory 用 memory blocks 替代显式生成推理步骤,Same Evidence, Different Answers 关注多轮信息披露下的一致性,说明 Agent 不是只要更多工具,还需要更稳的工作记忆和对话状态管理。 Agent 正在从“回答问题”转向“接管流程中的一段执行责任”。 Codex 进入 ChatGPT 移动端,表面上是多了一个入口,本质上是让 coding agent 从桌面 IDE 走向异步任务系统。人不一定一直坐在电脑前,但仍然可以在关键节点审批、查看、接续。 企业 Agent 的真正落点不是聊天框,而是业务系统连接。 Claude for Small Business 把财务、支付、销售、设计、签约和办公软件连接起来,说明 SMB 市场需要的不是“一个更聪明的对话框”,而是能直接嵌入业务流程的执行层。 专业服务正在成为 Agent 的重要试验场。 Anthropic 与 PwC 的合作之所以重要,是因为咨询、财务、交易、审计这类场景天然依赖文档、流程、判断和交付。如果 Agent 能在这些场景里形成稳定工作流,它就不再只是效率插件,而是交付体系的一部分。 创意生产也开始 Agent 化。 Runway Agent 把视频生产放进对话式工作流,意味着 Agent 不只会出现在代码和办公里,也会进入营销、品牌、短视频和视觉内容生产。 Agent 研究正在把“搜索更多”改写成“证据如何被组织”。 Argus 的重点不是简单扩大并行 rollout,而是让 Searcher 收集证据轨迹、Navigator 维护共享 evidence graph、判断缺失证据并合成带来源的答案;FORGE 则说明 Agent 记忆也可以通过失败轨迹沉淀成规则和示例,在不更新权重的情况下改善决策。 开源 Agent 生态正在把“会用工具”变成一种工程约定。 smolagents 这类框架把代码执行型 Agent 和结构化工具调用型 Agent 分开,同时把 MCP 工具、Hub/Space 工具复用、多模型接入和 E2B、Docker、Modal、Pyodide+Deno 等沙箱执行路径放进同一个工程语境里。本质上,它回答的是一个落地问题:Agent 不是只要会想,还要知道以什么格式调用工具、在哪个环境里执行、如何被隔离、托管和审计。这类接口层的成熟,往往比单次 demo 更能决定 Agent 能不能进入真实业务系统。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
Rocky认为,Agent 的关键词已经从“会不会调用工具”变成了能不能成为组织工作的稳定可靠运行架构。
一个 Agent 如果只是会在浏览器里点几下、在 IDE 里改几行代码,它仍然是功能;但如果它有项目隔离、可追踪记忆、模型路由、权限边界、后台任务、工具协议、成本核算和结果落盘,它就开始接近工作系统。PilotDeck 的出现之所以值得看,不是因为它的所有指标都已被充分验证,而是因为它抓住了 Agent 工程化的真实痛点:长期任务不是一次 prompt,而是一组可隔离、可恢复、可审计、可计费的执行过程。
Rocky认为,Agent 的长期竞争不会停在“谁的大模型更聪明”。大模型会越来越强,工具会越来越多,但真正拉开差距的是稳定可靠持续运行、记忆系统、权限边界、工作流连接和组织分发。谁能把 Agent 变成公司日常流程的一部分,谁才真正进入产业深水区。
3. AI图像生成
最值得关注的方向动态
图像创作正在 Agent 化。 GenClaw 的核心不是再做一个更会改 prompt 的系统,而是让 Agent 先理解、再用 SVG/HTML/Three.js 这类代码生成可控草图,最后再交给图像创作大模型补材质和真实感。这是一条从“黑盒出图”走向“可控画布”的路线。 可商用、可规模化的数据正在成为图像生成的新基础设施。 GPIC 提供约 28 万亿像素、100M 训练图像、200K 验证图像和 1M 测试图像,且强调 permissive license、去重、安全过滤和 Hugging Face 托管,说明视觉生成下一阶段不仅拼模型架构,也拼稳定数据底座。 图像模型的评价正在从审美转向任务化评测。 Qwen-Image-Bench 这类资源把图像生成评价与 judge model、文字渲染、语义遵循和多语言能力关联起来,说明“好看”已经不够,模型需要在文档、海报、UI、广告和信息图中承担可检查的任务。 低比特和端侧生成仍然值得关注,但要谨慎评分。 Bonsai image ternary/2bit 这类 HF 资源显示开源社区在探索更轻量的 text-to-image 路线,但短期更像工程试验,长期价值取决于真实画质、速度、硬件适配和工作流集成。 图像生成正在从“审美能力”进入“信息承载能力”。 Qwen-Image-2.0 的重点不是再生成一张更漂亮的图,而是把长文本、多语言文字渲染、复杂排版、图像编辑和高保真生成放到同一个框架里;它进一步用 Qwen3-VL 作为条件编码器,并结合 Multimodal Diffusion Transformer 做联合 condition-target 建模。 文字可靠性和编辑一致性正在成为下一轮产品门槛。 海报、幻灯片、漫画、信息图、UI mockup 这些场景,本质上要求模型理解结构、层级、文字和视觉关系。它们比单张美图更接近真实商业生产。 真正值得看的不只是论文,而是模型能不能进入生产工具链。 Qwen-Image 和 Qwen-Image-Edit 的关键,不只是它们能生成和编辑图像,而是它们已经进入 Diffusers 这类开发者熟悉的调用路径,并形成生成、编辑、提示词重写、LoRA、ComfyUI、低显存推理和部署优化的生态入口。一个图像创作大模型一旦生态繁荣化,就更容易被工作流工具、社区插件、企业内容系统和二次训练继续接住;这才是开源图像大模型从“好模型”走向“生产核心底座”的开始。 高质量生成开始面对端侧部署问题。 ElasticDiT 不是泛泛讲“轻量化”,而是用可调空间压缩比例、DiT block depth、Shift Sparse Block Attention 和 Tiny DWT-Distilled VAE,在移动端约束下动态平衡画质、延迟和内存。 图像编辑和对齐正在进入更细颗粒度的控制阶段。 AdaEraser 把对象移除拆成 token-wise adaptive attention suppression,AdaScope 重新审视 diffusion RL 应该在哪些去噪阶段优化,Sphere Latent Encoder 则把少步生成转向固定图像编码器和球形 latent denoising。它们共同指向一个问题:生成图像要从“出图”走向“可修改、可对齐、可交付”。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
图像创作领域的下半场,不是简单地更高清、更写实,而是可控、可评测、可商用、丰富的跨周期工作流护城河。
过去很多图像模型强在审美,但弱在文字、排版和局部编辑。可真实商业内容往往不是一张孤立图片,而是有标题、有结构、有品牌、有多语言、有局部修改需求的视觉材料。谁能稳定处理这些细节,谁才真正接近设计、营销、教育、电商和内容生产的主流程。
GenClaw 很有启发性,因为它指出了黑盒 prompt-to-image 的天花板:当画面需要结构、版式、空间关系、UI 元素、文字和步骤时,单靠自然语言提示词反复试错效率很低。代码作为中间画布,能把 LLM 的规划能力和图像模型的渲染能力连接起来。未来很多商业视觉内容不一定是“一句话出图”,而可能是“LLM 先生成结构化草图,再由视觉模型完成质感”。
GPIC 则提醒我们,图像生成不只是大模型故事,也是数据故事。一个可商用、可复现、可长期使用的大规模视觉语料,会影响开放模型、benchmark、企业部署和版权合规。图像生成越进入商业生产,数据来源和许可证就越不是边角问题,而是能否规模化的前提。
4. AI视频生成
最值得关注的方向动态
Google Flow 把视频生成包装成创意工作流,而不是孤立模型。 Flow 绑定 Veo、Imagen 和 Gemini,意味着视频生成正在进入脚本、镜头、角色、风格、版本迭代和团队协作的生产链条。 视频和世界模型的边界正在变薄。 YoCausal 用因果视角追问视频生成模型是否真的理解时间箭头与因果关系,minWM 则把现有 T2V/TI2V foundation model 转成实时交互视频世界模型。视频不再只是内容,而开始承担模拟环境的角色。 评测正在从局部视觉质量走向长篇叙事和多智能体评价。 DirectorBench 关注 long-form video generation 的叙事结构、镜头控制、音频和跨模态同步,说明视频生成真正进入生产后,评测对象会从单帧美感变成导演能力。 视频生成正在从模型 demo 走向创意工作流。 Runway Agent 的重点不是“又多了一个生成入口”,而是把脚本、风格、角色、素材和版本迭代放进对话式协作界面。 实时视频正在打开数字人和交互角色场景。 Runway Characters 把音频驱动角色做成实时体验,意味着视频生成不再只是离线生成 clip,而可能成为在线交互界面。 研究侧正在补长视频一致性和可控性。 Echo-Forcing 处理的是交互长视频里的 prompt switching、旧场景遗忘和历史场景召回;Design Video Generation 把评测拆成 layout fidelity、motion correctness、temporal quality 和 content fidelity;FashionChameleon 则指向低延迟、多服装、交互式人像服装视频定制。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
视频生成的下一阶段,可以概括为三个词:可控、实时、工作流化。
视频生成大模型当然还会继续比拼画质和运动质量,但产业真正需要的不是一段孤立视频,而是一个能持续改脚本、换角色、调风格、复用素材、输出多个版本的创意生产系统。Runway 的产品动作在提示一个方向:视频生成正在从“模型能力”变成“生产流程”。
更有意思的是,视频生成正在同时通向 Agent、数字人和世界模型。视频生成进入了一个很关键的阶段:它正在同时向内容生产工具和世界模型底座分叉。Agent 解决流程,数字人解决交互界面,世界模型解决状态、动作和场景记忆的连续性。三条线看似不同,本质上都在回答一个问题:AI 如何生成一个可被人持续控制、可被系统持续记忆的动态世界。
内容生产这条线,需要 Flow 这样的产品形态。创作者真正需要的不是一段偶然好看的视频,而是能控制镜头、角色、风格、剪辑、版本、字幕、音效和交付规格的流程。Google 把 Veo、Imagen、Gemini 放进 Flow,本质上是在把模型能力包装成创作系统。
世界模型这条线,则更像底层研究路线。VideoMLA、AdaState、YoCausal、minWM 共同回答的是:如果视频模型要模拟可交互世界,它必须处理长程记忆、低延迟、因果一致性、状态更新和控制信号。画面真实只是第一层,真正难的是动态世界能不能被连续、可控、可验证地展开。
5. LLM 大模型
最值得关注的方向动态
LLM 竞争从“会答题”转向“会长期协作”。 Claude Opus 4.8 强调 coding、agentic tasks、professional work 和 long-running work,说明高端大模型的价值越来越集中在复杂任务协作,而不是单轮问答。 Google 的 Gemini 3.5 把大模型能力绑定到行动能力。 “frontier intelligence with action”不是一句口号,它对应的是搜索、移动端、开发者平台和企业 Agent 平台里的统一模型入口。 推理方式正在从外显 chain-of-thought 走向 latent computation。 Reasoning in Memory 的思路值得关注,因为它试图把推理计算和自然语言输出分离,未来可能影响成本、隐私、可控性和推理延迟。 模型能力越来越需要 system card、安全评估和产品边界共同解释。 Anthropic 在 Opus 4.8 中把能力升级、Project Glasswing、Mythos Preview 和安全评估放到同一语境,说明 frontier 模型发布已经无法脱离风险治理。 开源模型的价值越来越取决于部署生态。 Qwen3-0.6B 这类小参数开源模型的意义,不只是“又多了一个可下载权重”,而是它代表了一类更现实的路线:模型要能被常规框架加载、被推理服务接住、被开发者快速试错,才可能在大量中小场景里形成真实使用。对于开发者而言,“能不能跑起来、怎么跑得便宜、能不能接进已有系统”,有时比榜单上的几分差距更重要。 推理成本和基础设施仍是商业化瓶颈。 Fractile 推理硬件融资、Cerebras IPO 等事件说明,模型越深入业务,推理效率、硬件供给和成本结构就越重要。Transformers 生态里围绕自动设备映射、低内存加载、量化和大模型分发的工程讨论,也从侧面说明同一个现实:大模型商业化最终会落到显存、延迟、吞吐、稳定性和部署体验上。 大模型评估会越来越像系统评估。 Argus、FORGE 和 compound LLM agent 论文说明,未来不能只问模型答题多强,还要问它在上下文表示、推理策略、任务分解、token 成本和失败缓解环境里的表现如何。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
LLM 的叙事正在变得更现实。
过去大模型发布最容易被传播的是 benchmark 分数,现在真正重要的是:它能不能在代码、研究、财务、法律、咨询、企业流程和长任务中保持稳定;能不能被安全 containment;能不能被产品入口放大;能不能以合理成本完成更长的任务链。
Rocky认为,基础大模型仍是 AI 产业的发动机,但发动机本身已经不足以解释竞争格局。下一阶段,大模型公司比拼的是“模型 + 入口 + 工具 + 可控稳定运行 + 安全 + 企业客户”的组合能力。只看大模型分数,会越来越容易误判产业位置。
6. AI多模态
最值得关注的方向动态
多模态正在从感知能力走向统一生成与交互入口。 Gemini Omni 能从文本、图像、视频输入生成和编辑视频,未来还计划支持图像和音频输出,这意味着多模态不再只是“看懂输入”,而是在统一输入输出空间里操作内容。 多模态 Agent 需要全双工能力。 VideoFDB 把对话 Agent 的评测扩展到 audio-visual-to-audio-visual,关注同时听、说、看、回应和生成非语言反馈,这比传统 speech-only full-duplex 更接近真实人机互动。 多模态融合仍有底层机制问题。 LoMo、GR3D、Beyond 3D VQAs、visual counting bottleneck 等论文都说明,VLM 并没有天然拥有稳定空间理解、计数和跨模态等价能力,产品侧越依赖多模态,底层错误就越需要被解释。 数据、评测和许可会影响开放多模态生态。 GPIC、Qwen-Image-Bench、VideoFDB 这些资源的共同点,是把多模态能力从“模型自称很强”拉回到数据、benchmark、许可证和可复现评价。 多模态正在从应用层进入系统层。 Gemini Intelligence 接入 Android,意味着模型开始理解设备、语音、表单、输入和跨应用上下文。这比单独做一个多模态 App 更靠近用户日常入口。 统一多模态并不只是把图像、文本和语音拼起来。 图文统一自回归训练中的 modality competition 说明,不同模态之间存在梯度异质性、优化稳定性和能力分配问题,甚至需要二阶预条件和多级方差校正来处理。 开放多模态模型正在形成“可选规格”的模型族。 Qwen3-VL 这类模型的价值不只在于单个旗舰版本,而在于它提供了不同参数规模、不同部署成本和不同任务强度的选择。多模态模型一旦变成模型族,开发者就不必在“闭源旗舰能力”和“完全不可用的小模型”之间二选一,而可以按场景、成本和延迟做工程取舍。 多模态安全正在成为新攻击面。 CrossMPI 的关键点是 image-only prompt injection 能同时影响模型对文本和视觉输入的解释,说明未来攻击不一定只藏在文本里,也可能通过图像扰动跨模态传播。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
多模态的下一站不是“看图聊天”,而是能把视觉、语音、文本、设备上下文和真实任务连接起来。
Gemini Omni 代表平台侧的多模态统一,Archon 代表生成侧的多模态统一,VideoFDB 代表交互侧的多模态评测。它们共同说明,多模态系统正在从单次感知走向连续互动:模型不只是看见,还要在语音、表情、动作、视频和内容生产中持续回应。
但多模态越靠近真实场景,越不能只看 demo。计数、空间关系、因果、非语言反馈、跨模态一致性、许可证和数据偏差都会变成产品质量的一部分。未来真正有价值的多模态模型,不只是“模态多”,而是能在复杂任务里稳定对齐输入、输出、动作和评价。
Android 系统入口代表产品侧的下沉,Qwen3-VL 这类开放模型族代表开发侧的规格化,遥感和工业异常检测代表行业侧的落地,安全和训练稳定性论文则提醒我们:多模态能力越强,系统复杂度和攻击面也越大。
7. AI数字人
最值得关注的方向动态
数字人正在从口型同步走向 holistic avatar generation。 Archon 统一文本、音频、动作和视觉内容,并用多模态 tokenizers 和 autoregressive unified model 建模多模态联合分布,说明数字人要从“脸会动”变成“人能完整表达”。 全双工多模态对话是数字人下一道门槛。 VideoFDB 强调真实对话中人会同时说、听、看、点头、微笑和做手势,数字人如果不能处理这些非语言动态,就很难成为自然交互界面。 talking face 研究仍在降低个性化和微调成本。 IP-Adapter Is All You Need 尝试 fine-tuning-free diffusion-based talking face generation,说明数字人商业化的一个核心变量仍是成本、速度和泛化。 数字人与视频世界模型正在靠近。 当数字人需要长期身份一致、动作一致、语音同步和环境交互时,它会自然进入视频生成、世界模型和具身交互的共同技术栈。 Avatar 构建成本仍是核心瓶颈。 FFAvatar 的摘要很直接:传统 avatar reconstruction 要么依赖数小时 per-subject optimization,要么依赖昂贵预处理;它试图用 few-shot unposed portraits 在数秒内重建可动画 3D Gaussian head avatars。 真实数字人不能只有口型。 UMo 把文本、音频和 motion tokens 放进统一稀疏 motion modeling 架构,用空间稀疏 MoE 和 keyframe-centric 时间稀疏设计服务实时 co-speech avatars,说明表达系统正在从嘴部同步扩展到手势、表情和身体动作。 工业级 3D 头部生成开始强调资产管线。 TOPOS 关注固定 studio-style topology、rigging、skinning、animation 和 vertex-level correspondence,说明数字人如果要进入影视、动画、游戏,就必须符合工业制作流程,而不是停留在短视频特效。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
数字人的核心变量正在从“像不像人”转向“能不能持续交互”。
短视频时代,数字人可以靠一张脸、一个声音和口型同步完成很多内容生产任务。但进入客服、教育、陪伴、直播、品牌 IP、游戏 NPC 和虚拟员工场景后,数字人必须处理更复杂的东西:听见用户说话,看见用户状态,理解上下文,做出非语言反馈,并保持身份、情绪、动作和语音的一致性。
Rocky认为,数字人会被视频生成、多模态 Agent 和世界模型共同推动。真正有长期价值的不是单个 talking head demo,而是可交互、可控制、可复用、可嵌入业务系统的 Avatar 稳定可控长期运行。
8. AI音频生成
最值得关注的方向动态
音频生成正在补物理一致性评测。 FlatSounds 关注 video-to-audio 模型是否理解物理过程,而不是只生成听起来合理的声音。这对影视、游戏、仿真和机器人都重要,因为音频要与动作、材质、碰撞和时间同步。 语音 tokenization 仍是统一语音模型的底座问题。 HoliTok 尝试构建既能被语言模型学习、又能高质量解码为波形的连续 holistic speech tokenization,说明 speech generation 和 understanding 的统一仍依赖更好的表示空间。 音频安全正在从文本 jailbreak 扩展到声学通道。 Audio Jailbreaks in Large Audio-Language Models 把风险从 token-level prompt 扩展到 speech perception-to-reasoning pipeline,未来语音助手、车载、客服和智能硬件都会面对这类攻击面。 音乐与音频理解开始需要时间定位。 MusTBENCH 关注 music LLM 的 temporal grounding,说明音频模型不能只总结整段内容,还要知道关键事件发生在什么时候。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
音频生成的热度在整个AI行业仍然处于较低的位置,但它的长期价值被低估了。
Rocky认为原因很简单:当 AI 进入视频、数字人、游戏、XR、机器人和车载系统,声音就不是装饰,而是交互的一部分。一个视频生成模型如果不能生成符合物理过程的声音,它就很难真正成为世界模拟器;一个语音 Agent 如果无法抵抗声学 jailbreak,它就很难进入高信任场景;一个音乐模型如果不知道某段旋律或节奏发生在什么时候,它就很难成为真正的编辑工具。
音频的慢变量是 tokenizer、时间定位、物理一致性、安全和版权。短期看不如视频领域爆炸,长期却会成为多模态系统真实性和可用性的关键拼图。
9. 世界模型
最值得关注的方向动态
世界模型的研究正在从“视频像不像”进入“因果懂不懂”。 YoCausal 的价值在于它不满足于视觉质量,而是问视频扩散模型是否理解时间箭头、反事实和因果结构。 实时交互世界模型开始需要全栈工程。 minWM 把数据构造、可控微调、自回归训练、少步蒸馏和流式推理放到同一个开源框架里,说明世界模型不是单篇模型论文,而是系统工程。 世界模型强化学习正在处理搜索与价值学习错位。 MBDPO 用 diffusion policy representations 统一 search 和 policy optimization,说明世界模型要真正服务长期决策,不能只做未来预测。 长视频生成正在成为世界模型的前置技术。 VideoMLA、AdaState、VPG、Veda 等工作处理的是内存、状态、前缀漂移、稀疏注意力和扩散蒸馏,这些都是交互式世界模型必须解决的底层问题。 世界模型还远未产业成熟,但已经成为视频生成和具身智能之间的一种共同语言。 它连接的是“生成画面”和“理解行动后果”这两个原本分离的问题。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
世界模型的重点不是“生成一段更真实的视频”,而是让模型理解状态、动作、环境变化和未来后果。
它和视频生成共享序列建模问题,又和具身智能共享行动后果预测、物理可行性和闭环控制问题。短期看,它会先出现在视频一致性、导航、仿真和实时角色中;长期看,它可能成为 AI 从语言智能走向物理智能的中间桥梁。
世界模型正在从一个宏大概念,变成一组越来越具体的工程问题。
如果一个模型只是生成逼真的视频,它仍然可能只是在拟合像素和时间统计。真正的世界模型要能回答:动作会导致什么结果?物理状态如何变化?因果关系是否成立?在低延迟环境下如何持续 rollout?生成的未来能不能反过来指导策略?
Rocky认为,世界模型的长期价值在于它会成为视频生成、具身智能、自动驾驶、游戏仿真和机器人学习之间的共同接口。它不是视频模型的营销升级版,而是 AI 从内容生成走向真实环境决策的桥。
10. 具身智能
最值得关注的方向动态
VLA 正在从单任务策略走向统一底座。 Qwen-VLA 把 Qwen 的视觉语言建模栈扩展到连续动作和轨迹生成,并通过 DiT-based action decoder、联合预训练、多机器人 embodiment-aware prompt conditioning 处理跨任务、跨环境、跨本体泛化。 真实机器人评测正在补统计严谨性。 PhAIL 不再只看固定超时下的二元成功率,而把 time-to-success CDF、Human-Relative Throughput 和 bootstrap confidence intervals 引入 VLA 评测,说明 Physical AI 需要更可信的实验方法。 人类意图信号会成为机器人交互的重要输入。 Gaze2Act 用 gaze 作为动态意图信号,解决语言难以精确描述目标和动作的问题,提示未来机器人不是只听指令,还要理解人类注意力。 机器人感知需要从静态识别转向 action-relevant dynamics。 DynaFLIP 强调 tri-modal-dynamics guided representation,说明机器人真正需要的视觉表征不是“认出物体”,而是保留与动作相关的变化。
高价值资源汇总
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 | |
| 资源 |
板块判断
具身智能这一轮最值得看的不是某个机器人 demo,而是VLA 底座、真实评测和交互信号正在同时补齐。
具身智能正在从“让机器人听懂指令”,转向“让机器人在物理世界里低成本、实时、稳定地闭环执行”。这句话听起来只是技术路线变化,但背后其实是产业逻辑的变化。
机器人不是聊天框。它必须在真实空间里感知、判断、移动、抓取、避障和纠错。任何一个环节不稳定,都会把大模型能力变成演示能力,而不是生产力。所以具身智能的瓶颈,正在从单点模型能力转向数据、仿真、benchmark、实时控制、后训练计算效率和硬件系统协同。
Qwen-VLA 的意义在于,它试图把分散的 manipulation、navigation、trajectory prediction 放进统一模型里,并把不同机器人本体通过文字提示条件化。这条路线如果成立,机器人模型会更像基础模型:先有通用底座,再按任务、本体和环境适配。
但具身智能不能只靠模型规模。PhAIL 提醒我们,真实机器人评测必须有统计可靠性;Gaze2Act 提醒我们,语言不是唯一人类意图接口;DynaFLIP 提醒我们,静态视觉理解不足以支撑动作。Physical AI 真正难的地方,在数据、评测、仿真、控制、实时性和安全落地,而不是把多模态模型简单接到机械臂上。
Rocky认为,Physical AI 的长期价值不在于短期融资热度,而在于它可能成为 AI 进入真实物理世界的基础设施。真正值得长期跟踪的,不是哪家公司融资金额最大,而是谁能把机器人数据、仿真、控制、硬件和任务评测变成可复用的产业接口。
11. AI行业八卦观察区
Google I/O 之后,行业会自然期待“Gemini Omni 是否会变成新的创意入口”。 这个期待合理,因为 Omni Flash 已经被放进 Gemini App、Flow 和 YouTube Shorts,而且 Google 明确把视频编辑、自然语言交互和未来图像/音频输出放在同一条线上。但目前还不能把它直接等同于完整创意操作系统。真正要看的是 API 开放节奏、创作者留存、Flow 的版本控制能力、YouTube Shorts 的分发反馈,以及它能否处理品牌一致性、版权和团队协作。 Anthropic 的 650 亿美元融资会引发“AI 是否再次泡沫化”的讨论。 这类讨论会很热,但不能只用金额判断泡沫。更重要的是 Anthropic 披露的企业需求、run-rate revenue、算力扩张、安全投入和模型产品节奏能否持续匹配估值。如果后续 Opus 4.8、Claude Code/Cowork、企业合作和 API 使用增长能形成闭环,它就是产业基础设施融资;如果增长主要来自补贴和短期尝鲜,则估值压力会反噬。 Qwen-VLA 会带来“开源具身底座是否加速”的预期。 这很值得跟踪,但不能因为名字里有 Qwen 就直接推断它已经解决机器人泛化。后续要看是否释放权重、数据配方、训练细节、跨本体实机评测、社区复现和下游项目接入。VLA 的真正含金量不在论文标题,而在真实机器人上能否稳定迁移。 PilotDeck 这类 Agent OS 项目会被社区快速追捧。 stars 能说明注意力,但不能替代真实采用。它的方向很对:Workspace、白盒记忆、智能路由、Always-on 和 MCP 都是 Agent 工程化痛点。后续要看安装成功率、长期任务稳定性、内存可控性、插件生态、企业权限体系和实际用户工作流留存。 视频生成论文密集出现,会让“世界模型临界点来了”的说法再次升温。 这类判断要克制。VideoMLA、AdaState、YoCausal、minWM 的确说明底层技术在补齐,但世界模型不是长视频模型的同义词。真正的临界点要看可控交互、因果一致性、低延迟 rollout、动作闭环和下游策略收益,而不是看生成视频是否更长更稳。 DeepSeek 后续版本传闻仍然值得听,但不能替代官方证据。 DeepSeek 的每一次版本传闻都会被放大,是因为它已经变成开源/低成本/高性能大模型叙事里的关键变量。社区讨论 V4.1、R2 或后续推理模型,本质上是在等一个问题的答案:DeepSeek 能否继续用工程效率和成本结构,给闭源大模型阵营制造压力。但在官方文档、API model list、GitHub/Hugging Face 或技术报告出现之前,这些都只能放在观察区。真正值得关注的是新模型是否有明确能力边界、推理成本、上下文长度、工具调用和部署策略,而不是版本名本身。 AI Agent 的计费、限额和第三方工具接入,会成为企业落地里的真实摩擦点。 Agent 一旦从聊天进入执行,就会触碰第三方工具调用、数据权限、API 成本、审批流、额度限制和审计问题。社区对 Agent 工具计费和限额的讨论,看起来像产品细节,其实是 Agent 能不能进入真实业务流的关键变量。 后续要看官方 pricing、developer policy、tool use 文档、企业权限模型和真实用户反馈。Agent 能不能规模化,不只取决于模型有多聪明,也取决于每一次执行的成本、边界和责任能不能被组织接受。
推荐阅读
1、加入AIGCmagic社区知识星球!
AIGCmagic社区知识星球不同于市面上其他的AI知识星球,AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。
那该如何加入星球呢?很简单,我们只需要扫下方的二维码即可。与此同时,我们也重磅推出了知识星球2025年惊喜价:原价199元,前200名限量立减50!特惠价仅149元!(每天仅4毛钱)
时长:一年(从我们加入的时刻算起)


2、AIGC时代Rocky撰写的干货技术文章汇总分享!
