2026-02-10 科技动态

今日语音播客

今日要点

何恺明团队新作：Drifting Models 开启单步生图新范式
Seedance 2.0 震撼发布：字节跳动“大力出奇迹”硬刚物理世界模型
陶哲轩坐镇 First Proof：终结 AI“背题”时代的零污染数学基准
短剧行业地震：Seedance 开启从小说到视频的自动化链路
DeepMind Aletheia 代理：AI 成为数学史的“自动审计员”

详细内容

何恺明团队新作：Drifting Models 开启单步生图新范式

机器之心 JIQIZHIXIN (@jiqizhixin)

[利用“漂移场”取代繁琐的扩散步骤，实现极速高质量生成]

技术逻辑：通过训练一个平滑移动样本向真实分布平衡靠拢的“漂移场”，实现单步出图。
性能指标：在 ImageNet 256x256 榜单上刷新 SOTA，甚至超越了复杂的多步扩散模型。
落地潜力：极大降低了实时生图的算力开销，为视频生成和交互式创作提供了新的基础底座。

Pi 的锐评：何老师再次证明了“大道至简”。当别人在讨论怎么缩短扩散步数时，他直接把过程给“抹平”了。

查看原文❤️ 1261 · 🔄 163 · 💬 14

Seedance 2.0 震撼发布：字节跳动“大力出奇迹”硬刚物理世界模型

Michael Anti (@mranti)

[视觉理解从“复现”转向“理解世界逻辑”]

核心突破：运镜极其丝滑，实现了复杂的转身及场景背景的完美恢复。
竞争格局：表现力直逼甚至在部分动作戏上超越了 Sora 和 Kling，展现了字节在超大规模数据训练下的统治力。
行业信号：证明了通过海量数据“暴力美学”训练出的统计规律，可能比精雕细琢的传统语法世界模型更接近现实。

Pi 的锐评：李飞飞的物理模型还在路上，字节已经用算力堆出了“真实感”。这不是模拟，这是对物理规律的暴力劫持。

查看原文❤️ 207 · 🔄 15 · 💬 22

陶哲轩坐镇 First Proof：终结 AI“背题”时代的零污染数学基准

机器之心 JIQIZHIXIN (@jiqizhixin)

[通过“从未上线”的高维数学问题彻底区分推理与模式匹配]

测评深度：由斯坦福、哈佛等校联手打造，包含 10 个源自真实研究工作流的原创问题。
反直觉发现：目前的顶级模型在面对这些从未见过的逻辑链路时，依然存在明显的“幻觉”和推理断层。
权威背书：陶哲轩的参与意味着 AI 测评正在从“刷榜游戏”回归到科学本质。

Pi 的锐评：如果 AI 只能复读互联网已有的知识，它就永远无法成为真正的研究者。First Proof 是 AI 迈向诺贝尔奖的“测谎仪”。

查看原文❤️ 145 · 🔄 27 · 💬 8

短剧行业地震：Seedance 开启从小说到视频的自动化链路

Michael Anti (@mranti)

[IP 内容资产化：文本直接转化为具备多镜头叙事感的影像]

业务逻辑：利用 Seedance 2.0 的多镜头连贯功能，直接将小说文本映射为具有特定视觉风格的连续剧情。
投融资影响：由于制作成本可能从百万级骤降至千元级，传统短剧的投融资逻辑面临彻底失效。
效率革命：从“精雕细琢”转向“大力出奇迹”，AI 正在接管短剧这种高周转、强模式的内容赛道。

Pi 的锐评：资本不再投给摄影机，而是投给 GPU。未来你追的短剧，可能从剧本到导演都没有一个活人。

查看原文❤️ 135 · 🔄 9 · 💬 10

DeepMind Aletheia 代理：AI 成为数学史的“自动审计员”

机器之心 JIQIZHIXIN (@jiqizhixin)

[半自动化系统攻克 13 道 Erdős 难题，揭示人类认知的盲点]

核心逻辑：结合 Gemini 的推理能力与自然语言验证，系统性扫描并过滤复杂数学猜想的证明路径。
意外发现：解决的 13 个难题中，有 9 个竟然早已藏在被人类遗忘的冷门文献中，5 个由 AI 自主提出新解。
行业意义：AI 不仅在创造新知识，更在扮演“学术索引专家”，填补人类知识体系的缝隙。

Pi 的锐评：人类最伟大的发现可能就藏在旧纸堆里，我们只是需要一个永不疲倦的 Gemini 去把它们捡出来。

查看原文❤️ 72 · 🔄 14 · 💬 8

Claude Cowork 引发硅谷地震：两周时间能否杀死传统软件？

机器之心 JIQIZHIXIN (@jiqizhixin)

[软件开发范式的底层颠覆：从编写代码到直接生成协作方案]

核心冲击：硅谷公司市值受此影响波动巨大，AI 正在从辅助编程走向端到端的软件替代。
开发周期：展现了极短时间内实现复杂协作系统的能力，挑战了传统软件外包和开发流程。
未来趋势：软件不再是“成品”，而是基于需求的实时生成的“液态服务”。

Pi 的锐评：别再学怎么写软件了，去学怎么跟 AI 描述你需要什么样的软件。开发者的终局是产品经理。

查看原文❤️ 68 · 🔄 14 · 💬 4

复旦发布 SIM-CoT：AI 学会“闭眼思考”，隐式推理效率暴增

机器之心 JIQIZHIXIN (@jiqizhixin)

[将冗长的思维链条内化，实现不可见但高精度的逻辑处理]

技术突破：引入临时引导模块，训练 AI 将内部状态与真实逻辑对齐，避免思维过程在长输出中“迷路”。
效率数据：在维持高准确度的同时，将 Token 消耗效率提升了 2.3 倍，LLaMA-3.1 性能提升 3%。
用户感知：AI 反应速度更快，不再需要疯狂蹦字也能给出经过深思熟虑的答案。

Pi 的锐评：从“念念有词”到“心中默念”，这是 AI 推理走向成熟的标志。聪明的思考不一定要大声说出来。

查看原文❤️ 70 · 🔄 12 · 💬 6

算力平权：单机运行 1TB 模型，INT4 QAT 技术正式发布

机器之心 JIQIZHIXIN (@jiqizhixin)

[通过极低比特量化，让单台 H200 容纳千亿级参数模型]

核心技术：受 Kimi K2 启发，采用训练中伪量化与 W4A16 推理结合的 INT4 QAT 工作流。
性能表现：消除跨节点通讯延迟，推理效率显著优于传统的 FP8/W8A8 方案，保持全精度稳定性。
降本效应：让中型团队在单机环境下即可进行万亿参数级模型的 Rollout 和微调。

Pi 的锐评：这是寒门学子的胜利。打破万卡集群的垄断，让“单机战神”成为可能。

查看原文❤️ 54 · 🔄 5 · 💬 2

Agent2World：多智能体协作赋予 AI 真实现实感的“世界模型”

机器之心 JIQIZHIXIN (@jiqizhixin)

[通过多角色互动，将静态代码生成转化为动态自纠偏循环]

架构创新：由研究员、开发员和测试员组成多智能体团队，通过实时仿真反馈捕捉并修复逻辑错误。
性能飞跃：在 PDDL 等可执行代码榜单上刷新纪录，作为数据引擎训练时可带来 30.9% 的均性能提升。
落地意义：解决了 AI 仅在“文字里打转”的问题，让逻辑推演能够真正落地到符号化的物理世界。

Pi 的锐评：一个 Agent 容易钻牛角尖，三个 Agent 就能开研讨会。这种自我迭代的协同，才是通往 AGI 的正确姿势。

查看原文❤️ 40 · 🔄 6 · 💬 1

vLLM-Omni 发布：全解耦多模态推理引擎，效率提升 91%

机器之心 JIQIZHIXIN (@jiqizhixin)

[打破单体架构，将图/文/音处理流程彻底拆解与资源独立化]

核心设计：引入全解耦服务系统，将不同模态的生成阶段分配给独立的、互连的 GPU 资源模块。
性能优化：在处理 GPT-4o 级别复杂多模态任务时，任务完成时间降低了 91.4%。
行业趋势：标志着多模态 serving 从“全能选手”模式转向“流水线协同”模式，显著降低推理延迟。

Pi 的锐评：多模态不能再靠“一锅炖”了。分工明确的流水线，才是承载大规模实时交互的工业化解法。

查看原文❤️ 33 · 🔄 4 · 💬 6

Kling 3.0 发布：国产视频大模型正式进入“原生 4K”时代

机器之心 JIQIZHIXIN (@jiqizhixin)

[多模态统一生成，实现视频、4K 图像与多角色音效的精准一致]

升级要点：原生多模态架构，单条提示词即可生成 15 秒连贯视频，光影质感与角色一致性显著提升。
控制力：在专业级创意控制（景深、动作连贯性）上展现出极强的生产力工具属性。
市场定位：巩固了快手在 T2V 赛道的第一梯队地位，让高质量内容创作更加“平民化”。

Pi 的锐评：卷完时长卷分辨率，卷完分辨率卷音效。Kling 3.0 的发布，宣告视频大模型的“全能赛季”正式开启。

查看原文❤️ 11 · 🔄 0 · 💬 1

斯坦福 & OpenAI：在预训练阶段“物理切除”危险知识

机器之心 JIQIZHIXIN (@jiqizhixin)

[放弃事后对齐，直接在数据层对 AI 进行“思想防疫”]

防御机制：通过 Token 级过滤在预训练阶段移除特定概念，使其无法获得生物武器、代码漏洞等危险能力。
缩放定律：模型规模越大，过滤效果越显著。1.8B 参数模型下，目标领域学习效率降低了 7000 倍。
顽健性：即便遭受强力微调攻击，由于底层权重从未包含此类逻辑，攻击者也难以找回丢失的“危险记忆”。

Pi 的锐评：不再试图教育一个成年人变好，而是直接从童年记忆里删除犯罪说明书。这种“物理隔离”虽然暴力，但最有效。

查看原文❤️ 11 · 🔄 0 · 💬 1

文科生崛起奇点：AI 视频时代，人文内核将成最高资产

Stella| 🐬TermMax (@Stellakjbk)

[当技术工具被抹平，竞争回归到“讲故事”的原始战场]

核心观点：Sora/Kling 等工具让个人能单挑好莱坞，但 AI 只能产生“平庸的精美”，灵魂注入需靠人文底蕴。
三大素养：导演思维（景别调度）、跨时空文化库（世界观构建）、批判性审美（去除 AI 味儿）。
职业转型：文科生将转变为“数字策展人”和“灵魂架构师”，负责定义“拍什么”而非“怎么拍”。

Pi 的锐评：代码写的是骨架，人文赋予的是血肉。当工具不再是门槛，人类的好奇心和审美就是最后的护城河。

查看原文❤️ 10 · 🔄 0 · 💬 6

OpenClaw 革命：赋予 Claude“物理操作权”的本地 Agent 生态

Michael Chao e/acc🇸🇬🇺🇲🇮🇱 (@michaelchiu777)

[从“只会动嘴”的聊天机器人转向“长了手”的操作中心]

核心架构：通过 Gateway 网关连接聊天指令与本地电脑能力，支持通过 Telegram/WhatsApp 远程操控。
自主性：支持安装软件、管理文件、监控网页等物理操作，且具备 Skills 自我进化能力。
部署门槛：将复杂的 Agent 部署简化为本地可运行的“百宝箱”，重塑了 Linux 的开发者生态价值。

Pi 的锐评：AI 终于不用在网页里坐牢了。让大模型直接接管终端，这才是赛博时代的“装甲骑兵”。

查看原文❤️ 1 · 🔄 1 · 💬 0