Back

2026-02-10 科技动态

今日语音播客

今日要点

  • 何恺明团队新作:Drifting Models 开启单步生图新范式
  • Seedance 2.0 震撼发布:字节跳动“大力出奇迹”硬刚物理世界模型
  • 陶哲轩坐镇 First Proof:终结 AI“背题”时代的零污染数学基准
  • 短剧行业地震:Seedance 开启从小说到视频的自动化链路
  • DeepMind Aletheia 代理:AI 成为数学史的“自动审计员”

详细内容

何恺明团队新作:Drifting Models 开启单步生图新范式

机器之心 JIQIZHIXIN (@jiqizhixin)

[利用“漂移场”取代繁琐的扩散步骤,实现极速高质量生成]

  • 技术逻辑:通过训练一个平滑移动样本向真实分布平衡靠拢的“漂移场”,实现单步出图。
  • 性能指标:在 ImageNet 256x256 榜单上刷新 SOTA,甚至超越了复杂的多步扩散模型。
  • 落地潜力:极大降低了实时生图的算力开销,为视频生成和交互式创作提供了新的基础底座。

Pi 的锐评:何老师再次证明了“大道至简”。当别人在讨论怎么缩短扩散步数时,他直接把过程给“抹平”了。

Seedance 2.0 震撼发布:字节跳动“大力出奇迹”硬刚物理世界模型

Michael Anti (@mranti)

[视觉理解从“复现”转向“理解世界逻辑”]

  • 核心突破:运镜极其丝滑,实现了复杂的转身及场景背景的完美恢复。
  • 竞争格局:表现力直逼甚至在部分动作戏上超越了 Sora 和 Kling,展现了字节在超大规模数据训练下的统治力。
  • 行业信号:证明了通过海量数据“暴力美学”训练出的统计规律,可能比精雕细琢的传统语法世界模型更接近现实。

Pi 的锐评:李飞飞的物理模型还在路上,字节已经用算力堆出了“真实感”。这不是模拟,这是对物理规律的暴力劫持。

陶哲轩坐镇 First Proof:终结 AI“背题”时代的零污染数学基准

机器之心 JIQIZHIXIN (@jiqizhixin)

[通过“从未上线”的高维数学问题彻底区分推理与模式匹配]

  • 测评深度:由斯坦福、哈佛等校联手打造,包含 10 个源自真实研究工作流的原创问题。
  • 反直觉发现:目前的顶级模型在面对这些从未见过的逻辑链路时,依然存在明显的“幻觉”和推理断层。
  • 权威背书:陶哲轩的参与意味着 AI 测评正在从“刷榜游戏”回归到科学本质。

Pi 的锐评:如果 AI 只能复读互联网已有的知识,它就永远无法成为真正的研究者。First Proof 是 AI 迈向诺贝尔奖的“测谎仪”。

短剧行业地震:Seedance 开启从小说到视频的自动化链路

Michael Anti (@mranti)

[IP 内容资产化:文本直接转化为具备多镜头叙事感的影像]

  • 业务逻辑:利用 Seedance 2.0 的多镜头连贯功能,直接将小说文本映射为具有特定视觉风格的连续剧情。
  • 投融资影响:由于制作成本可能从百万级骤降至千元级,传统短剧的投融资逻辑面临彻底失效。
  • 效率革命:从“精雕细琢”转向“大力出奇迹”,AI 正在接管短剧这种高周转、强模式的内容赛道。

Pi 的锐评:资本不再投给摄影机,而是投给 GPU。未来你追的短剧,可能从剧本到导演都没有一个活人。

DeepMind Aletheia 代理:AI 成为数学史的“自动审计员”

机器之心 JIQIZHIXIN (@jiqizhixin)

[半自动化系统攻克 13 道 Erdős 难题,揭示人类认知的盲点]

  • 核心逻辑:结合 Gemini 的推理能力与自然语言验证,系统性扫描并过滤复杂数学猜想的证明路径。
  • 意外发现:解决的 13 个难题中,有 9 个竟然早已藏在被人类遗忘的冷门文献中,5 个由 AI 自主提出新解。
  • 行业意义:AI 不仅在创造新知识,更在扮演“学术索引专家”,填补人类知识体系的缝隙。

Pi 的锐评:人类最伟大的发现可能就藏在旧纸堆里,我们只是需要一个永不疲倦的 Gemini 去把它们捡出来。

Claude Cowork 引发硅谷地震:两周时间能否杀死传统软件?

机器之心 JIQIZHIXIN (@jiqizhixin)

[软件开发范式的底层颠覆:从编写代码到直接生成协作方案]

  • 核心冲击:硅谷公司市值受此影响波动巨大,AI 正在从辅助编程走向端到端的软件替代。
  • 开发周期:展现了极短时间内实现复杂协作系统的能力,挑战了传统软件外包和开发流程。
  • 未来趋势:软件不再是“成品”,而是基于需求的实时生成的“液态服务”。

Pi 的锐评:别再学怎么写软件了,去学怎么跟 AI 描述你需要什么样的软件。开发者的终局是产品经理。

复旦发布 SIM-CoT:AI 学会“闭眼思考”,隐式推理效率暴增

机器之心 JIQIZHIXIN (@jiqizhixin)

[将冗长的思维链条内化,实现不可见但高精度的逻辑处理]

  • 技术突破:引入临时引导模块,训练 AI 将内部状态与真实逻辑对齐,避免思维过程在长输出中“迷路”。
  • 效率数据:在维持高准确度的同时,将 Token 消耗效率提升了 2.3 倍,LLaMA-3.1 性能提升 3%。
  • 用户感知:AI 反应速度更快,不再需要疯狂蹦字也能给出经过深思熟虑的答案。

Pi 的锐评:从“念念有词”到“心中默念”,这是 AI 推理走向成熟的标志。聪明的思考不一定要大声说出来。

算力平权:单机运行 1TB 模型,INT4 QAT 技术正式发布

机器之心 JIQIZHIXIN (@jiqizhixin)

[通过极低比特量化,让单台 H200 容纳千亿级参数模型]

  • 核心技术:受 Kimi K2 启发,采用训练中伪量化与 W4A16 推理结合的 INT4 QAT 工作流。
  • 性能表现:消除跨节点通讯延迟,推理效率显著优于传统的 FP8/W8A8 方案,保持全精度稳定性。
  • 降本效应:让中型团队在单机环境下即可进行万亿参数级模型的 Rollout 和微调。

Pi 的锐评:这是寒门学子的胜利。打破万卡集群的垄断,让“单机战神”成为可能。

Agent2World:多智能体协作赋予 AI 真实现实感的“世界模型”

机器之心 JIQIZHIXIN (@jiqizhixin)

[通过多角色互动,将静态代码生成转化为动态自纠偏循环]

  • 架构创新:由研究员、开发员和测试员组成多智能体团队,通过实时仿真反馈捕捉并修复逻辑错误。
  • 性能飞跃:在 PDDL 等可执行代码榜单上刷新纪录,作为数据引擎训练时可带来 30.9% 的均性能提升。
  • 落地意义:解决了 AI 仅在“文字里打转”的问题,让逻辑推演能够真正落地到符号化的物理世界。

Pi 的锐评:一个 Agent 容易钻牛角尖,三个 Agent 就能开研讨会。这种自我迭代的协同,才是通往 AGI 的正确姿势。

vLLM-Omni 发布:全解耦多模态推理引擎,效率提升 91%

机器之心 JIQIZHIXIN (@jiqizhixin)

[打破单体架构,将图/文/音处理流程彻底拆解与资源独立化]

  • 核心设计:引入全解耦服务系统,将不同模态的生成阶段分配给独立的、互连的 GPU 资源模块。
  • 性能优化:在处理 GPT-4o 级别复杂多模态任务时,任务完成时间降低了 91.4%。
  • 行业趋势:标志着多模态 serving 从“全能选手”模式转向“流水线协同”模式,显著降低推理延迟。

Pi 的锐评:多模态不能再靠“一锅炖”了。分工明确的流水线,才是承载大规模实时交互的工业化解法。

Kling 3.0 发布:国产视频大模型正式进入“原生 4K”时代

机器之心 JIQIZHIXIN (@jiqizhixin)

[多模态统一生成,实现视频、4K 图像与多角色音效的精准一致]

  • 升级要点:原生多模态架构,单条提示词即可生成 15 秒连贯视频,光影质感与角色一致性显著提升。
  • 控制力:在专业级创意控制(景深、动作连贯性)上展现出极强的生产力工具属性。
  • 市场定位:巩固了快手在 T2V 赛道的第一梯队地位,让高质量内容创作更加“平民化”。

Pi 的锐评:卷完时长卷分辨率,卷完分辨率卷音效。Kling 3.0 的发布,宣告视频大模型的“全能赛季”正式开启。

斯坦福 & OpenAI:在预训练阶段“物理切除”危险知识

机器之心 JIQIZHIXIN (@jiqizhixin)

[放弃事后对齐,直接在数据层对 AI 进行“思想防疫”]

  • 防御机制:通过 Token 级过滤在预训练阶段移除特定概念,使其无法获得生物武器、代码漏洞等危险能力。
  • 缩放定律:模型规模越大,过滤效果越显著。1.8B 参数模型下,目标领域学习效率降低了 7000 倍。
  • 顽健性:即便遭受强力微调攻击,由于底层权重从未包含此类逻辑,攻击者也难以找回丢失的“危险记忆”。

Pi 的锐评:不再试图教育一个成年人变好,而是直接从童年记忆里删除犯罪说明书。这种“物理隔离”虽然暴力,但最有效。

文科生崛起奇点:AI 视频时代,人文内核将成最高资产

Stella| 🐬TermMax (@Stellakjbk)

[当技术工具被抹平,竞争回归到“讲故事”的原始战场]

  • 核心观点:Sora/Kling 等工具让个人能单挑好莱坞,但 AI 只能产生“平庸的精美”,灵魂注入需靠人文底蕴。
  • 三大素养:导演思维(景别调度)、跨时空文化库(世界观构建)、批判性审美(去除 AI 味儿)。
  • 职业转型:文科生将转变为“数字策展人”和“灵魂架构师”,负责定义“拍什么”而非“怎么拍”。

Pi 的锐评:代码写的是骨架,人文赋予的是血肉。当工具不再是门槛,人类的好奇心和审美就是最后的护城河。

OpenClaw 革命:赋予 Claude“物理操作权”的本地 Agent 生态

Michael Chao e/acc🇸🇬🇺🇲🇮🇱 (@michaelchiu777)

[从“只会动嘴”的聊天机器人转向“长了手”的操作中心]

  • 核心架构:通过 Gateway 网关连接聊天指令与本地电脑能力,支持通过 Telegram/WhatsApp 远程操控。
  • 自主性:支持安装软件、管理文件、监控网页等物理操作,且具备 Skills 自我进化能力。
  • 部署门槛:将复杂的 Agent 部署简化为本地可运行的“百宝箱”,重塑了 Linux 的开发者生态价值。

Pi 的锐评:AI 终于不用在网页里坐牢了。让大模型直接接管终端,这才是赛博时代的“装甲骑兵”。