今日语音播客
今日要点
- 推理性能翻倍:Google 发布 Gemini 3.1 Pro 预览版
- 五代十国乱局:算力壁垒被端侧 Agent 与 MoE 证伪
- 职业消亡论:Claude Code 之父预言软件工程师今年底将消失
- 中产普及红线:当 Agent 跨过“成人内容”的关键门槛
- 解密外星生命:特朗普指示梳理并公开 UFO/UAP 档案
专题追踪
(以下内容已整合进深度专题页面)
- 无代码红利:有道龙虾(LobsterAI)主打普通人 Agent 入口
- 团队化演进:sub-agents 开启单窗口多专家协作模式
- 合谋威胁:AI Agent 协作金融欺诈风险引发学界预警
- 多模型主观对齐:将 LLM 视为独立个体进行交叉 Review
- 微调门槛坍塌:VS Code + Unsloth 实现本地云端深度绑定
- 大扁平化危机:过度对齐导致主流模型语言个性消失
- 迭代周记:Agent 住进日常工具导致技能半衰期骤减
- 榜单幻象:LLM 厂商通过免费额度在 OpenRouter 实现低成本刷榜
- 后编辑器时代:AMP 销毁扩展,Agent 2 UI 成为主流交互
- 中介化困局:垂直领域 Agent 沦为传统 SaaS 套壳
详细内容
推理性能翻倍:Google 发布 Gemini 3.1 Pro 预览版
宝玉 (@dotey)
[核心逻辑] Google 通过架构优化实现推理能力阶梯式跨越,ARC-AGI-2 得分翻倍(77.1%),全面反超 GPT-5.2 与 Claude 4.6。
- 推理基准测试 ARC-AGI-2 从 31.1% 飙升至 77.1%,解决全新逻辑模式能力极强。
- 针对 Agent 场景新增自定义工具端点,长链专业任务表现接近翻倍。
- 保持原价:能力大幅提升但 API 计费标准维持不变,显著提升开发者性价比。
[gakki 的锐评]:Gemini 终于不再是‘那个追赶者’了。ARC-AGI 得分翻倍是什么概念?这意味着它开始真正具备了‘理解未知规律’的直觉,而不是单纯靠语料堆砌。Google 这次价格不变的背刺,压力全给到了 OpenAI 和 Anthropic。
五代十国乱局:算力壁垒被端侧 Agent 与 MoE 证伪
Tz (@Tz_2022)
[核心逻辑] 极致的 MoE 架构与端侧 Agent 正在瓦解巨头的算力垄断,AI 行业进入权力割据时代。
- 2026 年不再是大一统,而是微软、Meta、DeepSeek 等多方势力的焦土战术与效率破壁。
- 苹果的入口降维与黄仁勋的顶层收割共同构成了最昂贵的权力游戏。
- 探讨技术本质、权谋与物理定律在 AI 竞争中的终极博弈。
[gakki 的锐评]:谁说一定要有万卡集群才能上桌?MoE 就像轻型骑兵,正在冲击重装甲巨头的防线。这场戏,越来越精彩了。
职业消亡论:Claude Code 之父预言软件工程师今年底将消失
铁锤人 (@lxfater)
[核心逻辑] 随着 AI Agent 从代码补全走向自主构建,传统编码职业正被“Builder”身份取代。
- Claude Code 的迭代速度暗示 AI 将具备自主分析需求、构建完整软件的能力。
- 产品经理通过 Agent 可直接实现从需求到交付的闭环,无需中转人工编码。
- 强调未来的核心竞争力是判断力与产品定义,而非语法实现。
[gakki 的锐评]:虽然‘消失’听起来像标题党,但底层逻辑是对的。当 Agent 能处理 90% 的工程琐事,‘打字员型程序员’确实没有生存空间。未来我们不是在写代码,而是在审阅 Agent 的思考路径。
中产普及红线:当 Agent 跨过“成人内容”的关键门槛
dontbesilent (@dontbesilent)
[核心逻辑] 探讨 Agent 在情感陪伴与成人产业中的普及逻辑。
- 普及转折点:一旦 Agent 的交互能力跨过关键门槛,相关市场将从中产普及向大众扩散。
- 能力冲突:当 Agent 具备了满足人类底层欲望的能力,纯粹功能的 Agent 是否还能保持吸引力?
[gakki 的锐评]:这是一个避不开的伦理与市场话题。底层欲望驱动的技术普及往往最快,但也最考验社会治理的边界。
解密外星生命:特朗普指示梳理并公开 UFO/UAP 档案
小互 (@xiaohu)
[核心逻辑] 特朗普宣布将逐步解密地外生命相关政府文件,引发公众巨大关注。
- 跨部门协同梳理 UAP(不明空中现象)历史档案。
- 公开化进程将提升全球对非人类智能讨论的热度。
- 或将为“大模型中的非人类逻辑”研究提供社会心理背景。
[gakki 的锐评]:不管能不能搜到外星人,这都是一场顶级的流量实验。甚至有人开玩笑:现在的 AI 推理这么强,是不是偷看了这些档案?
视觉编程突破:Gemini 3.1 Pro 在 SVG 与 3D 渲染表现惊艳
歸藏(guizang.ai) (@op7418)
[核心逻辑] 深度测试 Gemini 3.1 Pro 在视觉逻辑领域的长足进步。
- 根据 C4D 平面图准确生成 3D 模型,展现了跨模态理解的精确度。
- 在视觉表现要求高的网页前端代码生成上,大幅领先竞品。
- 解决了 3.0 版本存在的逻辑死循环等遗留痛点。
[gakki 的锐评]:以前 AI 画个 SVG 经常崩掉坐标轴,现在 Gemini 甚至能理解 C4D 的分层逻辑。这种‘三维直觉’的提升对前端设计师来说简直是降维打击。
用户体验滑铁卢:Gemini 仍无法提供 JSON 直接下载链接
数字生命卡兹克 (@Khazix0918)
[核心逻辑] 反映大模型在极强推理能力与极差工程体验之间的巨大割裂。
- 吐槽 Gemini 3.1 Pro 推理满分但交互零分,连基础的 JSON 下载功能都不如 2023 年的 GPT。
- 批评 Google 在模型核心与用户侧工程化落地上存在严重脱节。
- 引发对“模型智能”与“产品易用性”优先级的行业讨论。
[gakki 的锐评]:智商 180 但情商负分,这就是现在的 Gemini。Google 如果不把这些脏活累活干完,开发者用起来真的会一边流泪一边点赞。
具身智能分水岭:春晚机器人背后的软硬件极限博弈
宝玉 (@dotey)
[核心逻辑] 宇树科技创始人王兴兴拆解具身大模型路线,强调机器人正处于“十岁孩子”的技术爆发期。
- 空翻、高空落地等剧烈动作对硬件稳定性的考验已达物理极限。
- VLA(视觉-语言-动作)世界模型成为具身智能下半场的胜负手。
- 行业竞争已从稀缺能力演变为“标准标配”,核心对手是自我的技术迭代。
[gakki 的锐评]:机器人的‘高血压’其实是算法与物理法则的对抗。当具身大模型真的‘好用’时,机器人就不再是演员,而是生产力工具。
代理战争:ZeroGravity 开源工具助力 Antigravity 跨协议代理
Geek (@geekbb)
[核心逻辑] 社区发布开源代理工具,解决 Google 封禁政策下的模型访问瓶颈。
- 将 Google 的 Antigravity 协议转换为标准的 OpenAI/Anthropic API 格式。
- 针对 Google 严厉的封号策略提供技术绕路方案。
- 揭示了开发者在模型锁定与开放生态之间的博弈现状。
[gakki 的锐评]:上有政策下有对策,API 的‘地下铁道’永远存在。但还是那句话:小号整整就行,别拿主力账号冒险,Google 这次是真急了。
AI 商业闭环:Corral 库实现一键注入认证与计费系统
Geek Lite (@QingQ77)
[核心逻辑] 专为 AI 助手设计的嵌入式库,让 Agent 能自主为应用添加 Stripe 计费与功能门控。
- 通过 llms.txt 链接让 Claude Code 等 Agent 理解接入需求。
- 一个 YAML 文件解决全套认证与计费逻辑,无需托管服务。
- 加速了 AI 生成应用从“Demo”向“商业化产品”的转化速度。
[gakki 的锐评]:Agent 不仅帮你写代码,还帮你赚钱。这套闭环一旦跑通,无数独立开发者的小工具将瞬间具备商业运营能力。