晚点聊 LateTalk podcast

146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会,与前 Google 创业者、硅谷投资人聊湾区动向

0:00
1:40:58
Spol 15 sekunder tilbage
Spol 15 sekunder frem
「一线开发者看到的前排变化。」 本期是 137 期 Agentic 工具链节目的嘉宾返场,Henry 和 Naomi,他们近期刚刚和普林斯顿 AI 加速创新中心联席主任,王梦迪教授,一起成立了一家新的早期 VC,MoE capital。 这次一起的也有两位之前在 Google DeepMind 和 谷歌云 Vertex AI 平台工作 7 年,刚刚创业,成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。 我请他们分享了,岁末年初,在硅谷观察到的 AI 水温,OpenAI、Google 等一系列新模型进展背后的故事,和围绕当今 Agent 与 RL 生态的创业机会。 这是我们本年关于 Agent 的第 8 期节目。 本期嘉宾: Bethany Wang,Precur 联创 戴涵俊,Precur 联创 Henry Yin,MoE Capital 创始合伙人 Naomi Xia,MoE Capital 创始合伙人 本期主播: 程曼祺,晚点 LatePost 科技报道负责人 时间线: -基础模型竞争和幕后故事:Google 在旧金山开 Gemini 3 Party 的同一天,OpenAI 发布 GPT-5.2 06:11 AI 进入实用工作:OpenAI 的 GDPval,Databricks 也发布了 Office QA 14:25 GDPval 在主流知识工作上表现优秀,但基础模型处理长尾问题的 gap 始终存在 19:09 Gemini 3 后,OpenAI、Anthropic、Google、各自的进展 22:15 NotebookLM 和 Nano Banana 策源地——Google Labs,不仅招工程师,也有主编、作家、创作者 24:54 DeemMind 研究员 Orio:Gemini 3 的秘密?预训练还有很多空间;TPU 对 Google 训练的加持 https://pic4.fukit.cn/autoupload/n-L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251226/CtEk/1178X828/%E4%B8%8B%E8%BD%BD.png/webp 26:34 Google 的 3 层协同优化:从 TPU 到 Infra 到模型;模型和应用;数据和硬件 surface(终端) 30:18 Google TPU 已经更多对外,这对英伟达 GPU 优势的影响 38:02 回顾组织变化:DeepMind 和 Google Brain 的合并与磨合 -大厂竞争中,新公司的成长:围绕 RL 与 Agent 的创业机会 43:31 垂类的机会:弥补基础模型到具体问题的差距;水平的机会:调度层、数据层、工具层都有新公司涌现 50:17 技术新趋势——自我演化:RL、用 RAG 加长记忆有人尝试,但远不是成熟方案 53:32「可训练的工具层」背后的技术变化:code 驱动工具,如 Anthropic 的 PTC(Programmatic Tool Calling) 59:44 RL 创业方向:RL 环境,RL as a Service,RL 应用 01:08:47 Agent 开发者挑选模型的前置条件:用什么云(比如 Azure 客户用不了 Gemini),再看云厂商折扣 01:12:20 Anthropic 的 Claude Code 已成为 Agent 核心,刚发布的 Promatic to Call 探索新开发范式 01:17:13 开源模型使用体验:Qwen 很棒;驶往 NeurIPS 的飞机上,1/3 人在看 DeepSeek-V3.2 技术报告 01:22:04 选择模型时,关注什么 benchmark & 为什么? 01:29:34 模型优化方向预测:加入大量 agent trace 的开源模型,更强的多模态,长程任务优化 01:38:58 连点成线:往期节目推荐 《晚点聊》今年关于 Agent 的更多节目: 晚点聊 106 期:与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need (https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66) 晚点聊 110 期:《与明势夏令聊Agent竞争:通用入口之战就要来,创业要做垂、做专》 (https://www.xiaoyuzhoufm.com/episode/67fd8cafcc06f8ff48a73642) 晚点聊 111 期:Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端 (https://www.xiaoyuzhoufm.com/episode/680818eb79d324fdd40c2b5e) 晚点聊 130 期:手机Agent大幕拉开!从刚上线的AutoGLM 2.0聊起,大模型如何改造手机 (https://www.xiaoyuzhoufm.com/episode/68a6546b7357a4b631fe8cd3) 晚点聊 136 期:Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent| (https://www.xiaoyuzhoufm.com/episode/68e82298b97d3bce02b4f815) 晚点聊 137 期:Agent 是机会,造 Agent 的工具也是|从OpenAI开发者日聊起 (https://www.xiaoyuzhoufm.com/episode/68f1727052f01d1dd2a00523) 晚点聊 138 期:从你用手机到它更懂你,OPPO的手机AI实践 |与小布负责人万玉龙聊端侧AI (https://www.xiaoyuzhoufm.com/episode/68faad2749540bd15c2ee589) 附录: 本期中提到的一些 benchmark: -GDPVal:OpenAI 今年 10 月发布的、用于评估大模型在复杂推理与决策场景中“价值对齐与结果质量”的验证型 benchmark,强调输出是否符合人类偏好而不只是“做对题”。 -ARC-AGI-2:ARC Prize 今年 3 月发布的、用于测试模型在少样本条件下的抽象、组合推理能力,被视为接近“通用智能门槛”的挑战集。 -OfficeQA:Databricks 今年 12 月发布的、围绕办公场景(文档、表格、邮件、日程等)的 benchmark,用来评估模型在真实工作流中的信息检索、理解与执行能力。 本期中提到的一些产品/服务、公司 -PTC(Programmatic Tool Calling):Anthropic 今年 11 月底发布的一种新的工具调用方法 https://www.anthropic.com/engineering/advanced-tool-use -Tinker:Thinking Machines Lab 今年 10 月发布的首个对外产品 https://thinkingmachines.ai/blog/announcing-tinker/ -Preference Model:一家旧金山初创企业,做强化学习环境 剪辑制作:甜食、Nick 小红书@曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)即刻@曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png

Flere episoder fra "晚点聊 LateTalk"