大参考

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 164|回复: 0

戍天九思:DeepSeek新模型探路AGI——“生成器+验证器”双...

[复制链接]
发表于 昨天 21:07 | 显示全部楼层 |阅读模式
  据11月28日新华财经报道,11月27日晚间,DeepSeek在HuggingFace推出新型数学推理模型DeepSeekMath-V2,新模型采用可自我验证的训练框架。在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中均达到金牌水平,并在2024年普特南数学竞赛(Putnam 2024)中取得118/120(近乎满分)的优异成绩。团队表示,该成果验证了自验证推理路径的可行性,为构建可靠数学智能系统提供新方向。

  笔者联想到,从谷歌围棋到华为智驾,再到 DeepSeek的最新数学模型,可以清晰看到 AI进化路线正在趋向于同一套“生成器+验证器”双模型协同框架:一个模型负责“大胆提出方案”,另一个模型负责“仔细审查并反馈”,两者通过强化学习闭环持续迭代。这如同卡尼曼关于人类认知的“快思考与慢思考”,是否也意味着“生成器+验证器”双模协同框架就是AGI技术路线呢?

  第一阶段AlphaGo:决策智能的“策划—评估”范式

  谷歌围棋(2016-2017):落子选择器 + 棋局评估器

  落子选择器——生成系统。基于当前棋局,快速生成少数几个最有可能的、有价值的候选动作。它的作用是缩小搜索空间,提高效率。

  棋局评估器——验证系统。给定一个棋局,判断当前局面的胜率。它的作用是评估未来价值,为决策提供长远依据。

  工作流程——通过蒙特卡洛树搜索将两者结合,在“生成候选动作”和“评估局面优劣”之间不断循环,最终选出一个不仅当下看起来好,而且长远胜率最高的动作。

  结果——AlphaGo/AlphaZero以 4:1 击败李世石、3:0 击败柯洁,首次证明“生成-评估”闭环可在超高复杂度任务中超越人类顶级专家。

  AGI意义——首次在复杂决策任务中实现了直觉(快速生成)与深思(长远评估) 的有效结合。

  第二阶段华为智驾:具身智能的“感知—规划”范式

  11月12日,华为发布十大发明,其中之一是基于实时环境认知的辅助驾驶新范式。笔者最为看好,这是华为“界”和“境”两大系列智驾技术脱颖而出的关键,也是中国最有可能从空间智能技术路线突破AGI的技术。华为基于实时环境认知的辅助驾驶新范式有两大突破:

  华为ADS 3.0/4.0(2024-2025):障碍物探测器 + 道路生成器

  ▲基于实时环境认知的辅助驾驶新范式是华为十大发明之一。

  GOD障碍物探测器——感知生成系统。它将原始的传感器数据“生成”为有意义的、带有时空属性的物体列表(障碍物、车辆、行人等)。这相当于为世界构建一个实体的、动态的清单。

  RCR道路生成器——认知生成系统。它基于感知到的环境(路沿、其他车辆轨迹等),推理出“看不见但应该存在”的驾驶规则和路径。这相当于为行动构建一个可行的、结构化的蓝图。

  工作流程——感知系统不断生成世界的动态模型,认知系统基于这个模型生成可执行的轨迹,规划系统再据此做出最终的控制指令。

  结果——城区无图 NCA 体验提升 30% 以上,重刹率下降,实现“有路就能开”的类人驾驶。一旦实现L5自动驾驶,中国就有可能率先打通AGI技术路线。

  AGI意义——将智能从抽象的符号世界(物体)落地到连续的物理世界。它处理的是不确定性下的实时感知与行动,是AGI具身化不可或缺的一环。

  第三阶段DeepSeekMath-V2:认知智能的“生成—验证”范式

  DeepSeekMath-V2(2025-11):LLM 证明生成器 + LLM 证明验证器

  LLM生成器——思维链生成系统。它负责根据问题,逐步推理并生成一个候选答案以及完整的解题过程。

  LLM验证器——逻辑一致性验证系统。它不直接解题,而是像老师一样,严格审查生成器提供的解题过程,检查其每一步的逻辑是否严谨、计算是否正确、结论是否合理。

  工作流程——生成器提出解决方案,验证器进行批判性审核。这个过程可以迭代多次,验证器可以提供反馈,引导生成器修正错误,直至得到一个高置信度的答案。

  结果——在IMO 2025、CMO 2024 达到金牌线,Putnam 2024 得 118/120 分,首次把“自验证”能力推到人类奥赛顶尖水平,且代码与权重全部开源。目前,DeepSeek数字推理模型能力已超过全球所有大模型。

  AGI意义——这是对思维过程本身的反思和优化。它模拟了人类“反复检查”的认知行为,是实现可靠推理、自我修正和可信AI 的关键一步。它将智能从“产生答案”推进到了“保证答案正确性”的层面。

  技术路线的演进与统一——AGI “生成—验证”元架构

  ①任务无关。围棋落子、道路结构、数学证明表面差异大,本质都是“高维空间搜索+可验证目标”。

  ②角色分工。

  生成器——快速探索可行解,容忍一定噪声,追求覆盖率。

  验证器——给出可量化的奖励或评分,追求可靠性,抑制幻觉。

  ③训练范式。统一采用强化学习(RL)或自监督,把验证信号反哺生成器,形成“自我对弈”式持续改进。

  ④计算扩展。推理阶段可对同一问题多次采样—验证—再生成,实现 Test-Time Compute 线性提性能,缓解参数规模瓶颈。

  结论与展望——这是通往AGI的可行路径

  这条路线清晰地指向了AGI系统的几个关键特征:

  ①模块化与专业化。与其追求一个万能模型,不如设计多个各司其职的专家模块,通过协作解决复杂问题。

  ②循环与迭代。智能不是一个前向传播的单一过程,而是“生成-验证-再生成”的循环迭代,直到满足特定条件。

  ③反思与元认知。最高级的智能在于能够对自己的思维过程进行批判和审查。DeepSeekMath的“验证器”正是这种元认知能力的雏形。

  ④世界模型的内化。无论是围棋的规则、驾驶的物理规律还是数学的公理,这些系统都在内部隐式或显式地构建了一个“世界模型”,并基于该模型进行推理。

  未来的AGI,很可能就是一个由多种“生成器”和“验证器”构成的复杂生态系统:

  一个感知生成器构建世界状态。

  一个目标生成器提出任务和子目标。

  一个计划生成器制定行动方案。

  一个后果预测器(评估器) 评估方案的安全性与效果。

  一个道德/逻辑验证器确保行为符合约束。

  上述模块在一个统一的框架下协同工作,不断循环,从而展现出通用、强大且可靠的智能。

  总之,这条从专用决策到具身感知,再到抽象推理的“双系统”演进路径,不仅是过去十年AI发展的缩影,也极有可能是我们通往AGI的一条最坚实、最有希望的工程化路径。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则




QQ|手机版|小黑屋|大参考

GMT+8, 2025-11-30 06:36 , Processed in 0.078149 second(s), 16 queries .

 

Powered by 大参考 X3.4 © 2001-2023 dacankao.com

豫公网安备41010502003328号

  豫ICP备17029791号-1

 
快速回复 返回顶部 返回列表