AI 下半场

发表于:October 19, 2025 at 01:19 PM

你好,我是小树。这是我为你写的第 137 封信。每期都会同步更新在微信公众号一颗小树

最近在看姚顺雨关于 AI 下半场的讨论,他提出了一个很有意思的观察:如果说 AI 的上半场是「解题」的狂欢,那么下半场的核心命题则会转变为「出题」。

这让我联想到自身,从小到大,都习惯了扮演「解题者」的角色。

在学校里解答老师划定的考题;进入职场后完成被分配的任务和指标。

我们往往很擅长在给定的框架内做到最好,却很少停下来思考:这些题目本身是否值得回答。

因此常常陷入「解题」的惯性,忙于追逐那些外部设定的目标,而忽略了去定义内心真正想解决的问题。

当 AI 变得越来越会考试,并在各种人类设计的基准测试中实现超越时,一个更根本的问题浮出水面:现在出的题是否真的有意义?

AI 的上半场:解题的狂欢与范式胜利

回顾 AI 发展的历程,在很长一段时间里,整个领域的核心游戏规则可以概括为:提出更强的算法或模型,然后在公认的基准测试(Benchmark)上取得更高的分数。

从 AlexNet 在 ImageNet 上的突破,到 AlphaGo 的惊世对局,再到 Transformer 架构的提出,每一次重大进展都伴随着一个新方法在某个特定“考场”上的胜利。

这个阶段的「胜利配方」有三个关键要素:算法(algorithm)、环境(environment)和先验(priors)。

起初,研究者们大多将精力聚焦于算法的创新,这也是学术界最热衷的方向。

随后,在深度强化学习(Deep RL)的探索中,大家逐渐意识到「环境」的重要性——一个好的算法在某个环境中的表现,往往难以直接迁移到另一个环境。

然而,真正的范式转移发生在 GPT 系列模型出现之后。人们发现,先验,尤其是通过「大规模语言预训练」获得的知识,可能才是拼图中缺失的最关键一块。

语言模型提供了一个足够强的先验,让 AI 具备了初步的推理能力,而推理,恰恰是实现泛化(generalization)的核心。

一个重要的洞察是:语言是人为了实现泛化而发明出来的工具。

人类可以轻易地将从一个游戏中获得的知识应用到新游戏中,正是因为我们能够思考和推理。而传统的 AI 模型,则需要在新任务上经过海量训练才能勉强适应,无法做到真正的举一反三。

这种以“刷分”为导向的模式虽然在特定任务上取得了巨大成功,但也暴露了其根本局限:模型在精心设计的“考场”里是优等生,但在真实、开放的世界里却举步维艰,这便引出了 AI 发展的困境——效用难题(Utility Problem),即 AI 为人来带来的实际进步,和其消耗的成本相比,是否合算。

AI 的下半场:转向出题,拥抱效用难题

当解题的方法变得越来越标准化,甚至工业化,AI 发展的游戏规则也随之改变。

这意味着,我们不再仅仅追求在现有基准上获得更高分数,而是要从根本上重新思考和设计我们的「评估体系」,让它更贴近真实世界的复杂需求。

这便直面了上半场留下的核心挑战——效用难题(Utility Problem)。

我们看到,AI 已经在国际奥赛上摘金夺银,在各种人类考试中超越大部分人,但真实世界的经济和生产力,似乎并没有因此发生质的飞跃。

这背后的原因可能很简单:我们给 AI 设定的「考场」,与真实世界的工作场景,存在着巨大的脱节。

这种脱节体现在两个方面。

首先,是评估方式的脱节

我们习惯于让评测自动运行,给模型一个任务,然后等待结果。

但在现实中,工作是高度交互的,需要与人持续沟通、反馈、调整。

我们的测试任务大多是独立同分布(i.i.d.)的,每个任务之间没有关联。

而人类工作恰恰相反,是一个连续积累经验、形成长期记忆的过程。

一个软件工程师解决同一个代码库的第二个问题,总会比第一个更得心应手。

其次,是任务定义的狭隘

我们倾向于选择那些有明确答案、容易评判的任务,比如数学题或编程竞赛。

然而,现实世界中更多的是开放性、创造性的问题,需要与人协作,甚至允许失败。

因此,下半场的真正挑战,不再是发明更巧妙的算法去「解题」,而是去设计和定义那些真正能衡量现实世界价值的「好题」。

这意味着我们要创造新的评估体系和任务环境,迫使我们跳出当前胜利配方的舒适区,去探索更有用的 AI 形式。

最难的是找任务。

一个好的任务,不仅能衡量价值,更能激发通用的、创新的方法。

比如 PPO(Proximal Policy Optimization,一种强化学习优化算法)一开始是为了解决一个特定问题;Transformer 一开始是为了解决一个特定任务;而 Attention(注意力机制)受机器翻译这个任务影响很深。

未来 Agent 的关键方向

根据文中的讲述,姚顺雨认为未来 Agent 的发展有三个关键方向:

首先是记忆(Memory)或上下文(Context)处理能力

当前模型最大的瓶颈并非推理或执行能力不足,而是「缺少一个完整的上下文」。

只有具备强大的记忆能力,Agent 才能在连续的任务中积累经验,实现真正的终身学习(Lifelong Learning),而不是每次都从零开始。

其次是内生奖励(Intrinsic Reward)

要让 Agent 从一个只能执行指令的工具,进化为能够主动探索、自我驱动的伙伴,就需要让它拥有自己的奖励机制。

这样它才能在没有明确外部指令的情况下,自主发现有价值的目标。

最后是多智能体(Multi-Agent)

现实世界中的复杂问题往往需要团队协作解决。

因此,让多个 Agent 形成组织结构,进行高效协作,将是个体智能走向组织智能的关键一步。

在探索这些方向的过程中,编程(Coding)之所以成为一个备受关注的场景,正是因为它提供了一个理想的实验环境。

在强化学习中,最难的部分莫过于设计奖励(Reward)。

而编程任务的优势在于,它的 Reward 是基于结果的、白盒的、基于规则的,而非模糊的人类偏好。这为训练和评估提供了清晰的标尺。

展望 Agent 与人的协作,文中划分了两种不同的模式。

一类是注重可靠性(Reliability)的任务,如客服,它要求极高的稳定性,在 100 次交互中 99 次都不能出错。我曾经做过的表格智能助手也是类似的任务,用户会对准确率的要求极高。

另一类则注重创造性(Creativity)的任务,如科学发现或撰写复杂程序,这类任务允许大量失败,只要有一次取得突破性成功,便价值巨大。

这两种模式对 Agent 的能力要求截然不同,也指明了未来发展的多元路径。

成为自己人生的出题人

原文中对 AI 的思考,最终也引向了我们自身。

这种从「解题」到「出题」的转变,本质上是从一种被动的「打工人思维」进化到主动的「创造者思维」。

「打工人思维」的核心是「适配」。

它的目标是在现有的、被清晰定义的价值链条中找到自己的位置,像一颗螺丝钉一样,为了更好地嵌入现有结构而努力。

这种思维在过去是有效的,但在 AI 时代,其风险正急剧增加。

与之相对,「创造者思维」则是由内而外的。

它不问「我适合做什么」,而是问「我想解决什么问题」或「我想创造什么」。这种思维的核心,是内心深处「渴望去实现什么」的强大内驱力。

这要求我们跳出对过往经验的依赖,从被动接受任务,转向主动探索和创造。

成为自己人生的「出题人」,意味着要建立自己的评价标准,定义自己真正想解决的问题。

这并不容易,它要求我们具备创造者的两个核心特质:

一是在实践中学习,遇到问题再针对性地寻找答案,而非为了学习而学习;

二是必须对不确定性有高度的容忍度,接受过程中的失败和迷茫。

但就像 AI 的发展一样,真正的突破,往往不是来自于对旧问题的更优解,而是来自于对新问题的勇敢定义。

找到我们自己的「下半场」,主动为自己「出题」,或许才是通往更广阔天地的开始。

谢谢你的关注,我们下期再见。👋🏻

参考内容


往期推荐

你也可以在这里找到我:即刻Twitter、微信公众号一颗小树

如果你觉得这篇文章对你有用,欢迎分享给更多好友。