AI 下半场

你好，我是小树。这是我为你写的第 137 封信。每期都会同步更新在微信公众号一颗小树。

最近在看姚顺雨关于 AI 下半场的讨论，他提出了一个很有意思的观察：如果说 AI 的上半场是「解题」的狂欢，那么下半场的核心命题则会转变为「出题」。

这让我联想到自身，从小到大，都习惯了扮演「解题者」的角色。

在学校里解答老师划定的考题；进入职场后完成被分配的任务和指标。

我们往往很擅长在给定的框架内做到最好，却很少停下来思考：这些题目本身是否值得回答。

因此常常陷入「解题」的惯性，忙于追逐那些外部设定的目标，而忽略了去定义内心真正想解决的问题。

当 AI 变得越来越会考试，并在各种人类设计的基准测试中实现超越时，一个更根本的问题浮出水面：现在出的题是否真的有意义？

AI 的上半场：解题的狂欢与范式胜利

回顾 AI 发展的历程，在很长一段时间里，整个领域的核心游戏规则可以概括为：提出更强的算法或模型，然后在公认的基准测试（Benchmark）上取得更高的分数。

从 AlexNet 在 ImageNet 上的突破，到 AlphaGo 的惊世对局，再到 Transformer 架构的提出，每一次重大进展都伴随着一个新方法在某个特定“考场”上的胜利。

这个阶段的「胜利配方」有三个关键要素：算法（algorithm）、环境（environment）和先验（priors）。

起初，研究者们大多将精力聚焦于算法的创新，这也是学术界最热衷的方向。

随后，在深度强化学习（Deep RL）的探索中，大家逐渐意识到「环境」的重要性——一个好的算法在某个环境中的表现，往往难以直接迁移到另一个环境。

然而，真正的范式转移发生在 GPT 系列模型出现之后。人们发现，先验，尤其是通过「大规模语言预训练」获得的知识，可能才是拼图中缺失的最关键一块。

语言模型提供了一个足够强的先验，让 AI 具备了初步的推理能力，而推理，恰恰是实现泛化（generalization）的核心。

一个重要的洞察是：语言是人为了实现泛化而发明出来的工具。

人类可以轻易地将从一个游戏中获得的知识应用到新游戏中，正是因为我们能够思考和推理。而传统的 AI 模型，则需要在新任务上经过海量训练才能勉强适应，无法做到真正的举一反三。

这种以“刷分”为导向的模式虽然在特定任务上取得了巨大成功，但也暴露了其根本局限：模型在精心设计的“考场”里是优等生，但在真实、开放的世界里却举步维艰，这便引出了 AI 发展的困境——效用难题（Utility Problem），即 AI 为人来带来的实际进步，和其消耗的成本相比，是否合算。

AI 的下半场：转向出题，拥抱效用难题

当解题的方法变得越来越标准化，甚至工业化，AI 发展的游戏规则也随之改变。

这意味着，我们不再仅仅追求在现有基准上获得更高分数，而是要从根本上重新思考和设计我们的「评估体系」，让它更贴近真实世界的复杂需求。

这便直面了上半场留下的核心挑战——效用难题（Utility Problem）。

我们看到，AI 已经在国际奥赛上摘金夺银，在各种人类考试中超越大部分人，但真实世界的经济和生产力，似乎并没有因此发生质的飞跃。

这背后的原因可能很简单：我们给 AI 设定的「考场」，与真实世界的工作场景，存在着巨大的脱节。

这种脱节体现在两个方面。

首先，是评估方式的脱节。

我们习惯于让评测自动运行，给模型一个任务，然后等待结果。

但在现实中，工作是高度交互的，需要与人持续沟通、反馈、调整。

我们的测试任务大多是独立同分布（i.i.d.）的，每个任务之间没有关联。

而人类工作恰恰相反，是一个连续积累经验、形成长期记忆的过程。

一个软件工程师解决同一个代码库的第二个问题，总会比第一个更得心应手。

其次，是任务定义的狭隘。

我们倾向于选择那些有明确答案、容易评判的任务，比如数学题或编程竞赛。

然而，现实世界中更多的是开放性、创造性的问题，需要与人协作，甚至允许失败。

因此，下半场的真正挑战，不再是发明更巧妙的算法去「解题」，而是去设计和定义那些真正能衡量现实世界价值的「好题」。

这意味着我们要创造新的评估体系和任务环境，迫使我们跳出当前胜利配方的舒适区，去探索更有用的 AI 形式。

最难的是找任务。

一个好的任务，不仅能衡量价值，更能激发通用的、创新的方法。

比如 PPO（Proximal Policy Optimization，一种强化学习优化算法）一开始是为了解决一个特定问题；Transformer 一开始是为了解决一个特定任务；而 Attention（注意力机制）受机器翻译这个任务影响很深。

未来 Agent 的关键方向

根据文中的讲述，姚顺雨认为未来 Agent 的发展有三个关键方向：

首先是记忆（Memory）或上下文（Context）处理能力。

当前模型最大的瓶颈并非推理或执行能力不足，而是「缺少一个完整的上下文」。

只有具备强大的记忆能力，Agent 才能在连续的任务中积累经验，实现真正的终身学习（Lifelong Learning），而不是每次都从零开始。

其次是内生奖励（Intrinsic Reward）。

要让 Agent 从一个只能执行指令的工具，进化为能够主动探索、自我驱动的伙伴，就需要让它拥有自己的奖励机制。

这样它才能在没有明确外部指令的情况下，自主发现有价值的目标。

最后是多智能体（Multi-Agent）。

现实世界中的复杂问题往往需要团队协作解决。

因此，让多个 Agent 形成组织结构，进行高效协作，将是个体智能走向组织智能的关键一步。

在探索这些方向的过程中，编程（Coding）之所以成为一个备受关注的场景，正是因为它提供了一个理想的实验环境。

在强化学习中，最难的部分莫过于设计奖励（Reward）。

而编程任务的优势在于，它的 Reward 是基于结果的、白盒的、基于规则的，而非模糊的人类偏好。这为训练和评估提供了清晰的标尺。

展望 Agent 与人的协作，文中划分了两种不同的模式。

一类是注重可靠性（Reliability）的任务，如客服，它要求极高的稳定性，在 100 次交互中 99 次都不能出错。我曾经做过的表格智能助手也是类似的任务，用户会对准确率的要求极高。

另一类则注重创造性（Creativity）的任务，如科学发现或撰写复杂程序，这类任务允许大量失败，只要有一次取得突破性成功，便价值巨大。

这两种模式对 Agent 的能力要求截然不同，也指明了未来发展的多元路径。

成为自己人生的出题人

原文中对 AI 的思考，最终也引向了我们自身。

这种从「解题」到「出题」的转变，本质上是从一种被动的「打工人思维」进化到主动的「创造者思维」。

「打工人思维」的核心是「适配」。

它的目标是在现有的、被清晰定义的价值链条中找到自己的位置，像一颗螺丝钉一样，为了更好地嵌入现有结构而努力。

这种思维在过去是有效的，但在 AI 时代，其风险正急剧增加。

与之相对，「创造者思维」则是由内而外的。

它不问「我适合做什么」，而是问「我想解决什么问题」或「我想创造什么」。这种思维的核心，是内心深处「渴望去实现什么」的强大内驱力。

这要求我们跳出对过往经验的依赖，从被动接受任务，转向主动探索和创造。

成为自己人生的「出题人」，意味着要建立自己的评价标准，定义自己真正想解决的问题。

这并不容易，它要求我们具备创造者的两个核心特质：

一是在实践中学习，遇到问题再针对性地寻找答案，而非为了学习而学习；

二是必须对不确定性有高度的容忍度，接受过程中的失败和迷茫。

但就像 AI 的发展一样，真正的突破，往往不是来自于对旧问题的更优解，而是来自于对新问题的勇敢定义。

找到我们自己的「下半场」，主动为自己「出题」，或许才是通往更广阔天地的开始。

谢谢你的关注，我们下期再见。👋🏻

参考内容

往期推荐

你也可以在这里找到我：即刻、Twitter、微信公众号一颗小树。

如果你觉得这篇文章对你有用，欢迎分享给更多好友。