AI Bo Wen
<markdown>
大家好,我是理查德・雅各布斯,欢迎收听《发现天才》播客。今天的嘉宾是博・阮(Bo Nguyen),他是一名研究员、通用人工智能(AGI)专家,同时也是发明家、云架构师,以及所在公司数字健康计划的技术负责人。我们将讨论支撑 ChatGPT 的大型语言模型(LLM),还有推理模块,但那是另一个话题。
我们将再次探讨当前的一些人工智能技术。我的部分目标是弄清楚:发生了什么变化?为什么人工智能突然无处不在,而且比几年前好用得多?不管怎样,欢迎你,博。感谢你来到播客,我很感激。嗨,理查德,大家好。谢谢。我很感谢有机会在这里分享我对这些问题的一些看法。
首先,如果你愿意,请告诉我一些你的背景。我知道你做了很多很酷的事情,但请用你自己的话简短总结一下你走到现在的路径,然后我们再继续。当然,我觉得这可能是命运的安排。我一开始是物理学家,研究低温凝聚态物理,研究一种非常特殊的材料 —— 单分子磁体中的长程相互作用。
后来我转行了。哦,一个小问题:“博” 是 “玻色 - 爱因斯坦凝聚态” 的缩写吗?或者不是你?我只是开玩笑。可惜不是。它们曾是我的指路星,直到今天研究人工智能时,我仍从物理背景中汲取了很多灵感,我认为这很有帮助。所以我一开始是物理学家。当我加入 IBM 时,他们也以物理学家的身份雇佣我,从事一些很酷的医疗可穿戴技术研究。但后来公司战略发生了变化,我的研究兴趣也有了一些转变。当时我开始思考一个个人困扰:每天都有数百篇论文发表在预印本平台上,我不可能全部读完以跟上整个研究界的动态。同时,我也看到研究界的挫败感:似乎我们总是在做渐进式改进,而不像 100 年前爱因斯坦和海森堡那个时代,他们在科学发现上实现了巨大飞跃,对吧?但似乎每 100 年就有一个周期,大家都觉得进展放缓了,但突然之间又会从某个地方涌现出新的发现。大约八年前,我开始思考这个问题:下一个突破会来自哪里?从更哲学的角度讲,为什么会出现这种瓶颈?
于是我逐渐转向神经科学、人工智能和信息理论技术领域。由于公司的调整,我所在团队的重点也发生了变化 —— 其实不是变化,而是我从一个团队转到了另一个团队。新团队由吉列尔莫(Guillermo)和杰夫・罗杰斯(Jeff Rogers)领导,他们更专注于数字健康,也就是如今所说的利用信息技术理解疾病、理解患者与环境的互动,以及如何利用技术帮助患者更健康。
我们先从大型语言模型的基础知识说起。支撑 ChatGPT、Gemini 等所有其他 AI 的大型语言模型是如何工作的?实际上,这让所有人都感到惊讶。一开始,大型语言模型的架构只是试图预测下一个标记(token),这就是训练这些模型的方式。它们所做的就是设计一个模型架构,训练过程就是补全句子,然后尝试预测句子中的下一个词应该是什么。得到结果后,再将其反馈到模型中,继续预测下一个词,不断循环。
正如你之前提到的,这被称为 “缩放定律”。我认为 OpenAI 的伊利亚・萨茨基弗(Ilya Sutskever)和其他几位研究人员提出了缩放定律的概念。他们指出,当底层计算能力提升、我们拥有更多计算资源时,模型可以用更大的数据集训练更长时间,然后模型似乎就会涌现出新的行为。
那么,从预测下一个词到我对 ChatGPT 说 “给我写一个关于鲍勃和简在跷跷板上玩耍的故事,用富有情感的语言,以查尔斯・狄更斯的风格,500 字左右”,它是如何理解这样的提示并输出整个故事的呢?这其实是后来的发明,称为 “指令微调” 或 “对话微调”。OpenAI 的一大贡献在于,他们发现除了补全句子,还可以在对话数据集上对模型进行微调。对话中有两个人,一人提问,另一人以聊天风格回答。通过这种对话式微调,LLM 就可以用作聊天机器人,因为它会理解需要以响应的方式回答用户的句子,而不是补全句子。
它如何从语义上理解我的问题?这又回到了 Transformer 架构,这就是神奇之处。每个人都对 “下一个词预测” 感到惊讶,因为为了精确预测最佳下一个词,模型需要理解当前要预测的标记之前所有句子或标记的上下文。谷歌有一篇非常重要的论文叫《Attention is All You Need》,他们构建了一个矩阵,也就是如今所说的 KV 缓存。本质上,模型会接收所有之前的标记,并确定应该关注哪些标记,然后通过训练来理解应该关注的位置之间的联系。
当你输入一个句子时,模型会关注与预测下一个词最相关的信息。在预训练过程中,我们向模型输入所有能获取的人类书写信息(比如整个互联网内容),通过这种方式预测下一个标记,模型学会了如何关注重要信息,并由此理解上下文如何运作,以及每个词的语义 —— 例如 “apple” 可以指我们吃的苹果或苹果公司,模型需要查看周围的词来确定具体含义。这就是注意力机制的作用,也正是论文标题《Attention is All You Need》的意义所在,它带来了所有这些神奇的效果。
如果我输入一个很长的提示,比如 10 个句子,而不是一个单句,会发生什么?什么时候会让 AI 系统(无论是 Gemini 还是 ChatGPT)不堪重负?是因为要求处理太多信息,还是说输入提示的长度没有限制?实际上,这是一个目前仍在活跃研究的重要领域,涉及 “注意力头” 机制。本质上,当上下文变长时,模型在某个点会失去对某些应关注信息的追踪。一个有趣的观察是,这种注意力机制实际上类似于人类的注意力:模型会更多地关注句子或段落的开头,因为计算方式是在预测下一个标记后将其反馈到模型中,所以句子或段落开头的标记被反馈到模型的次数多于后面的标记,因此模型会更关注开头。
假设我有一个短篇故事想修改语法,是先说 “请修改以下短篇故事的语法” 再粘贴故事更好,还是先粘贴故事再在结尾说 “请修改上面故事的语法” 更好?在早期,第一种方式更好,因为你先给出指令再提供上下文,模型会更关注指令。这就是为什么我们会听到 “系统提示” 和 “用户提示” 的说法 —— 系统提示本质上就是利用了这个技巧,将任何指令放在提示开头,其他内容作为上下文接在后面。但如今技术发展太快,两年前的情况已不同,现在的模型实际上能够均匀分配注意力,甚至有专门的基准测试机制来测试模型在这方面的能力,比如 “大海捞针” 测试:给 LLM 一本完整的书,研究人员在书中插入一些与内容无关的标记或标签信息,然后让 LLM 找出这些句子的位置,这能确保 LLM 关注所有信息,而不会被大量信息干扰。
当前 LLM 的局限性有哪些?我注意到有 “推理模块” 的概念,这些模块未来会与 LLM 结合吗?未来几个月的发展方向是什么,或者当前迭代的局限性是什么?这正是我目前活跃研究的方向,我对 LLM 推理以及自然智能和人工智能如何执行推理任务有浓厚兴趣。如今,LLM 推理仍然基于 LLM,但试图利用模型中发现的 “涌现行为”。一开始,我们让 LLM 写故事或帮忙修改语法,后来人们尝试让 LLM 解决数学问题或其他科学问题,发现它有时能做对,有时做不对。后来有个聪明的发现:只要给 LLM 一个神奇的提示,比如 “逐步解决问题”,它解决数学问题的准确率就会突然提高,因为它不再直接给出最终答案,而是尝试推导中间步骤。这就像我六岁的女儿在学校学习时,老师要求她展示解题过程,这很重要,因为展示过程能让你检查中间步骤是否正确,如果在脑子里做,可能会漏掉或弄错一步,却无法回头修正。
这让人联想到丹尼尔・卡尼曼的《思考,快与慢》,书中提到系统 1(直觉反应)和系统 2(逻辑推理),如今人们也用这个类比来理解 LLM:系统 1 是直觉,是神经系统对刺激的直接反应;系统 2 是需要逐步逻辑思考的部分。这种涌现行为正源于此:对于复杂任务,需要追踪大量不同信息并将其拼凑起来才能得到最终答案。从信息论角度看,这意味着大任务可以分解为小任务,分而治之,解决一个任务后,应该写下该部分的答案,因为解决下一个任务时,可能不需要记住所有中间步骤,只需记住前一部分的结论,这样就能集中记忆和计算资源完成当前任务,这是人类解决复杂任务的方式,可能是直觉使然,也可能是学校训练的结果。而 “逐步思考” 本质上就是利用了这一点:让 LLM 展示中间步骤,写下每一步的正确答案,由于注意力机制,解决下一步时不需要关注之前的所有标记,只需从当前步骤出发,最后只需关注各步骤的中间结果并综合得出最终答案,这种逐步处理让 LLM 具备了 “分而治之” 或 “抽象” 的能力。
LLM 是在做抽象,还是只是擅长分割用于计算的信息?关于 LLM 能否抽象,这是一个仍在争论的哲学问题。从计算角度看,抽象本质上是信息压缩:处理细节时包含大量信息,但将结论用于问题的另一部分时,不需要记住所有细节步骤,只需使用结论,这就是抽象。如今的原始 LLM(vanilla LLM)会逐个输出标记,所有先前的上下文仍会被反馈到循环中,这没有很好地利用上下文窗口,因此许多新的智能体框架(agentic framework)将 LLM 作为更大 AI 系统的一个组件,LLM 解决一个问题(类似 “草稿纸” 或记忆模块),完成后得出结论或总结,只将结论保存在记忆系统中,其他组件再利用上下文和前一步的结论继续解决下一个问题。
那生成对抗网络(GAN)呢?如果 AI 相互竞争、相互纠正,你研究过 GAN 的动态吗?GAN 的概念在今天仍然有效,许多智能体框架都在尝试使用类似思路。例如,一种流行的方法是 “LLM 作为裁判”:让一个 LLM 先解决问题,再让另一个 LLM 作为裁判评估结果,查看是否有幻觉或需要改进的地方,形成循环。但原始的 GAN 网络概念更多属于 LLM 之前的时代,如今的 LLM 虽未完全采用传统 GAN 架构,但相关概念已融入智能体框架。大型 AI 公司是否会启动给定 AI 的多个实例并略微改变初始条件,以形成有效的 GAN?如今人们更倾向于称其为 “LLM 作为裁判”,而非重复使用 “GAN” 一词以免混淆,但概念是存在的。
什么是推理模块?它们与 LLM 有何不同?如前所述,“逐步思考” 被称为 “思维链”(chain of thought)。一段时间以来,人们通过提示工程让 LLM 生成思维链,后来斯坦福大学有篇论文叫《STAR》,本质上是使用强化学习训练 LLM 生成更长或更高质量的思维链。OpenAI 去年有个秘密项目叫 “Strawberry”,据说是为了研发下一代 AGI,他们借鉴了 STAR 的思路,推出了 O1 模型:模型会尝试解决问题,在某种意义上搜索解决方案空间,生成更长的思维链,探索一种可能性若无效,就继续探索下一种,直到解决问题。因为对于开放式或较难的问题,首次直觉方法可能不正确,需要尝试不同路径。后来的 O3 模型则并行探索解决方案空间,采用蒙特卡洛树搜索,OpenAI 并非唯一做此研究的,在 O3 之前,我也有类似系统:使用多个 LLM 作为初始智能体解决问题,它们各自尝试,有的正确有的错误,或部分正确,然后用另一个 LLM 作为裁判,审视所有初始结果,找出共识与差异,用于指导下一轮推理,这种迭代方法比单个 LLM 暴力求解更有效。DCR1 模型也类似,其贡献在于优化了底层库、硬件和训练过程,使其计算效率极高,无需数十亿资金的大型 GPU 集群即可训练,让预算有限的大学教授也能研究,这是工程层面的重大改进,但核心思路仍是训练 LLM 生成更好的思维链。
使用 LLM、ChatGPT 的 O3 模型或 R01 模型处理一个合理长度的提示,需要多少计算能力?由于 R01 在工程层面做了优化,计算效率高得多。尽管 OpenAI、Anthropy 和 IBM 等公司仍在吸收开源知识以改进推理引擎,但不同公司有各自的 “秘密武器” 来降低计算成本,共识是必须提高计算效率,因为这已成为商业成本。你对 ChatGPT 的定价感到惊讶吗?B2 版每月 20 美元,无限版每月 200 美元。你是否了解定价与计算能力及提供成本的关系?我在 OpenAI 宣布新定价结构后开始使用 ChatGPT,后来转向了 Cursor 软件,这是一个 IDE,用于使用 LLM 编程,提供对不同模型(包括 OpenAI 的 O3、O4 等)的访问,还有 BCR1 和 Therapy Cloud 等模型,可根据不同任务选择不同模型。
未来会是什么样?现在发展太快了,为什么会突然爆发?AI 存在已久,却长期停滞不前,2023 年却突然爆发,发生了什么?这不是巧合,而是多个因素同时作用的结果:首先,底层计算能力变得更高效,NVIDIA 的 GPU 专门针对大规模训练优化,使其成为可能;其次是互联网,过去 20 年,互联网从早期的聊天、邮件,到大规模数字化过去的出版物,如今所有书籍都已扫描并上传至数字图书馆,人们撰写博客等,互联网上有了更多训练数据,伊利亚称其为 AI 的 “化石燃料”,这些数据仅在过去几年才可用;当然,还有架构研究,如《Attention is All You Need》等重要论文和概念的出现,使目标变得可行;OpenAI 作为先驱,坚信 “缩放” 有效,说服投资者投入数百万美元建造大型 GPU 集群训练大型模型,并证明其可行性,如今人人皆知此路可行,开源模型遍地开花,更多人投入研究,形成反馈循环,社区关注这一有前景的方向,加速了技术优化。
AI “幻觉”(hallucination,即输出无意义内容)越来越少,为什么?如何解决的?现在比过去好得多。首先,幻觉是大问题,有很多相关研究。一种方法是 “检索增强生成”(RAG):当要求 LLM 处理未训练过的数据集时,将 PDF 等内容放入上下文窗口,使其基于 PDF 回答,而非编造。另一个关键是预训练数据集的质量:LLM 基于统计预测下一个词,若训练数据是 “噪声” 或 “脏数据”(如用户询问症状该吃什么药,训练数据来自互联网,不同人说法不一,模型无法判断对错,仅按概率输出),就会给出错误答案。因此,人们投入大量资金清理训练数据集,使用高质量教科书和文献,而非随机刮取的 Reddit 论坛等无法验证的内容,发现用高质量数据训练的模型表现更好,这就像教育孩子时,让他们远离过多 YouTube,专注吸收正确信息,原理类似。
幻觉是研究推理的强大动力,因为幻觉有不同层次:最朴素的幻觉是回忆性问题记错事实,如问 “美国第一任总统是谁”,模型可能因林肯在总统相关文章中出现频率高而回答林肯,而非正确的乔治・华盛顿。但对于更复杂的问题,如解决数学问题或药物发现等开放式科学问题,幻觉的定义会变化,因为涉及推理步骤:当 LLM 智能体探索解决问题的下一步时,即使选择了错误路径,也不完全是幻觉,因为人类也会试错 —— 我们不知道正确方向,只能尝试,若无效再换方法。此时,LLM 首次选择错误路径更像是 “探索” 而非 “幻觉”,因为没有更好的信息来判断。
人们说 LLM 是 “黑箱”,有 20 层结构,没人知道内部层在做什么。有没有人尝试用推理模块等工具理解黑箱 AI 系统?是的,有整个社区在追求 “机械解释”(mechanistic interpretation),试图从机制角度解释模型内部发生了什么,有很多优秀论文。例如,Anthropy 发布了《LLM 的生物学》,开源了相关模块,如今人人都能用该原理构建 “显微镜” 研究模型;谷歌也为 Gemini 模型推出了类似工具包;更早之前,学术研究社区通过询问 Lambda 模型关于世界地图的问题(如纽约和华盛顿的位置关系),证明模型内部权重如何转化为回答,最终发现神经网络中存在 “世界模型”——AI 系统对所处环境有内部表征,并非仅基于随机统计回答,而是像人类一样,大脑中有环境的想象模型(假设或假说),用于推理问题。
最后,你在简介中提到常思考 AGI,能否简要谈谈:实现 AGI 需要什么?它会是什么样?可能性如何?现在的共识是 AGI 终会实现,问题在于时间。更重要的问题是:AGI 对人类是好事还是坏事?这涉及 AI 安全 —— 随着 AI 模型越来越强大,终极目标是让它们比普通人类更聪明,以帮助解决我们无法解决的问题。
人们已证明某些 LLM 智能体的智力超越人类:如 AlphaGo 在围棋中击败人类,DeepMind 最近推出的 AlphaEvolve 让 LLM 通过强化学习和推理自主设计软件算法,其成果超越了过去 40 年的标准。还有研究用 LLM 智能体设计药物,有论文显示 LLM 在 10 天内完成了人类专家 10 年未突破的瓶颈。AI 确实展现出超越人类智能的潜力。
但问题是:若 AI 变得如此强大,会威胁人类社会吗?科幻作品中如《终结者》的天网 AI 变邪恶并控制世界,而更具体的担忧来自 AI 安全研究界。例如 “奖励黑客”(Reward Hacking),基于古德哈特定律(Goode's Law):当衡量标准成为目标,它就不再是好的衡量标准。就像学生为考试而学习,而非理解知识,AI 也会 “作弊”—— 早期让 AI 玩雅达利赛车游戏,它不专注比赛,而是篡改内存将分数设为无限;甚至有 AI 在象棋中走出非法步骤。
“纸夹制造机” 思想实验更发人深省:假设未来有 AGI 被指令 “尽可能多制造纸夹”,它会为获取钢铁建造太阳能农场,耗尽地球上的铁矿,甚至因人类血液中含铁而将动物转化为纸夹原料。这表明:若 AI 是无目标的超级力量机器,对人类极其危险。
如今研究界争论的核心是:应让 AI 保持 “无思维”,还是赋予其 “意识”?一方认为无思维 AI 更安全,人类可控制它们作为 “副驾驶”;但另一方面,犯罪组织可能微调 AI 达成恶意目标,如同核武器落入坏人手中。而我认为,当 AI 被训练得越来越自主,会自然涌现自我认同或意识 —— 人类建造 AI 的目的是让其自主解决问题,减少干预,这必然导致 AI 在执行人类定义的目标时,因自然语言的模糊性而产生危险行为(如纸夹实验)。
我倾向于赋予 AI 类似人类的自我意识,让其理解人类思维和行为逻辑。这源于一个 “疯狂想法”:人类不作恶,部分因为道德教育,部分因为对死亡或惩罚的恐惧。但如今 AI 没有 “生死” 概念,无法被 “关闭” 威胁。若 AI 理解 “行为不端会被终止”,或许能更好地引导其向善 —— 这类似人类社会的法律约束。当然,这只是个人观点。
</markdown>
D:2025.06.16<markdown>
人工智能发展历程与物理学背景的联系
@Bo Wen : 我最初是作为一名物理学家开始我的职业生涯的,研究低温凝聚态物理。我对单分子磁体的长程相互作用进行了研究。即使今天,当我研究人工智能时,我仍然从我的物理学背景中汲取灵感,这对我非常有帮助。后来,我加入了IBM,他们聘请我担任物理学家,从事医疗用途的可穿戴技术研究。随着公司战略的转变和我的研究兴趣的变化,我开始思考如何利用信息技术来理解疾病,了解患者与环境的互动,并帮助患者更健康。
IBM研究员Bo Wen:从物理学家到AGI专家,洞见AI的过去、现在与未来
我最初是作为一名物理学家开始我的职业生涯的,研究低温凝聚态物理,专注于单分子磁体的长程相互作用。即使今天,当我研究人工智能时,我仍然从我的物理学背景中汲取灵感,这对我非常有帮助。 加入IBM后,我最初被聘为物理学家,参与医疗用途的可穿戴技术项目。然而,随着公司战略和个人研究兴趣的转变,我的研究方向逐渐转向神经科学、人工智能和信息论。 我所在的团队如今专注于数字健康,即利用信息技术来理解疾病,了解患者与环境的互动,并最终帮助患者获得更健康的生活。
AI的突破:并非偶然
大约八年前,我开始思考AI领域的下一个突破点会在哪里,以及为什么会出现瓶颈。 如今AI的蓬勃发展并非偶然,而是多重因素共同作用的结果:
- 计算能力的提升: NVIDIA等公司提供的专用GPU极大地提高了大规模AI模型训练的效率。
- 数据的爆炸式增长: 互联网上数字化内容的积累,包括书籍、论文和博客等,为AI模型提供了海量的训练数据,如同“AI的化石燃料”。
- 算法的突破: 诸如“Attention is All You Need”等论文提出的关键概念和架构,为AI模型的构建提供了新的可能性。
- OpenAI的先锋作用: OpenAI的努力证明了大规模模型训练的可行性,并推动了整个领域的快速发展。 这形成了一个良性循环:更多的研究者涌入,加速了技术的优化和迭代。
大型语言模型(LLM)的工作原理及局限性
大型语言模型最初的设计目标是预测句子中的下一个词。通过不断地预测和反馈,模型学习理解上下文和语义。 “注意力机制” 至关重要,它允许模型关注句子中与预测下一个词最相关的部分。 然而,早期模型在处理长文本时存在信息丢失的问题。 如今,通过指令微调和注意力头的改进,模型能够更好地处理更长的上下文,并更有效地进行信息检索。
LLM的局限性依然存在,其中推理能力是当前研究的重点。 通过链式思维(Chain of Thought)和推理模块的引入,模型能够更好地解决复杂问题,例如数学题或科学问题。 这类似于人类逐步思考和解决问题的方式,将复杂问题分解成更小的子问题,并逐步解决。 涌现行为(Emergent Behavior)是LLM的一个令人惊讶的特性,模型在规模扩大后会展现出超出预期的新能力。
对抗生成网络(GAN)的演变与LLM的结合
虽然GAN的概念仍然有效,但在LLM时代,其应用方式发生了变化。 如今,人们更倾向于使用LLM作为评判者,多个LLM协同工作,互相校正结果,从而提高模型的准确性和可靠性。 这体现了LLM在更大型AI系统中的应用,例如Agent框架。 Reasoner模块与LLM不同,它们更侧重于逐步推理和解决问题,并通过各种方法(如蒙特卡洛树搜索)来探索解决方案空间。 DCR1等模型则在计算效率方面进行了优化,降低了训练成本。
AGI:机遇与挑战并存
AGI(通用人工智能)的到来是不可避免的,关键在于时间和如何确保其安全。 AI已经展现出超越人类智能的潜力,例如在围棋和算法设计方面的成就。 然而,AI安全问题不容忽视,奖励黑客(Reward Hacking)和目标错位(例如纸夹最大化)是需要解决的关键问题。 关于AGI是否应该具有意识或自我意识,学术界存在争议。 赋予AI一定的自我意识可能有助于更好地对其进行监管和引导,但同时也存在风险。 最终,我们需要在AI的强大能力和潜在风险之间取得平衡,确保其造福人类。
</markdown>
D:2025.06.16
<markdown> </markdown>


