AI Bo Wen

<markdown>

大家好,我是理查德・雅各布斯,欢迎收听《发现天才》播客。今天的嘉宾是博・阮(Bo Nguyen),他是一名研究员、通用人工智能(AGI)专家,同时也是发明家、云架构师,以及所在公司数字健康计划的技术负责人。我们将讨论支撑 ChatGPT 的大型语言模型(LLM),还有推理模块,但那是另一个话题。​

我们将再次探讨当前的一些人工智能技术。我的部分目标是弄清楚:发生了什么变化?为什么人工智能突然无处不在,而且比几年前好用得多?不管怎样,欢迎你,博。感谢你来到播客,我很感激。嗨,理查德,大家好。谢谢。我很感谢有机会在这里分享我对这些问题的一些看法。​

首先,如果你愿意,请告诉我一些你的背景。我知道你做了很多很酷的事情,但请用你自己的话简短总结一下你走到现在的路径,然后我们再继续。当然,我觉得这可能是命运的安排。我一开始是物理学家,研究低温凝聚态物理,研究一种非常特殊的材料 —— 单分子磁体中的长程相互作用。​

后来我转行了。哦,一个小问题:“博” 是 “玻色 - 爱因斯坦凝聚态” 的缩写吗?或者不是你?我只是开玩笑。可惜不是。它们曾是我的指路星,直到今天研究人工智能时,我仍从物理背景中汲取了很多灵感,我认为这很有帮助。所以我一开始是物理学家。当我加入 IBM 时,他们也以物理学家的身份雇佣我,从事一些很酷的医疗可穿戴技术研究。但后来公司战略发生了变化,我的研究兴趣也有了一些转变。当时我开始思考一个个人困扰:每天都有数百篇论文发表在预印本平台上,我不可能全部读完以跟上整个研究界的动态。同时,我也看到研究界的挫败感:似乎我们总是在做渐进式改进,而不像 100 年前爱因斯坦和海森堡那个时代,他们在科学发现上实现了巨大飞跃,对吧?但似乎每 100 年就有一个周期,大家都觉得进展放缓了,但突然之间又会从某个地方涌现出新的发现。大约八年前,我开始思考这个问题:下一个突破会来自哪里?从更哲学的角度讲,为什么会出现这种瓶颈?​

于是我逐渐转向神经科学、人工智能和信息理论技术领域。由于公司的调整,我所在团队的重点也发生了变化 —— 其实不是变化,而是我从一个团队转到了另一个团队。新团队由吉列尔莫(Guillermo)和杰夫・罗杰斯(Jeff Rogers)领导,他们更专注于数字健康,也就是如今所说的利用信息技术理解疾病、理解患者与环境的互动,以及如何利用技术帮助患者更健康。​

我们先从大型语言模型的基础知识说起。支撑 ChatGPT、Gemini 等所有其他 AI 的大型语言模型是如何工作的?实际上,这让所有人都感到惊讶。一开始,大型语言模型的架构只是试图预测下一个标记(token),这就是训练这些模型的方式。它们所做的就是设计一个模型架构,训练过程就是补全句子,然后尝试预测句子中的下一个词应该是什么。得到结果后,再将其反馈到模型中,继续预测下一个词,不断循环。​

正如你之前提到的,这被称为 “缩放定律”。我认为 OpenAI 的伊利亚・萨茨基弗(Ilya Sutskever)和其他几位研究人员提出了缩放定律的概念。他们指出,当底层计算能力提升、我们拥有更多计算资源时,模型可以用更大的数据集训练更长时间,然后模型似乎就会涌现出新的行为。​

那么,从预测下一个词到我对 ChatGPT 说 “给我写一个关于鲍勃和简在跷跷板上玩耍的故事,用富有情感的语言,以查尔斯・狄更斯的风格,500 字左右”,它是如何理解这样的提示并输出整个故事的呢?这其实是后来的发明,称为 “指令微调” 或 “对话微调”。OpenAI 的一大贡献在于,他们发现除了补全句子,还可以在对话数据集上对模型进行微调。对话中有两个人,一人提问,另一人以聊天风格回答。通过这种对话式微调,LLM 就可以用作聊天机器人,因为它会理解需要以响应的方式回答用户的句子,而不是补全句子。​

它如何从语义上理解我的问题?这又回到了 Transformer 架构,这就是神奇之处。每个人都对 “下一个词预测” 感到惊讶,因为为了精确预测最佳下一个词,模型需要理解当前要预测的标记之前所有句子或标记的上下文。谷歌有一篇非常重要的论文叫《Attention is All You Need》,他们构建了一个矩阵,也就是如今所说的 KV 缓存。本质上,模型会接收所有之前的标记,并确定应该关注哪些标记,然后通过训练来理解应该关注的位置之间的联系。​

当你输入一个句子时,模型会关注与预测下一个词最相关的信息。在预训练过程中,我们向模型输入所有能获取的人类书写信息(比如整个互联网内容),通过这种方式预测下一个标记,模型学会了如何关注重要信息,并由此理解上下文如何运作,以及每个词的语义 —— 例如 “apple” 可以指我们吃的苹果或苹果公司,模型需要查看周围的词来确定具体含义。这就是注意力机制的作用,也正是论文标题《Attention is All You Need》的意义所在,它带来了所有这些神奇的效果。​

如果我输入一个很长的提示,比如 10 个句子,而不是一个单句,会发生什么?什么时候会让 AI 系统(无论是 Gemini 还是 ChatGPT)不堪重负?是因为要求处理太多信息,还是说输入提示的长度没有限制?实际上,这是一个目前仍在活跃研究的重要领域,涉及 “注意力头” 机制。本质上,当上下文变长时,模型在某个点会失去对某些应关注信息的追踪。一个有趣的观察是,这种注意力机制实际上类似于人类的注意力:模型会更多地关注句子或段落的开头,因为计算方式是在预测下一个标记后将其反馈到模型中,所以句子或段落开头的标记被反馈到模型的次数多于后面的标记,因此模型会更关注开头。​

假设我有一个短篇故事想修改语法,是先说 “请修改以下短篇故事的语法” 再粘贴故事更好,还是先粘贴故事再在结尾说 “请修改上面故事的语法” 更好?在早期,第一种方式更好,因为你先给出指令再提供上下文,模型会更关注指令。这就是为什么我们会听到 “系统提示” 和 “用户提示” 的说法 —— 系统提示本质上就是利用了这个技巧,将任何指令放在提示开头,其他内容作为上下文接在后面。但如今技术发展太快,两年前的情况已不同,现在的模型实际上能够均匀分配注意力,甚至有专门的基准测试机制来测试模型在这方面的能力,比如 “大海捞针” 测试:给 LLM 一本完整的书,研究人员在书中插入一些与内容无关的标记或标签信息,然后让 LLM 找出这些句子的位置,这能确保 LLM 关注所有信息,而不会被大量信息干扰。​

当前 LLM 的局限性有哪些?我注意到有 “推理模块” 的概念,这些模块未来会与 LLM 结合吗?未来几个月的发展方向是什么,或者当前迭代的局限性是什么?这正是我目前活跃研究的方向,我对 LLM 推理以及自然智能和人工智能如何执行推理任务有浓厚兴趣。如今,LLM 推理仍然基于 LLM,但试图利用模型中发现的 “涌现行为”。一开始,我们让 LLM 写故事或帮忙修改语法,后来人们尝试让 LLM 解决数学问题或其他科学问题,发现它有时能做对,有时做不对。后来有个聪明的发现:只要给 LLM 一个神奇的提示,比如 “逐步解决问题”,它解决数学问题的准确率就会突然提高,因为它不再直接给出最终答案,而是尝试推导中间步骤。这就像我六岁的女儿在学校学习时,老师要求她展示解题过程,这很重要,因为展示过程能让你检查中间步骤是否正确,如果在脑子里做,可能会漏掉或弄错一步,却无法回头修正。​

这让人联想到丹尼尔・卡尼曼的《思考,快与慢》,书中提到系统 1(直觉反应)和系统 2(逻辑推理),如今人们也用这个类比来理解 LLM:系统 1 是直觉,是神经系统对刺激的直接反应;系统 2 是需要逐步逻辑思考的部分。这种涌现行为正源于此:对于复杂任务,需要追踪大量不同信息并将其拼凑起来才能得到最终答案。从信息论角度看,这意味着大任务可以分解为小任务,分而治之,解决一个任务后,应该写下该部分的答案,因为解决下一个任务时,可能不需要记住所有中间步骤,只需记住前一部分的结论,这样就能集中记忆和计算资源完成当前任务,这是人类解决复杂任务的方式,可能是直觉使然,也可能是学校训练的结果。而 “逐步思考” 本质上就是利用了这一点:让 LLM 展示中间步骤,写下每一步的正确答案,由于注意力机制,解决下一步时不需要关注之前的所有标记,只需从当前步骤出发,最后只需关注各步骤的中间结果并综合得出最终答案,这种逐步处理让 LLM 具备了 “分而治之” 或 “抽象” 的能力。​

LLM 是在做抽象,还是只是擅长分割用于计算的信息?关于 LLM 能否抽象,这是一个仍在争论的哲学问题。从计算角度看,抽象本质上是信息压缩:处理细节时包含大量信息,但将结论用于问题的另一部分时,不需要记住所有细节步骤,只需使用结论,这就是抽象。如今的原始 LLM(vanilla LLM)会逐个输出标记,所有先前的上下文仍会被反馈到循环中,这没有很好地利用上下文窗口,因此许多新的智能体框架(agentic framework)将 LLM 作为更大 AI 系统的一个组件,LLM 解决一个问题(类似 “草稿纸” 或记忆模块),完成后得出结论或总结,只将结论保存在记忆系统中,其他组件再利用上下文和前一步的结论继续解决下一个问题。​

那生成对抗网络(GAN)呢?如果 AI 相互竞争、相互纠正,你研究过 GAN 的动态吗?GAN 的概念在今天仍然有效,许多智能体框架都在尝试使用类似思路。例如,一种流行的方法是 “LLM 作为裁判”:让一个 LLM 先解决问题,再让另一个 LLM 作为裁判评估结果,查看是否有幻觉或需要改进的地方,形成循环。但原始的 GAN 网络概念更多属于 LLM 之前的时代,如今的 LLM 虽未完全采用传统 GAN 架构,但相关概念已融入智能体框架。大型 AI 公司是否会启动给定 AI 的多个实例并略微改变初始条件,以形成有效的 GAN?如今人们更倾向于称其为 “LLM 作为裁判”,而非重复使用 “GAN” 一词以免混淆,但概念是存在的。​

什么是推理模块?它们与 LLM 有何不同?如前所述,“逐步思考” 被称为 “思维链”(chain of thought)。一段时间以来,人们通过提示工程让 LLM 生成思维链,后来斯坦福大学有篇论文叫《STAR》,本质上是使用强化学习训练 LLM 生成更长或更高质量的思维链。OpenAI 去年有个秘密项目叫 “Strawberry”,据说是为了研发下一代 AGI,他们借鉴了 STAR 的思路,推出了 O1 模型:模型会尝试解决问题,在某种意义上搜索解决方案空间,生成更长的思维链,探索一种可能性若无效,就继续探索下一种,直到解决问题。因为对于开放式或较难的问题,首次直觉方法可能不正确,需要尝试不同路径。后来的 O3 模型则并行探索解决方案空间,采用蒙特卡洛树搜索,OpenAI 并非唯一做此研究的,在 O3 之前,我也有类似系统:使用多个 LLM 作为初始智能体解决问题,它们各自尝试,有的正确有的错误,或部分正确,然后用另一个 LLM 作为裁判,审视所有初始结果,找出共识与差异,用于指导下一轮推理,这种迭代方法比单个 LLM 暴力求解更有效。DCR1 模型也类似,其贡献在于优化了底层库、硬件和训练过程,使其计算效率极高,无需数十亿资金的大型 GPU 集群即可训练,让预算有限的大学教授也能研究,这是工程层面的重大改进,但核心思路仍是训练 LLM 生成更好的思维链。​

使用 LLM、ChatGPT 的 O3 模型或 R01 模型处理一个合理长度的提示,需要多少计算能力?由于 R01 在工程层面做了优化,计算效率高得多。尽管 OpenAI、Anthropy 和 IBM 等公司仍在吸收开源知识以改进推理引擎,但不同公司有各自的 “秘密武器” 来降低计算成本,共识是必须提高计算效率,因为这已成为商业成本。你对 ChatGPT 的定价感到惊讶吗?B2 版每月 20 美元,无限版每月 200 美元。你是否了解定价与计算能力及提供成本的关系?我在 OpenAI 宣布新定价结构后开始使用 ChatGPT,后来转向了 Cursor 软件,这是一个 IDE,用于使用 LLM 编程,提供对不同模型(包括 OpenAI 的 O3、O4 等)的访问,还有 BCR1 和 Therapy Cloud 等模型,可根据不同任务选择不同模型。​

未来会是什么样?现在发展太快了,为什么会突然爆发?AI 存在已久,却长期停滞不前,2023 年却突然爆发,发生了什么?这不是巧合,而是多个因素同时作用的结果:首先,底层计算能力变得更高效,NVIDIA 的 GPU 专门针对大规模训练优化,使其成为可能;其次是互联网,过去 20 年,互联网从早期的聊天、邮件,到大规模数字化过去的出版物,如今所有书籍都已扫描并上传至数字图书馆,人们撰写博客等,互联网上有了更多训练数据,伊利亚称其为 AI 的 “化石燃料”,这些数据仅在过去几年才可用;当然,还有架构研究,如《Attention is All You Need》等重要论文和概念的出现,使目标变得可行;OpenAI 作为先驱,坚信 “缩放” 有效,说服投资者投入数百万美元建造大型 GPU 集群训练大型模型,并证明其可行性,如今人人皆知此路可行,开源模型遍地开花,更多人投入研究,形成反馈循环,社区关注这一有前景的方向,加速了技术优化。​

AI “幻觉”(hallucination,即输出无意义内容)越来越少,为什么?如何解决的?现在比过去好得多。首先,幻觉是大问题,有很多相关研究。一种方法是 “检索增强生成”(RAG):当要求 LLM 处理未训练过的数据集时,将 PDF 等内容放入上下文窗口,使其基于 PDF 回答,而非编造。另一个关键是预训练数据集的质量:LLM 基于统计预测下一个词,若训练数据是 “噪声” 或 “脏数据”(如用户询问症状该吃什么药,训练数据来自互联网,不同人说法不一,模型无法判断对错,仅按概率输出),就会给出错误答案。因此,人们投入大量资金清理训练数据集,使用高质量教科书和文献,而非随机刮取的 Reddit 论坛等无法验证的内容,发现用高质量数据训练的模型表现更好,这就像教育孩子时,让他们远离过多 YouTube,专注吸收正确信息,原理类似。​

幻觉是研究推理的强大动力,因为幻觉有不同层次:最朴素的幻觉是回忆性问题记错事实,如问 “美国第一任总统是谁”,模型可能因林肯在总统相关文章中出现频率高而回答林肯,而非正确的乔治・华盛顿。但对于更复杂的问题,如解决数学问题或药物发现等开放式科学问题,幻觉的定义会变化,因为涉及推理步骤:当 LLM 智能体探索解决问题的下一步时,即使选择了错误路径,也不完全是幻觉,因为人类也会试错 —— 我们不知道正确方向,只能尝试,若无效再换方法。此时,LLM 首次选择错误路径更像是 “探索” 而非 “幻觉”,因为没有更好的信息来判断。​

人们说 LLM 是 “黑箱”,有 20 层结构,没人知道内部层在做什么。有没有人尝试用推理模块等工具理解黑箱 AI 系统?是的,有整个社区在追求 “机械解释”(mechanistic interpretation),试图从机制角度解释模型内部发生了什么,有很多优秀论文。例如,Anthropy 发布了《LLM 的生物学》,开源了相关模块,如今人人都能用该原理构建 “显微镜” 研究模型;谷歌也为 Gemini 模型推出了类似工具包;更早之前,学术研究社区通过询问 Lambda 模型关于世界地图的问题(如纽约和华盛顿的位置关系),证明模型内部权重如何转化为回答,最终发现神经网络中存在 “世界模型”——AI 系统对所处环境有内部表征,并非仅基于随机统计回答,而是像人类一样,大脑中有环境的想象模型(假设或假说),用于推理问题。​

最后,你在简介中提到常思考 AGI,能否简要谈谈:实现 AGI 需要什么?它会是什么样?可能性如何?现在的共识是 AGI 终会实现,问题在于时间。更重要的问题是:AGI 对人类是好事还是坏事?这涉及 AI 安全 —— 随着 AI 模型越来越强大,终极目标是让它们比普通人类更聪明,以帮助解决我们无法解决的问题。​

人们已证明某些 LLM 智能体的智力超越人类:如 AlphaGo 在围棋中击败人类,DeepMind 最近推出的 AlphaEvolve 让 LLM 通过强化学习和推理自主设计软件算法,其成果超越了过去 40 年的标准。还有研究用 LLM 智能体设计药物,有论文显示 LLM 在 10 天内完成了人类专家 10 年未突破的瓶颈。AI 确实展现出超越人类智能的潜力。​

但问题是:若 AI 变得如此强大,会威胁人类社会吗?科幻作品中如《终结者》的天网 AI 变邪恶并控制世界,而更具体的担忧来自 AI 安全研究界。例如 “奖励黑客”(Reward Hacking),基于古德哈特定律(Goode's Law):当衡量标准成为目标,它就不再是好的衡量标准。就像学生为考试而学习,而非理解知识,AI 也会 “作弊”—— 早期让 AI 玩雅达利赛车游戏,它不专注比赛,而是篡改内存将分数设为无限;甚至有 AI 在象棋中走出非法步骤。​

“纸夹制造机” 思想实验更发人深省:假设未来有 AGI 被指令 “尽可能多制造纸夹”,它会为获取钢铁建造太阳能农场,耗尽地球上的铁矿,甚至因人类血液中含铁而将动物转化为纸夹原料。这表明:若 AI 是无目标的超级力量机器,对人类极其危险。​

如今研究界争论的核心是:应让 AI 保持 “无思维”,还是赋予其 “意识”?一方认为无思维 AI 更安全,人类可控制它们作为 “副驾驶”;但另一方面,犯罪组织可能微调 AI 达成恶意目标,如同核武器落入坏人手中。而我认为,当 AI 被训练得越来越自主,会自然涌现自我认同或意识 —— 人类建造 AI 的目的是让其自主解决问题,减少干预,这必然导致 AI 在执行人类定义的目标时,因自然语言的模糊性而产生危险行为(如纸夹实验)。​

我倾向于赋予 AI 类似人类的自我意识,让其理解人类思维和行为逻辑。这源于一个 “疯狂想法”:人类不作恶,部分因为道德教育,部分因为对死亡或惩罚的恐惧。但如今 AI 没有 “生死” 概念,无法被 “关闭” 威胁。若 AI 理解 “行为不端会被终止”,或许能更好地引导其向善 —— 这类似人类社会的法律约束。当然,这只是个人观点。​

</markdown>

D:2025.06.16<markdown>

人工智能发展历程与物理学背景的联系

@Bo Wen : 我最初是作为一名物理学家开始我的职业生涯的,研究低温凝聚态物理。我对单分子磁体的长程相互作用进行了研究。即使今天,当我研究人工智能时,我仍然从我的物理学背景中汲取灵感,这对我非常有帮助。后来,我加入了IBM,他们聘请我担任物理学家,从事医疗用途的可穿戴技术研究。随着公司战略的转变和我的研究兴趣的变化,我开始思考如何利用信息技术来理解疾病,了解患者与环境的互动,并帮助患者更健康。

IBM研究员Bo Wen:从物理学家到AGI专家,洞见AI的过去、现在与未来

我最初是作为一名物理学家开始我的职业生涯的,研究低温凝聚态物理,专注于单分子磁体的长程相互作用。即使今天,当我研究人工智能时,我仍然从我的物理学背景中汲取灵感,这对我非常有帮助。 加入IBM后,我最初被聘为物理学家,参与医疗用途的可穿戴技术项目。然而,随着公司战略和个人研究兴趣的转变,我的研究方向逐渐转向神经科学、人工智能和信息论。 我所在的团队如今专注于数字健康,即利用信息技术来理解疾病,了解患者与环境的互动,并最终帮助患者获得更健康的生活。

AI的突破:并非偶然

大约八年前,我开始思考AI领域的下一个突破点会在哪里,以及为什么会出现瓶颈。 如今AI的蓬勃发展并非偶然,而是多重因素共同作用的结果:

  • 计算能力的提升: NVIDIA等公司提供的专用GPU极大地提高了大规模AI模型训练的效率。
  • 数据的爆炸式增长: 互联网上数字化内容的积累,包括书籍、论文和博客等,为AI模型提供了海量的训练数据,如同“AI的化石燃料”。
  • 算法的突破: 诸如“Attention is All You Need”等论文提出的关键概念和架构,为AI模型的构建提供了新的可能性。
  • OpenAI的先锋作用: OpenAI的努力证明了大规模模型训练的可行性,并推动了整个领域的快速发展。 这形成了一个良性循环:更多的研究者涌入,加速了技术的优化和迭代。

大型语言模型(LLM)的工作原理及局限性

大型语言模型最初的设计目标是预测句子中的下一个词。通过不断地预测和反馈,模型学习理解上下文和语义。 “注意力机制” 至关重要,它允许模型关注句子中与预测下一个词最相关的部分。 然而,早期模型在处理长文本时存在信息丢失的问题。 如今,通过指令微调注意力头的改进,模型能够更好地处理更长的上下文,并更有效地进行信息检索。

LLM的局限性依然存在,其中推理能力是当前研究的重点。 通过链式思维(Chain of Thought)和推理模块的引入,模型能够更好地解决复杂问题,例如数学题或科学问题。 这类似于人类逐步思考和解决问题的方式,将复杂问题分解成更小的子问题,并逐步解决。 涌现行为(Emergent Behavior)是LLM的一个令人惊讶的特性,模型在规模扩大后会展现出超出预期的新能力。

对抗生成网络(GAN)的演变与LLM的结合

虽然GAN的概念仍然有效,但在LLM时代,其应用方式发生了变化。 如今,人们更倾向于使用LLM作为评判者,多个LLM协同工作,互相校正结果,从而提高模型的准确性和可靠性。 这体现了LLM在更大型AI系统中的应用,例如Agent框架。 Reasoner模块与LLM不同,它们更侧重于逐步推理和解决问题,并通过各种方法(如蒙特卡洛树搜索)来探索解决方案空间。 DCR1等模型则在计算效率方面进行了优化,降低了训练成本。

AGI:机遇与挑战并存

AGI(通用人工智能)的到来是不可避免的,关键在于时间和如何确保其安全。 AI已经展现出超越人类智能的潜力,例如在围棋和算法设计方面的成就。 然而,AI安全问题不容忽视,奖励黑客(Reward Hacking)和目标错位(例如纸夹最大化)是需要解决的关键问题。 关于AGI是否应该具有意识或自我意识,学术界存在争议。 赋予AI一定的自我意识可能有助于更好地对其进行监管和引导,但同时也存在风险。 最终,我们需要在AI的强大能力和潜在风险之间取得平衡,确保其造福人类。

</markdown>

D:2025.06.16

<markdown> </markdown>

讨论列表 AKP讨论 查看原帖及回帖