营养科学 Dr. David Ludwig Gary Taubes
<markdown>
播客开场与核心问题 (主持人 Bret Scher)
主持人 Bret Scher 开场便点出营养科学领域的困惑:为什么普通人乃至专业人士都对“我们应该或不应该吃什么”感到迷茫?营养科学发展至今,并未能有效遏制糖尿病和肥胖的流行,原因何在?为什么同一项研究会引发截然不同的解读,一方誉为经典,另一方斥为误导甚至要求撤稿?美国政府研究资助方式的潜在变化是否会为营养科学带来新的机遇,以更好地理解和应对这些流行病?
为了探讨这些问题,主持人邀请了该领域的两位重量级人物:Gary Taubes 和 Dr. David Ludwig。
嘉宾介绍
- Dr. David Ludwig: 儿科医生和内分泌学家,常驻波士顿儿童医院和哈佛医学院,同时在丹麦 Steno 糖尿病中心担任顾问。其研究重点是饮食(独立于卡路里)如何通过影响激素、代谢甚至基因表达来影响肥胖、糖尿病等慢性病风险。他提到,这些慢性病已成为当前美国政府和卫生与公众服务部关注的焦点。
- Gary Taubes: 记者和作家,25年来一直撰写关于营养和慢性病的文章,代表作包括《纽约时报杂志》的封面故事以及《好卡路里,坏卡路里》(2007)和去年的《重新思考糖尿病》等书籍。他还在 Substack 上运营名为“不确定性原理”(Uncertainty Principles)的专栏。
讨论的缘起
本次讨论部分源于 Gary Taubes 近期在 Substack 上发表的关于“NIH(美国国立卫生研究院)存在营养问题”的文章,以及 Dr. David Ludwig 在《英国医学杂志》(BMJ)和 Medium 上发表的关于营养研究现状及担忧的文章。David Ludwig 提及 NIH 领导层的变动(Jay Bhattacharya 或将领导 NIH)可能会改变 NIH 研究的重点和方式。
第一部分:NIH 资助的营养研究应聚焦何处?
- Gary Taubes 的观点: 目标很简单——识别肥胖和糖尿病相关慢性病流行的根本原因。就像识别传染病的病原体或肺癌流行的原因(吸烟)一样,一旦找到原因,就能预防和治疗。
- Dr. David Ludwig 的观点:
- 营养并非单一专业领域(如心脏病、癌症),它几乎影响 NIH 关注的所有慢性和急性疾病。因此,营养研究应得到重视并整合到各个疾病研究所中,而非被视为“可怜的继子”。
- 营养研究长期资金严重不足。相比一项由行业资助的针对单一慢性病的III期药物试验(可能耗资10亿美元),大多数营养研究只能获得极少资金。
- 营养研究比药物研究更复杂,因为它需要考虑行为等多种因素。
- 是时候认识到营养是多种慢性病的基础,并认真对待营养研究了。
NIH 的营养研究经费问题
主持人提到,NIH 总研究经费为300亿美元,其中22亿美元用于营养研究。表面看22亿美元很多,但分摊到各项研究后,每项研究的经费与药物试验相比仍然微不足道。
第二部分:营养研究质量的巨大争议——为何同一研究解读迥异?
主持人指出,Gary 和 David 在各自的文章中都批评了 NIH 研究经费的使用方式和研究类型,甚至称某些研究“不道德”。特别是 Kevin Hall 的超加工食品研究和低脂vs低碳水研究,一些人誉为最佳,但在他们看来却问题重重。这种巨大分歧的原因何在?
- Gary Taubes 的观点(悲观):
- 信念体系作祟: 营养学领域自二战以来就存在一些关于慢性病成因的固有观念(如:肥胖是因为吃太多,心脏病是饱和脂肪和总脂肪摄入过多所致,应多吃植物性食物)。
- 研究好坏取决于是否符合主流信念: 如果研究结果符合主流观点,就会被誉为成功、里程碑式的研究,并发表在顶级期刊;如果结果与主流相悖,则难以发表,或只能发表在影响力较小的期刊。
- 证实性偏见 (Confirmation Bias): 人们倾向于欢迎证实自己信念的研究,而忽略不符合的。科学方法本应最大限度减少这种偏见,但这正是当前营养科学面临的困境。
- Dr. David Ludwig 的观点(相对乐观):
- 真相最终会显现,只是时间问题。
- 证实性偏见确实存在于各方。
- 基础性错误的被忽视: 一些在药理学研究中会被直接拒稿的统计学101级别的错误,在营养学研究中却因为结果符合某些权威人士的既有观念而被忽视。
- 短期喂养研究的问题(致命缺陷):
- 这类研究(如为期两周的试验)虽然控制严格、技术先进(代谢舱等),但存在根本性缺陷。就像一辆外表华丽但引擎损坏的汽车,科学上走不远。
- 核心问题: 试图通过为期数周的膳食试验来理解需要数年才能形成的慢性病,这是范式上的错误。慢性病的膳食研究需要数月甚至数年的临床试验才能获得可靠结果。
- 短期研究的诱惑: 长期试验耗资巨大且难以执行(保持受试者依从性是巨大挑战),这使得研究界倾向于短期试验,并“假装”这些有统计学错误的短期试验结果是“足够好”的,因为“这是我们能做到的最好”。但在真正的科学中,如果“最好”的方法本身就有问题,那就应该反思方法本身,而不是强行接受其结果。
第三部分:短期膳食研究的“致命缺陷”——适应期问题
- Dr. David Ludwig 的解释:
- 饮食改变的适应期远超两周: 从高碳水饮食(大脑依赖葡萄糖)转换到低碳水饮食(身体需要产生酮体作为新燃料)是一个复杂的过程,如同将燃气灶改成电灶,需要时间。
- “酮流感” (Keto Flu): 在低碳水饮食的最初几周,由于葡萄糖供应减少而酮体尚未达到稳定水平,人们会感到疲倦、饥饿、乏力。
- 前两周的研究无法反映慢性病影响: 在此期间研究低碳水饮食,只能观察到新陈代谢转变的过程,而无法了解其对慢性病的长期影响。这是一个根本性的混淆。
案例分析:Kevin Hall 的低碳水 vs 低脂交叉试验 (Nature Medicine, 2021)
- 研究设计(Gary Taubes 描述):
- 比较植物性低脂高碳水饮食与动物性生酮低碳水高脂饮食。
- 受试者在NIH的代谢病房内接受严格控制的饮食,先随机分配到一种饮食两周,然后直接转换到另一种饮食两周(无清洗期)。
- Kevin Hall 的假设:基于碳水化合物-胰岛素模型(CIM,由David Ludwig和Gary Taubes提出),预测受试者在低碳水饮食下会摄入更少卡路里(因为CIM认为碳水化合物致肥胖)。
- 研究结果与争议(Dr. David Ludwig 描述):
- 初步印象: 研究声称反驳了CIM,因为总体上受试者在低碳水饮食下吃得更多。研究者最初声称没有“遗留效应”(carryover effect,即前一种饮食对后一种饮食阶段的影响)。
- 两年后的修正: 2023年,NIH团队报告称,他们最初错误地计算了遗留效应,实际上存在一个巨大的遗留效应(约2000大卡/天,可能是营养学领域报道过的最大遗留效应)。
- 争议焦点: NIH团队认为这个遗留效应只是“有趣的现象”,而David Ludwig团队认为这完全使原试验结论无效,即“低碳水饮食更差”的结论是错误的,论文需要修正。
- 沟通困境: 双方就此问题反复沟通,但未能达成共识。NIH团队未能清楚解释为何在存在如此巨大遗留效应的情况下,原试验仍然有效。理想情况下,研究者应承认错误,撤稿,重新正确分析并发表。
- Gary Taubes 对该研究的进一步评论:
- 该研究发表在著名期刊《自然医学》上,本身就令人惊讶,因为它设计如此糟糕。原因可能是其结果符合了人们(低脂植物性饮食更健康)的普遍期望。
- 修正后的数据显示:仅看每种饮食的前两周(无论先后顺序),两种饮食的卡路里摄入大致相同,甚至在第二周低碳水饮食组摄入更少。而转换饮食后,由于巨大的遗留效应,导致在低脂饮食组比低碳水饮食组少摄入2000大卡。
- 然而,原始文章仍在被引用,作为低脂饮食有益的证据。
- Dr. David Ludwig 对期刊和审稿人的看法:
- 不完全归咎于期刊或审稿人接受了最初的论文,因为论文声称没有遗留效应,而判断遗留效应的事后检验的置信度是一个相对微妙的统计学问题(尽管统计学界共识是这种做法不可靠)。
- 主要问题在于: 当NIH研究者意识到计算错误并发表修正(引入了一个令人费解的新术语“受试者内饮食顺序效应”)后,面对质疑,他们未能合理解释为何原试验仍有效,也未采取负责任的行动(如撤稿重分析)。
案例分析:超加工食品研究 (同样是为期两周的交叉试验)
- 研究结论: 高超加工食品饮食导致摄入更多卡路里。这个结论几乎得到全世界的认同(除了超加工食品制造商)。
- Gary Taubes 的观点: 超加工食品制造商希望人们多吃其产品,但不希望研究指出这是肥胖的原因。
- Dr. David Ludwig 的观点:
- 科学严谨性的重要性: 即使结论符合普遍预期,也不能牺牲科学的严谨性。我们曾因基于短期研究和流行病学制定公共卫生政策(如50年前的低脂饮食热潮)而犯错。
- 超加工食品概念的稳健性: 需要检验“超加工食品”这一概念(2019年由巴西团队提出,未经广泛修订和验证)是否真正有效,还是需要改进,或者是否有其他更重要的因素。目前有数十种基于加工程度的食物分类系统,这是否是最好的?
- 超加工食品的复杂性:
- 碳水化合物的加工影响显著: 如全麦粒vs白面包,完整水果vs果汁。
- 脂肪的加工影响相对中性: 如橄榄vs橄榄油(被认为是健康的)。黑巧克力通常是超加工食品。
- 蛋白质的加工影响: 牛排vs汉堡肉,在健康效应上可能无显著差异。
- 核心问题: 是所有超加工食品都不健康,还是这个概念过于宽泛,可能妖魔化一些我们需要的加工食品,并分散对慢性病真正驱动因素的注意力?
- Gary Taubes 的举例:
- 可口可乐vs自制柠檬水: 两者含糖量相当,可乐因添加剂多被视为超加工,自制柠檬水(柠檬、水、糖)则不是。可乐是否真的比等糖量柠檬水更有害?未知。
- 冰淇淋的例子: 《纽约时报》曾做过一个测试,四种香草冰淇淋中,哈根达斯因成分简单(奶油、糖、香草)未被归为超加工,而其他三种因含多种添加剂和胶质而被归为超加工。超加工食品假说是否意味着吃其他三种冰淇淋会致胖,而吃哈根达斯则不会?
- 传统视角: 更简单的视角是关注宏量营养素组成(碳水、蛋白、脂肪的种类和数量)。可能是糖含量和高脂肪的问题,或者仅仅是卡路里。
- 超加工食品假说的跳跃: 该假说似乎跳过了对具体成分(是染料、防腐剂、胶质,还是宏量营养素及其加工程度)的深入探讨,直接将“多成分=超加工=不健康”作为前提,然后去研究它如何导致肥胖,而忽略了宏量营养素这些“19、20世纪的科学”。
- Dr. David Ludwig 总结超加工食品的定义要素: 加工过程、添加剂、制作地点。并强调了区分有益、无害和有害添加剂的必要性,以及关注碳水化合物加工程度可能比脂肪和蛋白质更重要。
- 证据的两条线:
- 流行病学研究 (99%的证据): 毫无疑问,食用更多超加工食品的人在体重、糖尿病风险、心脏病、癌症、死亡率等方面都更不健康。但这些研究的“表1”(基线协变量)显示,这些人本身就更不健康(收入低、其他健康行为差、运动少、吸烟多等),存在严重的“混杂因素”。
- 临床试验: 目前仅有两项试验,一项为期两周,另一项为期一周。
第四部分:如何改进营养研究?
主持人提出,既然现有研究方法问题重重,那么我们应该如何做得更好?尤其是在美国可能迎来研究资助方式变革的机遇下。
- Dr. David Ludwig 的首要建议:
- 头对头比较研究: 针对其提出的“碳水化合物加工程度比蛋白质和脂肪更重要”的假说,进行直接比较试验。
- 具体方案: 比较低碳水化合物饮食 vs 低超加工食品饮食 vs 对照组(如低脂饮食)。
- 研究要求: 足够多的受试者,足够强的干预强度(如营养师定期会面、家庭咨询、提供部分膳食)以确保依从性。
- 研究时长和成本: 至少1年,理想情况2年。成本可能在2000万美元左右,仍远低于III期药物试验。
- 预期成果: 如果低碳水饮食效果远超超加工食品方法,将获得可操作的公共卫生数据。否则,我们将再次错失良机。
- 与DIETFITS研究的区别:
- DIETFITS研究(Christopher Gardner进行)结论是低脂和低碳水饮食差异不大。Ludwig团队重新分析数据发现,低碳水饮食在特定人群(高胰岛素分泌者,即对碳水化合物最敏感的人)中效果更优,验证了CIM的关键假设。
- DIETFITS的问题在于,两组都减少了糖和升糖负荷,导致对比度不足,可能掩盖了差异。
- 理想研究中,各组饮食差异应尽可能大(如低碳水组碳水降至25%或以下,超加工组则可摄入大量土豆、谷物等碳水,只需在家制作甜点)。
- DIETFITS研究中,低碳水组后期逐渐增加了碳水摄入(研究结束时约130-140克/天),这与初始设计不同,是基于“人们难以长期坚持低碳水”的预设。
- 随机对照试验 (RCT) vs 自我选择饮食研究的讨论:
- 主持人提问:考虑到营养的个体化和生活实际(食物偏好、情绪影响等),RCT是否是营养科学的最佳方法,或者自我选择饮食研究(尽管科学严谨性较低)是否更合适?
- Gary Taubes 的回答:
- 自我选择饮食研究的结果难以解读,因为选择不同饮食的人群本身就存在巨大差异(如地域饮食偏好,德州vs伯克利)。
- 牺牲科学严谨性来迁就所谓的“现实世界影响”或研究成本与难度,是营养科学长期存在的问题。正确的做法是确保实验能得出可靠、可信的答案。
- 核心问题:这些流行病的根本原因是什么? 例如,自1797年以来就知道限制碳水是治疗2型糖尿病的最佳膳食方法(即生酮饮食)。自1960年代以来,低碳水对肥胖有效;自1920年代以来,对儿童癫痫有效;现在还有研究表明对其他认知障碍有效。
- 公众和机构观念的滞后: 尽管有这些认知,但公众和机构(如美国糖尿病协会,尽管有所更新,但仍有偏向高碳水的暗示)的观念转变缓慢。
- 如何让人们关注并接受研究结果? 即使理想的长期RCT研究得出预期结果并发表在顶级期刊,如何让人们(尤其是那些认为“没人愿意节食,现在有药了”)真正关心?
- Dr. David Ludwig 的回应:
- 问题不在公众,在研究议程: 过去有大量耗资数千万美元的膳食试验都集中在低脂饮食上(如LOOK AHEAD研究,因无效而提前终止),而NIH几乎没有资助过同等规模的低碳水饮食多中心试验。
- “无法坚持”的自我实现预言: 我们说人们无法坚持低碳水,却在不支持低碳水的现代食物环境中提供不足的支持,然后说“看,没人坚持!” 这是可以打破的。
- 成功的个体案例: 他见过成千上万的患者通过改良的低碳水饮食(非极端)成功减重、改善健康,体验到饥饿感减轻、自我效能感提升的良性循环。这应该成为公众的一个选择。
- 研究经费的紧迫性: 开展这些基础性研究的成本,可能只相当于治疗2型糖尿病一天的费用。
个体化差异与公共卫生建议的平衡
- 主持人提到,即使某种饮食被证明是“最好”的,也并非每个人都适合或愿意遵循。
- Gary Taubes 的观点:
- 寻找流行病的共同原因: 肥胖和糖尿病的流行,很可能在大多数人和国家中存在共同的(主要是饮食性的)根本原因。
- CIM的假说: 问题在于碳水化合物的精加工。预防的关键是去除病因,这可能意味着限制精制碳水,甚至所有碳水化合物(绿叶蔬菜除外)。
- DIETFITS研究的缺陷: Christopher Gardner预设精制糖和面粉对所有人都有害,因此两组都限制了这些,这使得研究无法真正检验“是否是精制碳水导致了问题”。
- 科学证据的必要性: 在能够广泛推广公共卫生建议之前,必须有可靠、严谨的科学证据。否则,就变成了听谁的、谁更权威的问题。
- Dr. David Ludwig 的观点:
- 公共卫生 vs 精准医疗: 一方面是识别主要驱动因素并提出普适性建议(如戒烟,或他们假设的限制加工碳水)。另一方面是精准医疗的时尚,认为“千人千面”,每个人都需要基于“组学”和AI制定的个性化饮食。
- 真相可能在中间,但更偏向公共卫生: 许多人的反应有共性,但也存在重要的个体差异(CIM已考虑到,如高胰岛素分泌者对碳水更敏感,表现为腹型肥胖,在低脂年代体重增加显著)。
- 担忧: 担心过度沉迷于个性化营养而忽略了“森林”(即根本性问题)。
政府资助研究的责任与标准
主持人提出,耗资1.7亿美元的政府研究(如营养精准健康计划)应被寄予厚望,以回答关键问题。相比之下,小规模的、自费的探索性试点研究,其标准可能不同,后者旨在激发讨论和未来研究。
- Dr. David Ludwig 的回应:
- 对营养精准健康计划的评价: 该计划(1.7亿美元)比之前讨论的两周交叉试验稍好,因为它有至少两周的清洗期(虽然不够长),并且是3×3设计(三种饮食在三个不同时期测试),统计上比2×2设计更有能力区分饮食效应和遗留效应。
- 偏好: 他宁愿有多个耗资1000-1700万美元的长期试验,而不是一个耗资1.7亿美元的两周试验。
- Gary Taubes 的质疑:
- 即使AI能够根据两周的短期数据为8000种不同类型的人制定“最佳”健康饮食方案,这在现实中如何操作?难道全国每个人都要去做基因测序、肠道菌群分析来确定自己属于哪一类,然后遵循特定的个性化饮食吗?
- 这对于临床医生(如David Ludwig面对大量低社会经济地位的肥胖儿童)来说,是否比直接告知“孩子们,我知道你们爱吃碳水,但它们让你们变胖”(当然,措辞可以更委婉)更有效?
- 需要明确的知识: 就像对待吸烟者,医生会明确告知“想健康就不能吸烟”。营养领域也需要这种明确的、基于可靠科学的知识。
结论与展望
- Dr. David Ludwig 的呼吁: 我们知道如何获得答案,只需将营养研究列为优先事项,停止满足于设计拙劣的试验。当前数据库在这些争论了一个世纪的基础问题上如此匮乏,是可悲的。
- 主持人总结,本次讨论揭示了现有营养研究的困境,但也展望了未来的机遇。
- 嘉宾的联系方式和呼吁:
- Dr. David Ludwig:在X (Twitter), Blue Sky, Facebook (@DavidLudwigMD),或通过波士顿儿童医院联系。他呼吁对快速获得有效答案感兴趣的慈善家资助这类重要的长期研究(仅需1000-2000万美元即可进行一项载入史册的研究)。
- Gary Taubes:在X, Facebook, LinkedIn (@GaryTaubes),Substack专栏“Uncertainty Principles”。他认为科学和健康的关键在于如何最大限度地减少不确定性。
- 主持人对从业者的CME课程推荐: 提及与Baszucki Group合作开发的,由Dr. Georgia Ede和Dr. Chris Palmer主讲的关于代谢疗法用于精神疾病的免费CME课程。
总而言之,本期播客深入探讨了当前营养科学研究面临的挑战,特别是短期研究的局限性、证实性偏见的影响,以及对超加工食品等概念的争议。两位嘉宾一致认为,需要进行设计严谨、周期更长、资金充足的临床试验,以真正理解饮食与慢性病之间的关系,并为公共卫生提供可靠的指导。他们对未来营养研究的改进方向提出了具体建议,并呼吁社会各界重视这一领域。
</markdown>
Edit:2025.06.10
<markdown> </markdown>