目录
循证医学 Gordon Guyatt
<markdown>
**循证医学之父:为什么N=1试验在证据等级中名列前茅**
对戈登·盖亚特的采访
克里斯·马斯特约翰博士 2025年12月21日
戈登·盖亚特于1991年创造了“循证医学”(Evidence-Based Medicine)一词,并与大卫·萨克特等人共同创立了循证医学运动,该运动于1992年在《美国医学会杂志》(JAMA)上正式发表。
2000年,他联合创立了GRADE工作组,该工作组如今已成为世界卫生组织、科克伦协作网等机构的权威机构,代表着循证医学在全球机构中的影响力。
2001年,他开始编写循证医学权威教科书《医学文献用户指南》(Users Guide to the Medical Literature),该书于2014年出版第三版,至今仍是该领域的权威之作。
因此,在循证医学的真正含义方面,无人能出其右。
你或许会惊讶地发现,盖亚特认为,人们熟知的“证据等级金字塔”(据称是由纽约州立大学下州分校一位名不见经传的参考图书馆员于1997年创建的)是 “完全混乱的”。
原因之一是,设计合理的n=1个体实验理应位于等级顶端,自2001年起,循证医学(EBM)教科书便将其置于顶端,2014年版也依然如此。盖亚特告诉我,如果他要出版第四版,n=1试验仍将位列顶端。
我们一起研究了我自己进行的随机n=1个体实验,该实验比较了玉米和藜麦对我的睡眠和精力的影响。
你或许还会对盖亚特如何描述机制推理在解读人体结果研究的普遍适用性方面的重要性感到惊讶。在某些情况下,机制推理至关重要。
我们探讨了我如何综合运用机制推理、动物实验和人体试验来解读胆碱水平如何影响植物油对脂肪肝的疗效,盖亚特也对我的推理提出了他的看法。
在这次访谈中,我和盖亚特讨论了如何将循证医学(EBM)的原则应用于医学、健康、营养和日常生活,并特别关注了循证医学中一些常被忽视的方面,例如个人价值观和选择的重要性、认识到我们未知的领域、理解从随机对照试验(RCT)中得出普遍结论的局限性、权衡机制推理和观察性研究以应对不确定性,以及盖亚特如何回应来自公共卫生领域的批评,以及约翰·伊奥尼迪斯关于循证医学已被“劫持”的说法。
0:29在循证医学出现之前,医学的理论基础是什么? 3:29什么是循证医学(EBM)? 5:38个人选择是循证医学的核心,但却常常被低估,以及它如何经过时间演变成为循证医学的核心组成部分。 10:50为什么“证据等级”金字塔“完全混乱”。 19:08为什么n=1试验位于证据等级的顶端? 25:09什么可能会改变他对服用他汀类药物的看法? 29:15我自己进行的n=1玉米与藜麦的随机对照试验 33:27随机对照试验适用于个体吗? 36:06 “试一试,看看效果如何”在循证医学中扮演什么角色? 37:38机制推理在从随机试验中推断结果时扮演什么角色? 46:51 Guyatt 评价了我如何将机制推理、动物实验与人体试验结果相结合,以解释胆碱状态对植物油与饱和脂肪如何影响脂肪肝疾病的潜在影响。 56:08随机对照试验 (RCT) 时间不够长是否意味着长期观察性研究也能提供高质量的证据? 1:01:08即将对 GRADE 框架进行的修订是否不恰当地降低了人们对观察性研究的怀疑态度? 1:07 :31他如何回应来自公共卫生领域的批评? 1:09:39循证医学(EBM) 是否处于“危机”之中,是否已被“劫持”?
https://chrismasterjohnphd.substack.com/p/the-father-of-evidence-based-medicine
</markdown>
D:2025.12.31<markdown>
循证医学的核心原则与实践挑战:Gordon Guyatt教授深度解析
“循证医学之父”Gordon Guyatt教授关于循证医学(Evidence-Based Medicine, EBM)核心原则、常见误解及其在当代实践中所面临挑战的深度见解。关键要点如下:
- 循证医学的三大基石:EBM的决策过程基于三大核心原则:首先,承认不同证据的可信度存在层级差异;其次,临床决策应基于对所有最佳证据的系统性总结,而非单一试验;最后,也是最常被忽视的一点,证据本身无法决定治疗方案,必须结合患者的价值观和偏好进行决策。
- 对证据金字塔的彻底颠覆:Guyatt教授严厉批评了广为流传的证据金字塔模型,称其“完全具有误导性”且“从根本上是混乱的”。该模型错误地将研究设计、证据整合方法(如系统评价)和临床指南混入同一层级。他主张应区分为三个独立的层级:原始研究的证据层级、证据处理层级以及临床医生获取答案的层级(指南位于顶端)。
- N=1试验:理论顶峰与现实困境:Guyatt教授认为,N=1试验(在单个患者身上进行的随机对照试验)在理论上位于证据层级的顶端,因为它能揭示特定干预对特定个体的真实效果,而群体试验数据只能反映平均效应。然而,尽管其理论上优越,N=1试验在实践中却被证明是“一次又一次的失败”,主要原因是其操作过程“麻烦太多”,与临床医生时间普遍不足的现实相冲突。
- 生理学机理的审慎应用:虽然EBM反对将生理学机理作为决策的主要依据(因其常被证明是“灾难性地错误”),但Guyatt教授强调了其在特定情境下的关键作用。当面临间接证据时,如将成人试验结果外推至儿童,或将短期研究结果应用于长期决策,生理学推理对于判断证据的适用性至关重要。
- 回应实践中的挑战:Guyatt教授回应了关于EBM“被劫持”的批评,他认为问题不在于EBM的原则,而在于其应用。大型制药公司或许能决定研究什么,但不应由其来解释研究结果。他倡导临床医生应依赖由独立专家制定的高质量指南。同时,他强烈批评了当前期刊对“主要终点”的过度强调,认为这是一种“深刻的误导”,并主张应全面评估所有对患者重要的结局指标。
一、 循证医学的诞生与核心原则
循证医学之前的医疗决策
在循证医学概念被提出之前,临床决策主要依赖于三个基础:
- 个人临床经验:医生根据自己过往治疗病人的观察和经验做出推断。Guyatt教授指出,这种方法极易产生有偏差的结论,因为医生往往“过分急于”从有限的经验中得出结论。
- 生理学原理:基于对疾病潜在生理机制的理解来预测治疗效果。然而,后续的随机试验表明,这种推理“常常是灾难性地错误”,因为我们对生理学的理解远不如想象中那么深入。
- 专家意见:初级医生向资深同事或领域专家寻求建议,而这些专家的意见同样建立在他们的个人经验和对生理学的理解之上。在整个过程中,包括专家在内,几乎无人了解后来被认为是判断真伪的科学方法。
循证医学的三大基石
与传统方法相对,循证医学建立在三个基本原则之上:
- 证据层级(Hierarchy of Evidence):并非所有证据都同样可信。EBM提供了一个框架,用于区分不同类型证据的可信度,强调了随机对照试验等研究设计相对于个人经验和生理学推理的优越性。
- 证据的系统性总结(Accumulated Summary of Best Evidence):临床决策不应依赖于单一研究。由于不同研究可能因各种原因得出不同结果,必须系统地整合所有最佳证据,才能为临床实践提供可靠的指导。
- 患者价值观与偏好(Patient Values and Preferences):这是EBM最核心但也最容易被误解的原则。Guyatt教授强调:“证据本身永远无法告诉你该怎么做。”证据可以揭示不同治疗方案的利弊,但最终的选择必须基于患者本人对这些利弊的看重程度。这一原则在1992年的开创性论文中“惊人地缺席”,直到2000年才被正式确立为EBM的核心原则之一,但至今仍未得到充分理解。
二、 对传统证据金字塔的批判
Guyatt教授对在维基百科和谷歌搜索中常见的证据金字塔图表提出了尖锐的批评,称其“完全具有误导性”且“绝对是混乱的”。
根本性的混淆
该金字塔模型的主要问题在于,将三个完全不同的概念混淆在同一个层级结构中:
- 研究设计:如随机对照试验、队列研究等。
- 证据整合方法:如系统评价(Systematic Review)和荟萃分析(Meta-analysis)。
- 临床决策工具:如临床实践指南(Clinical Practice Guidelines)。
Guyatt教授解释说,系统评价本身并非一种证据类型,而是整合不同研究(可以是高质量的随机试验,也可以是低质量的动物研究)的方法,其产出的证据质量取决于被整合的原始研究的质量。同样,临床指南是一种更高层次的决策建议,而非更高质量的证据本身。
更合理的层级结构
为了厘清这种混淆,Guyatt教授提出了一个由三个独立层级组成的更合理的框架:
| 层级类别 | 描述 | 示例 |
| — | — | — |
| 1. 原始研究的证据层级 | 针对不同临床问题,最佳的研究设计不同。 | - 治疗问题:随机对照试验是最佳选择。 - 预后问题:观察性研究更合适。 - 诊断准确性问题:需要特定的诊断性研究,而非随机试验。 |
| 2. 证据处理层级 | 对原始研究进行整合与分析的方法。 | - 系统评价和荟萃分析。- 决策分析。 |
| 3. 临床答案获取层级 | 临床医生在实践中应优先寻求的资源。 | - 顶端:高质量的临床指南,因为它们为临床医生提供了最高效的决策路径。 - 其次:系统评价等经过处理的证据。 - 最后:原始研究。 |
三、 N=1试验:个体化证据的顶峰与实践的困境
理论上的优越性
Guyatt教授将N=1试验(即在单个患者身上进行的随机对照试验)视为证据层级的“顶峰”。其核心逻辑是:
“关于群体的证据只能表明关于群体的事情……最好的方法是找出治疗对‘这个’病人的效果,而这正是N=1试验的意义所在。”
群体性随机对照试验(RCTs)揭示的是平均效应,但个体对治疗的反应存在巨大差异。一个在群体中有效的疗法,可能对某个特定个体无效甚至有害。N=1试验通过在同一个体上交替使用治疗和安慰剂(或不治疗),并进行盲法和定量记录,能够最直接地回答“这个疗法对‘我’是否有效”的问题。
实践中的失败
尽管理论上极为出色,Guyatt教授将N=1试验称为他“头号最棒却完全失败的想法”。
- 历史与尝试:该方法起源于心理学,Guyatt团队于上世纪80年代将其引入医学领域,并在其所在机构设立了N=1试验服务中心,运行了约75例试验。
- 普遍失败的原因:
- 操作过于繁琐:对于临床医生而言,组织和执行N=1试验需要投入大量额外的时间和精力。
- 临床时间匮乏:Guyatt教授指出,全球范围内的医生普遍反映没有足够的时间与患者相处,这种时间压力使得推行耗时的N=1试验变得不切实际。他认为:“由于所有的后勤障碍,它在临床实践环境中行不通。”
- 后续研究结果令人失望:一些对N=1试验本身进行评估的随机试验并未达到预期效果。
持续的价值
尽管在广泛应用上失败了,Guyatt教授认为N=1试验在特定情况下仍具有不可替代的价值。他举例说明,一项研究通过N=1试验帮助那些认为自己因服用他汀类药物而出现肌肉疼痛的患者确认,其症状与药物无关,从而使他们能够继续接受降低心血管风险的关键治疗。因此,他不主张将N=1试验从证据层级中移除。
四、 生理学机理在循证医学中的作用
作为辅助而非基础
EBM的一个核心转变是将决策依据从生理学推理转向临床试验结果。Guyatt教授强调,单纯依赖生理学原理做出的预测“常常是灾难性地错误”。
解释间接证据的关键
然而,生理学推理在EBM框架内依然扮演着不可或缺的辅助角色,尤其是在处理“间接证据”(Indirect Evidence)时。当直接证据缺失或不充分时,生理学推理成为连接现有证据与临床问题的桥梁。具体应用场景包括:
- 人群外推:当试验主要在特定人群(如白人、年轻人)中进行时,医生需要借助对生理学的理解来判断其结果是否适用于其他人群(如不同种族背景的人、90岁以上的老人或儿童)。
- 时间外推:当随机试验只持续了几个月,而临床决策需要考虑长达数年的影响时。例如,在关于“种子油”与脂肪肝的争论中,主持人提到短期研究显示种子油能轻微减少肝脏脂肪,但他基于对胆碱代谢的生理学理解(有其他人类研究支持)和动物实验证据,对将此短期结果外推至长期持保留态度。Guyatt教授对此表示赞同,认为这是生理学推理在评估证据适用性方面的恰当应用,并总结道:“当你的证据与你希望得到的证据不同时……你使用生理学推理来尝试推断你拥有的数据如何应用于你希望拥有的数据。”
提出先验假设
在科学研究层面,生理学推理有助于研究者提出“先验假设”(A Priori Hypotheses),例如假设某种药物对年轻人比对老年人更有效。这些假设随后应在试验中进行检验。这体现了生理学推理在科学探索和临床决策中的不同角色。
五、 回应与反思:循证医学的争议与发展
对“被劫持”和“危机”的回应
- 关于“被劫持”:针对John Ioannidis提出的“EBM被制药公司劫持”的观点,Guyatt教授表示,这并非对EBM原则的批评,而是对其在实践中被滥用的批评。他承认大型公司能决定“研究什么”,但强调它们“不能决定如何解释结果”。他建议临床医生不要阅读试验论文的引言和讨论部分(因为那里充满“营销话术”),而是直接查阅由利益冲突最小化的专家组制定的高质量指南。
- 关于“处于危机中”:对于Trish Greenhalgh多年来反复提出的“EBM处于危机中”的说法,Guyatt教授予以驳斥,认为EBM和GRADE方法论等核心工具持续产生着巨大影响,EBM“活得很好”。
对主要终点指标的批判
Guyatt教授认为,顶级期刊对“主要终点”(Primary Endpoint)的过度关注是“深刻的误导”。他指出,设立主要终点的初衷是为了样本量计算和防止数据挖掘,但患者通常关心的是多个结局,而非单一指标。正确的做法应该是对所有对患者重要的结局(包括生活质量和不良反应)进行平衡的呈现。
观察性研究的地位与GRADE方法论
- 观察性研究的局限:Guyatt教授对通过观察性研究来推断干预效果持谨慎态度,因为“残余混杂”(Residual Confounding)问题始终存在。但他承认,对于发现罕见的严重不良反应,观察性研究至关重要。
- GRADE方法论:在讨论GRADE(证据质量分级)方法时,他倾向于一个更简洁的核心模型:随机试验的证据质量初始评级为“高”,观察性研究为“低”。观察性研究的证据等级可以被提升,但通常需要满足非常苛刻的条件,例如显示出“非常巨大”的效应(如5倍以上的风险差异),例如髋关节置换术对改善功能的效果,这类干预无需随机试验就能获得高确定性的证据。
</markdown>
D:2025.12.31<markdown>
循证医学的范式起源与认知的断层
在医学的历史长河中,决策的基础曾长期锚定在经验与逻辑的暗礁之上。戈登·盖亚特教授作为麦克马斯特大学的资深学者,被公认为“循证医学”这一术语的鼻祖。在对话的伊始,他回顾了循证医学诞生前医学界的图景。在那个时代,临床决策主要依赖三大支柱:首先是临床医师的个人经验,这往往导致医师在仅观察几个月病人的情况下就草率地做出有效性推论,而这种推论极易受到认知偏差的影响。其次是生理学逻辑,即基于当时对人体生理机制的理解来预测治疗效果;然而随后的随机试验反复证明,这种逻辑往往错得离谱,人类对生理机制的理解远不如自以为的那样深刻。第三则是对权威的盲从,年轻医师通常求助于那些同样依赖生理逻辑和经验的资深专家。在1992年循证医学概念正式提出之前,如何科学地判断真理,在个体医师乃至领域专家层面几乎是一片空白。
盖亚特教授指出,循证医学的建立基于三个核心准则。首要准则在于确立证据的层级,明确某些类型的证据比其他证据更值得信赖,这与单纯的生理逻辑或个人经验有着本质区别。第二个准则强调证据的汇总,即不能仅仅依赖单一的随机试验,因为不同的研究可能因各种原因产生歧异,临床决策必须建立在对所有最佳证据的综合总结之上。第三个也是最常被误解的准则,即证据本身从不直接告诉我们该做什么。决策必须置于患者的价值观与偏好之中。即使证据清晰地展示了两种方案的利弊,最终的选择仍取决于患者对这些利弊所赋予的权重。有趣的是,盖亚特承认在1992年的初始论文中并未提及价值观与偏好,直到2000年左右,这一要素才被正式确立为循证医学的支柱。然而时至今日,仍有许多人的认知停留在1992年的原始阶段,忽略了临床决策中人性化的一面。
证据等级金字塔的谬误与结构重塑
针对目前广泛流传的“证据等级金字塔”,盖亚特教授表达了极其严厉的批评,称其为“完全的误导”和“混乱的根源”。在主持人克里斯·马斯特约翰展示了维基百科上的金字塔图表后,盖亚特指出,该图表最严重的错误在于将证据的聚合方法(如系统评价)与研究设计本身混为一谈。一个对动物研究或个案报告进行的系统评价,其证据质量依然极低,绝不能因为套用了系统评价的外壳就位列金字塔顶端。临床实践指南同样不属于证据质量的阶梯,而是一种整合证据并提出建议的完全不同的工具。
为了正本清源,盖亚特提出了三个必须分开看待的层级系统。首先是针对不同临床问题的原始研究层级:对于治疗性问题,随机试验是金标准;但对于预后问题或诊断准确性问题,随机试验往往并非最佳工具。其次是证据的处理水平层级,即系统评价和决策分析,它们可以应用于上述任何类型的原始研究。最后是医师获取答案的效率层级,在这个维度上,优秀的临床指南因其高效性而位居顶端。盖亚特幽默地提到,这个错误的金字塔模因(Meme)极有可能起源于1997年某大学的教育材料,其创作者可能只是当时的参考咨询馆员或HTML技术人员,这种缺乏专业性的简化剥离了科学应有的细微差别。
N=1试验:个体精准医学的理想与遗憾
在对话中,盖亚特教授特别提到了N=1随机受试者内对照试验,并将其置于证据层级的真正顶端。他认为,多参与者随机试验只能告诉我们群体的平均效应,但每个患者对治疗的反应是不同的。为了彻底摸清某种疗法对特定患者的效果,N=1试验是唯一的终极手段。在这种设计下,患者在不同时段交替接受治疗与安慰剂,并在盲态下量化记录体验。
然而,盖亚特也坦诚地将N=1试验称为他职业生涯中“最完美的失败主意”。尽管他曾在80年代寄予厚望,并成立了专门的N=1服务机构,但在进行了约75例试验后,由于转诊源枯竭和后勤操作过于繁琐,这项服务最终难以为继。在临床实践中,医师普遍面临时间极度匮乏的困境,无法抽出精力去组织复杂的个体随机试验。尽管如此,在某些特定案例中,如区分患者的肌肉疼痛究竟是由他汀类药物引起还是心理作用(诺塞博效应),N=1试验依然展现出了不可替代的解释力。
机制推理与间接证据的灰色地带
马斯特约翰博士分享了一个他个人进行的N=1实验,试图通过随机交替食用藜麦和玉米饼来观察对睡眠的影响。尽管初步数据显示藜麦可能增加睡眠时长,但通过严格的随机化和统计分析,他最终证伪了自己的假设,发现两者在睡眠表现上并无差异,甚至藜麦可能对能量水平有负面影响。盖亚特对此表示高度赞赏,认为这展示了通过严谨试验推翻直觉的重要性。
当话题转入生理机制与临床决策的关系时,盖亚特阐述了生理推理在“间接证据”处理中的关键角色。例如,当缺乏针对儿童或95岁以上老人的直接随机试验数据时,医师必须依靠对生理机制的理解,来判断成年人的试验结果是否可以外推至这些特殊人群。他强调,生理推理不应作为决定性证据,而应作为提出“先验假设”的工具。科学的做法是提出假设并进行测试,而非在试验结束后利用机制进行事后解释。
马斯特约翰随后提出了一个极具挑战性的营养学案例:关于种子油与饱和脂肪对脂肪肝影响的短期研究。他质疑这些短期研究的外推性,并利用关于胆碱(Choline)的生理机制——即胆碱是运送肝脏脂肪所需的磷脂酰胆碱的限制因素——来解释为何这些试验由于未控制胆碱摄入而可能产生误导。盖亚特认为,马斯特约翰的这种逻辑实际上是在构建一种低置信度的建议,通过间接证据和生物学合理性来填补直接证据的空白。在缺乏长期随机试验的现实下,这是一种符合循证医学原则的折中处理方式。
行业挑战、观察性研究与GRADE系统的演化
在讨论观察性研究时,盖亚特重申了对其偏倚风险的警惕。尽管有人认为观察性研究能提供更长的观察周期和更真实的场景,但盖亚特指出,除了少数如罕见严重损害的研究外,观察性研究无法排除残余混杂的影响。他提到了GRADE系统的演变,虽然新的GRADE手册试图引入Robins-I等工具将观察性研究的起始评级定为“高”,但他个人坚持认为这会使系统过于复杂,并推崇更为简洁的“核心GRADE”(Core Grade)系统,即观察性研究默认低质量,除非存在巨大的效应量(如透析、肾上腺素治疗过敏性休克等)。
对话最后触及了循证医学被行业利益“劫持”的争议。盖亚特回应了约翰·约阿尼迪斯(John Ioannidis)的观点,认为虽然大型药企控制了研究方向,但它们进行的试验通常质量很高。问题的关键不在于试验本身,而在于充满误导性的解释和解读。他建议临床医师跳过论文的引言和讨论部分,直接参考那些排除了行业利益冲突的专业临床指南,以获取最客观的决策建议。
【观点分析】
在本场对话中,盖亚特教授对循证医学的重构不仅是技术性的,更是哲学性的。以下是对文中科学观点的批判性分析:
关于证据层级的去神圣化 盖亚特对证据金字塔的抨击极具批判意义。在当前的生物化学与营养学传播中,金字塔被简化为一种教条。盖亚特指出,证据的质量不仅取决于研究设计(随机化),更取决于研究对象与临床问题之间的相关性(即间接性)。这一观点对于分析营养学补剂或特定饮食法(如荤食或酮食)至关重要,因为许多关于代谢的结论往往是基于啮齿类动物或体外细胞实验的间接推论,其在循证等级中天然处于低位,无论逻辑多么自洽。
N=1试验的悖论 尽管盖亚特将N=1试验推崇为证据等级的顶端,但其在临床上的“失败”揭示了循证医学在理想与可操作性之间的断裂。在营养学和运动生理学领域,N=1试验其实比在医疗领域更具生命力(如马斯特约翰的案例)。由于个体代谢差异巨大,群体的平均碳水耐受度或热量需求对个体而言往往只是粗略的参考,N=1的自我实验虽然难以在医学指南中推广,却是生物化学个体化应用的必经之路。
生理机制与临床结果的博弈 马斯特约翰提出的胆碱案例是对话中的亮点。盖亚特的态度体现了循证医学的严谨性:他承认机制推理在缺乏数据时的必要性,但坚持将其定义为“低置信度”。这是一个关键的科学准则:生物学合理性(Biological Plausibility)不能等同于临床有效性。 许多在生化层面完美的代谢模型(如雷佩特学说中关于糖代谢的某些观点),在进入复杂的整个人体系统并经过长期验证后,往往会因为系统性的代偿机制而失效。
观察性研究的价值重估 对话中对观察性研究的讨论反映了流行病学与临床医学之间的长期张力。马斯特约翰对“残余混杂”的担忧非常深刻。在营养学中,长期摄入某种食物(如种子油)的人往往伴随着其他生活方式选择,即便通过统计学调整,也难以完全剥离这些变量。盖亚特主张只有在效应量巨大(超过5倍风险差异)时才提升观察性研究的评级,这实际上极大地过滤了当前营养学研究中大部分仅有1.1至1.3倍风险比(RR)的微弱关联,这种批判性的态度对于识别虚假的科学头条具有重要指导意义。
</markdown>
D:2025.12.31
<markdown> </markdown>



