通过对 Gordon Guyatt 教授的访谈,深入探讨了循证医学(EBM)的核心原则及其在临床实践中的演变。Guyatt 教授指出,早期的医学决策过度依赖生理机制、个人经验或权威专家的直觉,而现代循证医学则建立了明确的证据分级,强调证据的可靠性依研究设计而异。核心论点认为,n=1 随机对照试验(即针对单一患者的对照测试)位于证据金字塔的最顶端,因为群体研究的平均结果未必能准确预测个体差异性。此外还纠正了大众对证据等级金字塔的误解,强调科学证据必须结合患者的价值观与偏好,并辅以对生理机制的合理外推,才能实现真正精准且人性化的医疗决策。
D:2025.12.31>
在医学的历史长河中,决策的基础曾长期锚定在经验与逻辑的暗礁之上。戈登·盖亚特教授作为麦克马斯特大学的资深学者,被公认为“循证医学”这一术语的鼻祖。在对话的伊始,他回顾了循证医学诞生前医学界的图景。在那个时代,临床决策主要依赖三大支柱:首先是临床医师的个人经验,这往往导致医师在仅观察几个月病人的情况下就草率地做出有效性推论,而这种推论极易受到认知偏差的影响。其次是生理学逻辑,即基于当时对人体生理机制的理解来预测治疗效果;然而随后的随机试验反复证明,这种逻辑往往错得离谱,人类对生理机制的理解远不如自以为的那样深刻。第三则是对权威的盲从,年轻医师通常求助于那些同样依赖生理逻辑和经验的资深专家。在1992年循证医学概念正式提出之前,如何科学地判断真理,在个体医师乃至领域专家层面几乎是一片空白。
盖亚特教授指出,循证医学的建立基于三个核心准则。首要准则在于确立证据的层级,明确某些类型的证据比其他证据更值得信赖,这与单纯的生理逻辑或个人经验有着本质区别。第二个准则强调证据的汇总,即不能仅仅依赖单一的随机试验,因为不同的研究可能因各种原因产生歧异,临床决策必须建立在对所有最佳证据的综合总结之上。第三个也是最常被误解的准则,即证据本身从不直接告诉我们该做什么。决策必须置于患者的价值观与偏好之中。即使证据清晰地展示了两种方案的利弊,最终的选择仍取决于患者对这些利弊所赋予的权重。有趣的是,盖亚特承认在1992年的初始论文中并未提及价值观与偏好,直到2000年左右,这一要素才被正式确立为循证医学的支柱。然而时至今日,仍有许多人的认知停留在1992年的原始阶段,忽略了临床决策中人性化的一面。
针对目前广泛流传的“证据等级金字塔”,盖亚特教授表达了极其严厉的批评,称其为“完全的误导”和“混乱的根源”。在主持人克里斯·马斯特约翰展示了维基百科上的金字塔图表后,盖亚特指出,该图表最严重的错误在于将证据的聚合方法(如系统评价)与研究设计本身混为一谈。一个对动物研究或个案报告进行的系统评价,其证据质量依然极低,绝不能因为套用了系统评价的外壳就位列金字塔顶端。临床实践指南同样不属于证据质量的阶梯,而是一种整合证据并提出建议的完全不同的工具。
为了正本清源,盖亚特提出了三个必须分开看待的层级系统。首先是针对不同临床问题的原始研究层级:对于治疗性问题,随机试验是金标准;但对于预后问题或诊断准确性问题,随机试验往往并非最佳工具。其次是证据的处理水平层级,即系统评价和决策分析,它们可以应用于上述任何类型的原始研究。最后是医师获取答案的效率层级,在这个维度上,优秀的临床指南因其高效性而位居顶端。盖亚特幽默地提到,这个错误的金字塔模因(Meme)极有可能起源于1997年某大学的教育材料,其创作者可能只是当时的参考咨询馆员或HTML技术人员,这种缺乏专业性的简化剥离了科学应有的细微差别。
在对话中,盖亚特教授特别提到了N=1随机受试者内对照试验,并将其置于证据层级的真正顶端。他认为,多参与者随机试验只能告诉我们群体的平均效应,但每个患者对治疗的反应是不同的。为了彻底摸清某种疗法对特定患者的效果,N=1试验是唯一的终极手段。在这种设计下,患者在不同时段交替接受治疗与安慰剂,并在盲态下量化记录体验。
然而,盖亚特也坦诚地将N=1试验称为他职业生涯中“最完美的失败主意”。尽管他曾在80年代寄予厚望,并成立了专门的N=1服务机构,但在进行了约75例试验后,由于转诊源枯竭和后勤操作过于繁琐,这项服务最终难以为继。在临床实践中,医师普遍面临时间极度匮乏的困境,无法抽出精力去组织复杂的个体随机试验。尽管如此,在某些特定案例中,如区分患者的肌肉疼痛究竟是由他汀类药物引起还是心理作用(诺塞博效应),N=1试验依然展现出了不可替代的解释力。
马斯特约翰博士分享了一个他个人进行的N=1实验,试图通过随机交替食用藜麦和玉米饼来观察对睡眠的影响。尽管初步数据显示藜麦可能增加睡眠时长,但通过严格的随机化和统计分析,他最终证伪了自己的假设,发现两者在睡眠表现上并无差异,甚至藜麦可能对能量水平有负面影响。盖亚特对此表示高度赞赏,认为这展示了通过严谨试验推翻直觉的重要性。
当话题转入生理机制与临床决策的关系时,盖亚特阐述了生理推理在“间接证据”处理中的关键角色。例如,当缺乏针对儿童或95岁以上老人的直接随机试验数据时,医师必须依靠对生理机制的理解,来判断成年人的试验结果是否可以外推至这些特殊人群。他强调,生理推理不应作为决定性证据,而应作为提出“先验假设”的工具。科学的做法是提出假设并进行测试,而非在试验结束后利用机制进行事后解释。
马斯特约翰随后提出了一个极具挑战性的营养学案例:关于种子油与饱和脂肪对脂肪肝影响的短期研究。他质疑这些短期研究的外推性,并利用关于胆碱(Choline)的生理机制——即胆碱是运送肝脏脂肪所需的磷脂酰胆碱的限制因素——来解释为何这些试验由于未控制胆碱摄入而可能产生误导。盖亚特认为,马斯特约翰的这种逻辑实际上是在构建一种低置信度的建议,通过间接证据和生物学合理性来填补直接证据的空白。在缺乏长期随机试验的现实下,这是一种符合循证医学原则的折中处理方式。
在讨论观察性研究时,盖亚特重申了对其偏倚风险的警惕。尽管有人认为观察性研究能提供更长的观察周期和更真实的场景,但盖亚特指出,除了少数如罕见严重损害的研究外,观察性研究无法排除残余混杂的影响。他提到了GRADE系统的演变,虽然新的GRADE手册试图引入Robins-I等工具将观察性研究的起始评级定为“高”,但他个人坚持认为这会使系统过于复杂,并推崇更为简洁的“核心GRADE”(Core Grade)系统,即观察性研究默认低质量,除非存在巨大的效应量(如透析、肾上腺素治疗过敏性休克等)。
对话最后触及了循证医学被行业利益“劫持”的争议。盖亚特回应了约翰·约阿尼迪斯(John Ioannidis)的观点,认为虽然大型药企控制了研究方向,但它们进行的试验通常质量很高。问题的关键不在于试验本身,而在于充满误导性的解释和解读。他建议临床医师跳过论文的引言和讨论部分,直接参考那些排除了行业利益冲突的专业临床指南,以获取最客观的决策建议。
在本场对话中,盖亚特教授对循证医学的重构不仅是技术性的,更是哲学性的。以下是对文中科学观点的批判性分析:
关于证据层级的去神圣化 盖亚特对证据金字塔的抨击极具批判意义。在当前的生物化学与营养学传播中,金字塔被简化为一种教条。盖亚特指出,证据的质量不仅取决于研究设计(随机化),更取决于研究对象与临床问题之间的相关性(即间接性)。这一观点对于分析营养学补剂或特定饮食法(如荤食或酮食)至关重要,因为许多关于代谢的结论往往是基于啮齿类动物或体外细胞实验的间接推论,其在循证等级中天然处于低位,无论逻辑多么自洽。
N=1试验的悖论 尽管盖亚特将N=1试验推崇为证据等级的顶端,但其在临床上的“失败”揭示了循证医学在理想与可操作性之间的断裂。在营养学和运动生理学领域,N=1试验其实比在医疗领域更具生命力(如马斯特约翰的案例)。由于个体代谢差异巨大,群体的平均碳水耐受度或热量需求对个体而言往往只是粗略的参考,N=1的自我实验虽然难以在医学指南中推广,却是生物化学个体化应用的必经之路。
生理机制与临床结果的博弈 马斯特约翰提出的胆碱案例是对话中的亮点。盖亚特的态度体现了循证医学的严谨性:他承认机制推理在缺乏数据时的必要性,但坚持将其定义为“低置信度”。这是一个关键的科学准则:生物学合理性(Biological Plausibility)不能等同于临床有效性。 许多在生化层面完美的代谢模型(如雷佩特学说中关于糖代谢的某些观点),在进入复杂的整个人体系统并经过长期验证后,往往会因为系统性的代偿机制而失效。
观察性研究的价值重估 对话中对观察性研究的讨论反映了流行病学与临床医学之间的长期张力。马斯特约翰对“残余混杂”的担忧非常深刻。在营养学中,长期摄入某种食物(如种子油)的人往往伴随着其他生活方式选择,即便通过统计学调整,也难以完全剥离这些变量。盖亚特主张只有在效应量巨大(超过5倍风险差异)时才提升观察性研究的评级,这实际上极大地过滤了当前营养学研究中大部分仅有1.1至1.3倍风险比(RR)的微弱关联,这种批判性的态度对于识别虚假的科学头条具有重要指导意义。