目录
营养新闻 怀疑
**格鲁格谈低热量汽水与自闭症**
2023年10月
在substack 上发表评论 。
有錯誤嗎? 请修复
grug 尽量不要对科学新闻中的坏事大声叫喊,因为为什么要一遍又一遍地叫喊呢?
和 grug 没有学到新东西,只是觉得人们有时可能不会使用旧的东西
和 grug 家人经常恳求有一天讨论其他话题
但很少有新闻能一下子把所有坏事都说出来,所以 grug 认为把以前学到的东西集中到一起也许很有用
本来想用英文写,但是很无聊所以最后还是显化了grug模式
所以今天,格鲁格大喊大叫,谈论最近福克斯新闻、希尔、纽约邮报、多伦多太阳报和其他媒体关于低热量汽水和自闭症的新闻。
grug 将大喊分成四个小喊
1. 一些事实文件没有提及
在介绍中看到这样的话:
话基本属实!或者至少,咕噜不想争论
但 grug 觉得不提这件事很奇怪:
食物中大多数蛋白质都含有苯丙氨酸和天冬氨酸
吃一天正常食物的人体内产生的苯丙氨酸和天冬氨酸比喝一杯健怡可乐的人体内产生的苯丙氨酸和天冬氨酸多 100 倍
如果不吃苯丙氨酸,就会死
所有水果和蔬菜的细胞壁都含有果胶,人体肠道会将其转化为甲醇
吃一天正常食物的人产生的甲醇比喝一杯健怡可乐的人多10-100倍
2. 大数据学习
所以 grug 尝试阅读论文努力多说
如果你没读过,grug 尝试总结实际的论文活动
- 发现 235 名 1983 年阿斯巴甜获批后出生的自闭症患者
- 还发现 121 名神经正常人类
- 询问每位妈妈“在您怀孕或哺乳期间,您多久喝一次含有人工甜味剂的减肥饮料?”
- 获取数据
(mom drink diet soda during pregnant)和和(find human on internet or local media)和(birth year)和(ethnicity)和(mom learning level)和(family make ≥ $100k per year)有时(sex)对输出进行回归(human has autism) - 第一个变量的回归系数是正的,不!
grug 不明白为什么论文把“调查加回归”弄得这么复杂,不过没关系
在互联网上,许多大脑袋看到论文后,就大喊大叫,说多重假设校正、置信区间大小、没有预先登记分析、对女孩有相反的影响、无法控制父母的自闭症、饮酒或吸烟
grug 并不真的反对,并且觉得互联网的大脑心脏很好,但仍然不太支持花哨的叫喊
因为格格做了思想实验
如果调查对象是 356,000 人而不是 356 人,并且置信区间很小且 p=.0000013,那么 grug 会相信这篇论文证明低热量汽水会导致自闭症吗?
不
所以 grug 觉得这些叫喊并没有触及核心问题:
相关性差
科学的顶级掠食者是相关性
当然,超级大脑已经让你学会了相关性和因果关系,如果你只学习一种统计学,你就有这个
那么为什么不使用 big learn 呢?
如果研究人员对妈妈们进行调查,并询问其中一半喝更多健怡可乐的妈妈,她们的孩子患自闭症的可能性更大,那么即使置信区间很大,他们也会非常担心
如果置信区间较小且研究重复,那么 grug 会立即撤回所有关于阿斯巴甜的叫喊,并可能重新考虑整个生命
直到那时,grug 说:相关性非常容易,即使阿斯巴甜不会导致自闭症,例如,如果自闭症患者喝更多的健怡可乐,那么数据就会产生很大的相关性,因为自闭症有很大的遗传成分
如果做类似的研究,并询问妈妈是否喝柴,可以肯定孩子的肤色与此相关,因为更多的南亚妈妈喜欢喝柴
FDA 有很多超级大脑
如果要求 FDA 批准药物,因为相关 FDA 嘲笑你很多羞辱
如果要求FDA召回药物,因为相关性FDA也会笑得很厉害
有时候,Grug 会大声抱怨 FDA,但 FDA 比 95% 的新闻都好,因为 FDA 总是使用最重要的学习
3. 索赔级联
咕噜注意到了其他东西
论文不想被拒所以慎重的话:
> 虽然我们的研究结果并未证实早期日常接触低热量汽水/阿斯巴甜与男性自闭症风险之间的因果关系,但这些研究结果仍然引起了人们的担忧,值得进一步研究,特别是考虑到目前孕妇广泛使用低热量产品。
但对于新闻稿,没有烦人的评论者!
> “在后代脆弱性增强的时期,母亲食用这些产品代表着一个可改变的潜在风险因素,消除这种风险因素可能有助于保护下一代易感后代。”
新闻公司需要读者来制作更多闪亮的石头!所以新闻公司说:
> 孕妇或哺乳期妇女摄入化学物质引发“重大警告”
然后网民被可怕的科学新闻吓坏了,所以网民说:
> 低热量汽水中的阿斯巴甜显然使生下自闭症儿子的风险增加了三倍。
格鲁格不想打网友,反应可以理解,因为新闻有额外的坏消息,每个人都认为在纸上,即使不是
有时大脑会大喊“一定要读报纸!”
咕噜不要叫
因为理解很少阅读论文,而是花时间喂养小人类或寻找伙伴制作小人类或制作闪亮的石头或盯着最喜欢的发光矩形
grug 也知道论文中总是有很多大词,即使不需要,也会惩罚人类读者
所以咕噜说好,别看报纸了!但记住不要太相信新闻!
4. 秘密坏事
为什么新闻里有这么多坏消息?
格鲁格是这样想的
每天都有很多大脑写出很多科普文章,但很少有成为新闻的,如何选择?
答案是记者需要大科学让每个人都盯着发光的矩形并得到闪亮的石头
但用坏事来制造大科学比找到新的大知识要容易得多
记者的工作不是阅读科学或发现坏事,而是引用大人物的话
但调用大脑需要时间,减少闪亮摇滚的摄入量,所以经常只是假装调用大脑使用新闻稿中的引言
如果真的说大脑和学科学不好,记者通常根本就做不到新闻。
和 Grug 告诉你一个秘密
大脑袋不喜欢告诉记者坏事
grug 观察同一个微型利基中的大脑确实阅读报纸,确实看到不好的事情,并在午餐时兴高采烈地谈论不好的事情,但当写作或与记者交谈时非常温和,除非是老而有名,并且不再关心
因为指出缺点的成本很高:坏人记住了,也许以后会拒绝论文或不引用论文或拒绝给予闪亮的石头或在终身教职信中说缺点,或者只是在会议上感到非常尴尬
每个大脑微生态位都是一个小小的八卦村,令人难以置信
所以 grug 建议仔细寻找其他大脑的引用,如果说不好,那么可能许多其他大脑也会同意,而且比所说的更糟糕
寻找低热量汽水自闭症新闻 grug 的报价
> 未参与此项研究的哈佛大学营养学家迪尔德丽·托拜厄斯博士告诉《每日邮报》:“作者对这种设计有如此大的信心得出这样的结论,真是令人震惊。” > > […] > > 托拜厄斯博士补充说,他们所检测的三种人工甜味剂是“完全不同的化合物,在人体内的代谢方式非常不同,并且已经对其安全性进行了广泛的评估。 > > “因此,阿斯巴甜的信号与其他化学物质基本相同,这一事实进一步表明了这项研究存在偏见,这可能是由于母亲的回忆错误或与选择低热量汽水的女性有关的其他因素造成的。 > > “他们观察到的任何关联都极不可能与化学物质阿斯巴甜本身有关。”
咕噜向勇敢的大脑致敬
也许有些人认为
但咕噜说的不是这个意思:大脑的目的是为正常人找到新知识,如果坏处得不到纠正那么对正常人就意味着坏处!
奖金呐喊
怨恨不要过多责怪任何人
把一些坏事归咎于作者,但格鲁格也犯了很多坏事,所以预计总会有坏事发生
不要因为新闻经济残酷和记者匮乏而过多地责怪记者
并且不责怪人类对大科学的兴趣
所以,grug悲伤的系统促进了坏事,但每个代理都可以理解,所以系统会持续很长时间
但最近一些大智囊团开发了“社区笔记”功能来显示新闻的坏处,而且效果比 Grug 想象的要好
如此乐观地认为系统会进化,并且未来不会有太多的坏事发生
也许这个方法很有效,以至于格鲁格从此成功地控制住了局面,但可能不会
D:2025.07.03>
2018 年 1 月 24 日
**[理解科学](https://peterattiamd.com/category/understanding-science/)**
学习研究:第三部分——观察性研究的动机
如果随机对照试验被视为建立可靠知识的黄金标准,为什么我们会在公共卫生领域看到如此多的观察性研究?
**想了解本系列的其他文章吗?**
观察性研究的动机
随机对照试验( RCT) 通常被认为是确定特定干预措施的风险或益处的黄金标准。通过随机将相似的参与者分配到治疗组或对照组,观察性研究中遇到的大部分偏见大大减少。1^研究)^人员可以更自信地评估和控制变量。简而言之,RCT 可以区分因果关系。
图片来源:PrevMedFellow (自己的作品) [ CC BY-SA 3.0 ],通过 Wikimedia Commons。
图 1. 两组平行随机试验各阶段进展流程图,根据 CONSORT(试验报告统一标准)2010 声明修改。
如果 RCT 是黄金标准,为什么我们不更多地使用这种严格的方法来确认或反驳暴露与疾病之间的关系?^2)^
RCT 非常昂贵
一项分析研究了 2000 年之前美国国家神经疾病和中风研究所(NIH 下属的一个研究所)资助的所有 RCT,以确定平均成本。他们发现 28 项试验的总成本为 3.35 亿美元,平均每项 RCT 的成本为 1200 万美元。
例如,妇女健康倡议( WHI) 临床试验(三个不同的实验)旨在测试饮食调整、激素替代疗法(简称 HRT) ^3)^以及钙和维生素 D 补充剂对绝经后妇女健康的益处和风险,估计耗资 6.25 亿美元。平均每次试验的成本约为 2.08 亿美元。
RCT 时间很长
根据一项研究,从开始招募到随机试验发表的平均时间为 5.5 年^。4)^
WHI HRT 试验计划持续 8.5 年,但该试验的雌激素加孕激素组(及其相应的安慰剂对照组)在 5.2 年后停止,只剩下雌激素组和安慰剂对照组,后者也在 1.6 年后停止(总共 6.8 年)。临床试验从开始到出结果通常需要几十年的时间。
高质量的 RCT 很难开展
RCT 通常被认为是确定干预和结果之间因果关系的最严格方法。但是,这种严格性必须靠努力才能获得。一项完善的 RCT 的完整性面临着许多挑战。这些试验需要建立可证伪的假设和明确的目标、适当的终点选择、适当的受试者选择标准(包括包容性和排除性)、临床相关且可行的干预方案、充分的随机化、分层)和盲法、足够的样本量和功效,以及对 RCT 过程中可能遇到的常见实际问题的预测。
例如,在 WHI 的饮食调整试验中,将 48,836 名绝经后女性随机分配到低脂饮食组(占参与者的 40%,目标是将来自脂肪的能量减少到 20%,将来自饱和脂肪的能量减少到 7%)或自我选择饮食行为,这带来了许多挑战。
RCT 无法(故意)测试有害影响
RCT 可以随机将受试者分配到有指导方针的组别中,研究人员认为这些组别要么对健康有益(即干预组),要么对健康无影响(即对照组或安慰剂组)。但他们不能将受试者分配到他们认为会对受试者造成伤害的干预组。从这个意义上讲,RCT 与流行病学背道而驰:RCT 试图建立对个人有益的因果关系,而流行病学家则试图建立对人群有害的关联。
以吸烟为例。烟草业可能会辩称,没有确凿的证据证明吸烟是导致肺癌的原因,直到一项严格的随机实验(据我们所知从未进行过)证明事实确实如此。
关于香烟和肺癌的问题,研究两者之间关系的关键人物埃瓦茨·格雷厄姆 (Evarts Graham ) 于 1954 年在《柳叶刀》杂志上承认:“必须承认,确实没有绝对的证据。”格雷厄姆指出,要满足“最顽固的顽固分子”的要求,必须做到以下几点:
- “找到一些愿意将支气管涂上香烟焦油的人类志愿者,也许可以通过支气管瘘来实现。
- “这个实验至少要进行二十年或二十五年。
- “受试者必须全程待在空调房间内,哪怕一个小时左右也不能离开,以免受到污染空气的污染。
- “二十五年后,他们必须接受手术或尸检以确定实验结果。
“我想对那些愿意参加这种实验的人说,‘请向右边排队,请勿拥挤。’”
玩笑中不乏真意。即使关联性很大,观察性研究也无法提供确凿的证据。即便如此,医学面临的挑战之一是我们必须根据现有信息采取行动(或不采取行动)。观察性研究是否有助于建立更可靠的知识,使人们认识到吸烟是肺癌的重要风险因素?是的。观察性研究是否能够在几乎有无数变量需要研究的大型疾病中识别出微小的影响?可能不能。但对已报告的有害影响进行临床试验是不可能的。
诚然,流行病学在这方面表现得左右逢源:观察性研究不仅可以寻找风险,还可以寻找药物、食物或生活方式组成部分的相关益处。然而,它在确定因果关系方面的成功率远低于门多萨线。批评者指出(2011 年),当在随后的随机试验中测试观察性主张时,这些主张宣称成功率为 0/52(即,没有一个主张在观察性研究中声称的方向上得到重复)。请重读最后一句话。然后再读一遍。
不仅如此,在同样的分析中,相反方向的统计显著性出现了五次(即,根据 RCT,被认为有帮助的东西却导致了伤害)。虽然 RCT 有局限性,但它们通常需要确定关联性相对较小的假设是否更正确而不是错误(反之亦然)。
从公共卫生角度来看,微小效应可以产生巨大且可预见的影响。“比如说,如果我们能够将阿尔茨海默病的发病时间推迟 5 年,”加州阿尔茨海默病中心主任Lon Schneider 表示,“那么这种疾病的发病率就会下降一半”,这就是论点。这类例子激励公共卫生当局广泛寻找 RCT 无法检测的相对较小的风险。那么,流行病学家会采用哪种类型的研究来确定人群的益处和风险呢?回顾性和前瞻性队列研究。在我们深入研究这类研究的细节之前,花点时间来了解一下那些常常威胁其有效性的偏见会有所帮助。
§
偏见是“各种设计、数据、分析和呈现因素的结合,这些因素往往会导致不该产生的研究结果,约翰·伊奥尼迪斯在《为什么大多数已发表的研究结果都是错误的》一书中写道。更简洁的说法是,正如刘易斯和沃洛所说的那样:偏见是“任何偏离事实的结果”。
健康用户偏见
注重健康的人和不注重健康的人在很多方面都有所不同。红肉会导致结肠癌吗?(世界卫生组织似乎认为是这样的。)
注重健康的人往往不会生活在黑暗中:他们一再听说红肉有害健康,并试图采取行动。一般来说,吃红肉较多的人比健康食用者更不注重健康,或者说不太在意健康。吃红肉较少的人可能不太可能吸烟,更有可能锻炼,更有可能获得医疗保健,更有可能吃水果、蔬菜、香料、昂贵的维生素,并且不喝软饮料。名单几乎是无穷无尽的。即使调查人员意识到了这些趋势,也几乎不可能正确解释它们。
混淆偏差
这是一个未考虑的额外变量。(混杂变量“混淆”了数据。)它可以暗示两个其他变量之间存在实际上并不存在的关系。
肥胖是否会增加罹患 2 型糖尿病的风险(与胰岛素抵抗、血压、血糖、甘油三酯、高密度脂蛋白胆固醇 (HDL-C) 和腹部脂肪(即构成代谢综合征的异常集群)无关)?
信息偏见
由于缺乏精确的测量,导致联想测量结果失真。例如,回忆过去事件的准确性或完整性存在错误(回忆偏差)。
观察性研究使用年度食物频率问卷来辨别饮食和生活习惯,这一点尤其具有启发性。1989 年,护士健康研究 (NHS) 用四份详细的 7 天饮食记录“验证”了他们的问卷,其中要求参与者称重和测量他们每年每季度完成的所有食物。研究人员发现,FFQ 可以很好地预测某些食物的“真实”^摄入)^量,而其他食物则不太好。FFQ 预测不佳的食物有哪些?培根(19%)、肉类(12%)、加工肉类(11%)、热狗(4%)和汉堡包(1.4%)。
反向因果关系偏差
假定的因果顺序被颠倒了(也称为本末倒置偏差)。
低热量汽水与肥胖有关,有人认为低热量汽水会导致体重增加。然而,超重或肥胖的人可能更有可能喝低热量汽水。
选择偏差
受试者的选择,或者他们留在研究中的可能性,导致结果不能代表目标人群。研究的纳入和排除标准是什么?什么样的人会同意参加一项研究,在研究中,他们将被要求透露个人信息、提供血液样本以及饮食和生活习惯?
例如,在 WHI HRT 试验中,女性必须签字同意她们要么接受激素治疗,要么什么都不接受,但她们不得知道是前者还是后者。什么样的人不同意参加这项研究?什么样的人同意?
有时,会将工人群体与一般人群进行比较(健康工人偏见)。例如,护士健康研究是正在进行的最大的观察性研究之一,它针对的是一群护士(这并不奇怪)。一般来说,更健康的人更有可能被雇用。一般人群可能比职业群体包含更多不健康的人。
在一些研究中,参与者可能会失去随访(失访偏差)。在这种情况下,研究人员无法跟踪一些受试者,也不知道他们发生了什么(即他们是否患上了疾病)。当暴露组和未暴露组的失访率不相同时,这会导致选择偏差。
§
回顾性队列研究
有时,研究人员会进行一项研究,回顾过去(即回顾性地)来确定一个队列或一组个体的特定特征和感兴趣的结果。6^在)^这种类型的调查开始时,结果在研究构思之前就已经发生了。因此,这是一项回顾性队列研究。
1950 年,JAMA发表了一篇具有里程碑意义的文章《吸烟是支气管癌的可能病因:一项针对 684 例已证实病例的研究》。这是一项回顾性研究。研究人员Ernst Wynder和Evarts Graham采访并纳入了 605 名支气管癌(即肺癌)患者。Wynder 和 Graham 报告称,吸烟是美国肺癌发病率上升的一个重要因素(图 2)。他们还指出,非吸烟者也可能患肺癌,重度吸烟者不一定会患肺癌。
图 2. 回顾性研究中吸烟量与 605 名男性肺癌之间的关系。数据来自 Wynder 和 Graham,1950 年。
回顾性队列研究容易产生混淆和偏见。混淆是指任何可以解释两个变量之间关联的变量,而这些变量通常是未知的或无法解释的。还有许多偏见可能导致这些研究得出错误的答案。
前瞻性队列研究
前瞻性队列研究与回顾性研究的不同之处在于,前瞻性队列研究构思和设计研究、招募受试者、收集基线信息,^7)^所有这一切都是在受试者出现感兴趣的结果之前进行的。
研究人员确定了一批可以长期跟踪的潜在受试者。这使得研究人员可以跟踪受试者,确定受试者是否以及何时出现了感兴趣的结果,是否以及何时失去跟踪,以及他们的暴露状态在跟踪期间是否发生了变化。合格的受试者必须满足某些参数,称为纳入标准。此外,研究还有排除标准,这些标准是将潜在受试者排除在研究之外的特征。
前瞻性研究的优势在于可以减少回顾性研究中经常出现的某些类型的偏见。例如,前瞻性研究可以减少选择偏见,因为在基线时结果尚不清楚。
前瞻性研究似乎更具实验性。例如,通过召集两组除吸烟行为外各方面都相似的受试者,“干预”就是吸烟,而不是所谓的健康促进剂。(但请记住,这里没有随机分配。)1954 年,理查德·多尔 (Richard Doll)和奥斯汀·布拉德福德·希尔 (Austin Bradford Hill) 就是这么做的。
他们开展了一项研究,以确定吸烟者和非吸烟者未来(即前瞻性)患肺癌的概率,研究对象是吸烟习惯已知的人群(即非随机分配)。1951 年,Doll 和 Hill 致信英国所有注册医生,要求他们填写一份关于吸烟习惯的问卷。他们最终利用 24,389 名男性的数据来研究吸烟和死亡率。
Doll 和 Hill ^8)^继续跟踪这组病例,统计死亡人数,共计 789 人。数据出来后,重度吸烟者的死亡率比非吸烟者高 24 倍。不仅如此,在 36 例归因于肺癌的死亡病例中,每例都是吸烟者(图 3)。(请记住,在这些医生中,只有 12.7% 的人,即 24,389 名男性中的 3,093 人是非吸烟者。)
图 4. 吸烟者和非吸烟者中观察到的肺癌死亡率。数据来自 Doll 和 Hill,1954 年。注意:虽然图表中似乎缺乏剂量反应关系,但非吸烟者、每天 1-14 支香烟、每天 15-24 支香烟和每天 25 支以上香烟的每年每 1,000 名男性的标准化死亡率分别为 0.0、0.5、0.7 和 1.14(显示剂量反应)。
从流行病学的角度来看,这是一个“理想”的情景。最突出的例子是,流行病学作为一种建立可靠知识的系统方法的成功(吸烟和肺癌),不需要复杂的统计分析来证明其观点。换句话说,你不需要统计学博士学位就能弄清楚这一点——风险比非常大。需要明确的是,可能存在混杂因素——也许不吸烟的医生都是某种类型的医生,而这种类型的医生会错过一些真正导致癌症的其他毒素——但差异的大小会提供很大的回旋余地来“纠正”这一点。
让我们先回顾一下(大约 70 年前)。20 世纪 50 年代的吸烟情况可能与今天截然不同,而且我们知道那时吸烟更为普遍。如今几乎每个人都知道吸烟的危害及其与肺癌的关系。正因为如此,今天的吸烟者的健康意识可能远不及 20 世纪 50 年代的吸烟者,因此可能会采取许多其他与死亡和疾病风险增加相关的行为。在这方面,20 世纪 50 年代吸烟的混杂因素可能较少。健康用户偏见几乎肯定不像今天这样阴险。请记住(图 4),20 世纪 50 年代初,87% 的英国医生在 Doll 和 Hill 的调查中吸烟。到 20 世纪 90 年代,英国医生吸烟率报告低至 3%。 (美国疾病控制与预防中心报告称,20 世纪 60 年代初,美国吸烟男性患肺癌的可能性是不吸烟男性的 12.2 倍;“到 2010 年,这一风险增加了一倍多,从 12.2 倍增加到 25 倍。” 2014 年卫生局局长报告认为,“通风过滤器和香烟中某些化学物质含量的增加可能起了一定作用。”我们认为这可能也与健康用户偏见有关,但稍后我们会详细介绍。)
换句话说,如今对吸烟者进行流行病学调查将更难确定因果关系,因为如今吸烟是不良健康选择的标志,而 20 世纪 50 年代并非如此。想知道食用加工肉类是否也是如此?
图片来源:美国农业部,1955 年。
图 5. 20 世纪 50 年代,美国农业部 (USDA) 推荐了“四大基本”食物类别。其中包括每天食用 2 份或更多份“肉类”食物。
“加工红肉”和“红肉”曾被广泛推荐为健康饮食的一部分(图 5),但如今在公共卫生圈中,它们已沦为令人反感的脏话,成为不良健康选择和不良健康状况的标志(例如,吸烟、缺乏运动、水果和蔬菜摄入量较低、反式脂肪摄入量较高、糖和精制碳水化合物摄入量较高、肥胖、糖尿病、代谢综合征)。尽管流行病学家希望(或声称)控制这些因素,但他们无法准确做到这一点。







