目录



, ,

可穿戴设备

<markdown>

**可穿戴设备大多不起作用**

最新的营养和锻炼潮流对大多数人来说并不太有帮助

![克雷米厄的化身](https://substackcdn.com/image/fetch/$s_!bhff!,w_36,h_36,c_fill,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fbucketeer-e05bbc84-baa3-437e-9518-adb32be77984.s3.amazonaws.com%2Fpublic%2Fimages%2F5795cad2-b537-436d-9f35-f838ed76b31a_886x1273.jpeg)

克雷米厄

2026年3月11日

66

1

3

分享

这是一篇限时帖子。这些小程序的运作方式是,如果我完成帖子花了超过一个小时,我做的小程序会删除我目前写的所有内容,然后我会放弃帖子。你可以在这里找到我之前的定时帖子。


![可穿戴技术元素周期表 |科技冲击](https://substackcdn.com/image/fetch/$s_!nYTN!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F0a072efc-4212-40f4-9e38-f4480d802515_4500x2182.jpeg "A Periodic Table Of Wearable Technology | TechCrunch")

可穿戴设备现在非常流行。从FitBits到WHOOP手链,再到Oura环,再到智能眼镜、连续血糖监测仪(CGM)、新陈代谢追踪贴片和Apple Watch,健身领域的每个人都戴着能追踪健康的东西,无论是监测VO2 max和心率变异性,还是监测睡眠和心率等基础信息。

很多在这个领域的人也认为可穿戴设备有助于改善健康。因此,许多人自然开始推广 可穿戴设备作为健康改善的工具。但穿戴设备真的有帮助吗?直觉上他们可能会这样做。例如:

注意我用的修饰词:“可以”、“可能”。理论上这些都不错,但理论只有在现实世界中都有效才有意义!是吗?不。


**只是证据**

对于最常见的可穿戴设备类型,最大的问题是它们是否能增加身体活动量? 我们寻找生物行为反馈、启动、沉没成本——无论你想从哪个角度来争论——我们确实看到了相关证据。基本上所有评论都表明,它00111-X/fulltext)身体活动的影响从小到中微。

有时这种效果是薄弱的。例如,在Au等人2024年关于儿童和青少年可穿戴活动追踪器的系统综述和荟萃分析中,修剪填充使每日步数的效应量不显著(-0.01;95%置信区间:-0.35-0.33)。对于测量的“中度至剧烈体育活动”(MVPA,文献中常见结局),调整后效应值保持稳定,但偏小(-0.14)且边缘显著(p = 0.01)。在 Wu等人2023年关于老年人可穿戴活动追踪器的系统综述和荟萃分析中,他们在探讨发表偏倚方面能力不足,但他们对MVPA的修剪填充仍将效应量从约0.54(0.36-0.72)减半至约0.25-0.26(\~0.05-0.46),但仍保持显著性(修正后p≈0.02)。

![按p值可疑度对场地进行排名](https://substackcdn.com/image/fetch/$s_!gHpv!,w_140,h_140,c_fill,f_auto,q_auto:good,fl_progressive:steep,g_auto/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F96bf49b8-a69f-409e-9c5f-0a94eaee313b_1331x730.jpeg)

**[按p值可疑度对场地进行排名](https://www.cremieux.xyz/p/ranking-fields-by-p-value-suspiciousness)**

克雷米厄

·

2023年4月22日

阅读完整报道

这些文献中的效应起初并不大,如果能考虑发表偏差,效果会显著缩小。有些综述甚至指出,荟萃分析中研究数量越少,结果越积极,这明显表明存在发表偏倚。排行榜:

![](https://substackcdn.com/image/fetch/$s_!zfed!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb90ebdc3-fa66-42b7-ae5e-930586a925d1_2881x2012.jpeg)

Ferguson 等人 2022,图400111-X/fulltext)

许多来自鲜少报道、相对新颖的结果的炒作——这本可以帮助研究者在被引用时脱颖而出!——很可能是由于选择性发表,这往往会夸大效应大小。

![当心多学之人](https://substackcdn.com/image/fetch/$s_!yFbG!,w_140,h_140,c_fill,f_auto,q_auto:good,fl_progressive:steep,g_auto/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F72de6635-9e3c-4ff9-996f-22b0b53c149e_420x300.png)

**[当心多学之人](https://www.cremieux.xyz/p/beware-the-man-of-many-studies)**

克雷米厄

·

2023年6月5日

阅读完整报道

当你记住分析师通常是医生,而医学博士通常不擅长统计学时,文献中的效果就更小且更具统计价值。1

例如,这里有个经济学家但很少医生能察觉的问题。在我引用的Wu等人综述中,他们还回顾了另外三个结果:每日步数、总每日体育活动量和久坐时间。所有这些结果似乎都有发表偏倚的证据,但判断力太有限。不过经济学家会指出,每个结果层面的荟萃分析都包含了每个研究的多个估计值,没有聚类。

如果团队中有一位合格的经济学家,他们会注意到标准误是未聚集的,并告诉纯医学团队他们的结果过于精确,因为结果相互依赖——他们基本上多次估计了相同的东西,或者方法论上依赖的现象,却没有考虑到这一点!如果它们的元分析结果是用聚类法估计的,显著性和效应会变化,通常变化很细微,但有时会非常显著。

对于总日体力活动,考虑聚类意味着从显著的0.21降为无显著的0.29;对于每日步数,结果从高度显著的0.59天 变为依然显著的0.57,但现在有显著的修剪填充结果,使其降到了仍然显著的0.48;对于久坐时间,结果实际上不会改变,但修剪填充使结果无显著性(D = -0.09,p = 0.07)。2

这些以及更明显、有时重要、有时不那么统计的问题,是可穿戴研究的常态,如果你持续考虑它们,会发现本就温和的影响远比表面看起来要小得多。再加上许多研究设计不佳——如何盲测可穿戴研究?—,高度积极的志愿者、暂时的新性和参与效应,以及流失和合规性问题,理性的人会得出结论,这些代理结果的影响需要大幅降低权重。

最后一句话非常重要:这些是代理结果。除非身体活动和每日步数会带来健康变化——这才是真正关注的结果,否则没人应该关心它们是否会增加! 幸运的是,由于这些代理结果被广泛接受,研究人员倾向于将其视为主要指标,并基于这些代理指标的显著结果发表论文,而较少关注实际健康改善。这使得对实际健康改善的推断在与代理结果相关程度上带有上偏,但除此之外基本保持无偏。那么,这些显示了什么?不多!

请考虑这一点:在Ferguson等人2022年的综述中,他们发现,通常未对前述问题进行校正的荟萃分析,通常在生理上效果较小,在更健康、更具代表性的样本中效果较小。

![](https://substackcdn.com/image/fetch/$s_!dDtq!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F89a7f4a9-cb90-4aaa-bb66-bde14a2b6497_5048x4661.jpeg)

Ferguson等,2022年,图200111-X/fulltext)

心理社会结果的证据更糟:

![](https://substackcdn.com/image/fetch/$s_!dbtF!,w_2400,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8d661702-7111-40d0-be67-949033d0db26_5043x2075.jpeg)

Ferguson等人,2023年,图300111-X/fulltext)

这个问题反复出现:似乎对促进健康行为有影响,但这些效应并不转化为对身体成分、身体风险改善、心理社会改善等,而且即使有影响,样本通常也处于风险之中,因此不建议泛化到普通人群。

如果我们从活动监测转向CGM,我们会发现,虽然糖尿病患者显然受益并受到保护,但普通人并没有获得太多好处。仔细想想,这一切就很明显了:一个正常人到底应该用CGM做什么?他们会更好地控制饮食吗?为了什么目的?所以他们避免了那些通常对健康影响不大的血糖峰值?很难把CGMs当作推荐给普通非糖尿病人群的推荐产品。

![X化身为@cremieuxrecueil](https://substackcdn.com/image/fetch/$s_!BwK9!,w_40,h_40,c_fill,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fpbs.substack.com%2Fprofile_images%2F1637507712983375875%2FEQHiqVq8.jpg)

克雷米厄@克雷米厄勒克雷

就在前几周,我还跟别人说我觉得血糖监测对健康没什么帮助,这大多只是一时的流行。 今天我了解到,开具持续或间歇性监测的成年人在6到18个月内几乎没有HbA1c的益处。

![](https://pbs.substack.com/media/GyBTgG0WsAIVz20.jpg)

上午5:23 ·2025年8月11日 · 4.67万 浏览量 Views


34条回复 Replies·11 次转发 Reposts · 290个赞 Likes

当我们对非糖尿病患者进行连续血糖监测时,发现餐后和空腹血糖水平及变异性、步数和步行时间、体重以及其他一些健康代理指标的微小改善证据较弱。3 几乎没有证据表明硬性结果会发生变化。坦率地说,我们不应抱有期待,因为普通人从CGM中获取的健康信息并不多。

我猜非糖尿病的连续血糖监测(CGM)使用者最多会像我和朋友们一样:你会学会什么会让你血糖飙升,并通过一些不太重要的习惯改变来减少警报。新鲜感逐渐沦为背景噪音;警报和提醒变得越来越少,且更加明显地失误且可忽略;一旦你明白喝酒会睡得更差,睡眠减少会让你更疲惫,穿戴设备就成了认知负担的来源。4

在结束之前,我想再提一件事:许多可穿戴设备并不可靠。数步数和心跳简单、通常可靠,而且价值不大。睡眠时长?睡眠分期?SpO₂?心房颤动?别太相信这些东西。热量和能量消耗?压力?无袖带血压?真的不信那个。

一项综述发现步数和心率准确,但能量消耗估计的可靠性较差。 一项针对Apple Watch的新研究发现,有时效果不错,但对于更高级的设备来说,结果参差不齐,这款相当昂贵的设备步数和睡眠追踪都只有中等准确度。 可靠性极其异质,无论是设备内部还是设备间,某些测量需要定期重新校准,用户可能会忘记这样做。5


支持大规模采用的最好证据是一连串“可以”:可穿戴设备可以揭示隐藏的健康信号;可穿戴设备可以推动行为;可穿戴设备可以持续激励。

实证记录显示链条并不强;事实上,它通常会被断开。6

行为效应较小,且在考虑统计和抽样偏差后进一步缩小;随着设备新颖性衰退,参与度和服从性逐渐消退;而真正重要的终点——体重、心血管风险、心理健康、HbA1c及其他艰难结果——很少超出高风险、严格训练的样本(即使它们的收益也会随着时间推移减弱)。再加上大多数头条指标都是嘈杂或模型驱动的,最终你卖给人们的设备大多是增加认知负担和炫酷仪表盘,而很少能让人们变得更健康。

告诉所有人使用可穿戴设备只会产生大量数据,但健康效果不大。

1

我喜欢医学博士,但我更喜欢他们让我在发表论文前审阅 。

2

MVPA的结果是 从0.54上升到0.55。我们之前看到修剪填土能将非聚集效应减半。有了聚类,它会把它降到更合理的0.42天。作者们处于罕见的情况,实际上他们本可以得到帮助!

对于每日总体力活动,修剪填充对聚集没有作用,因为没有研究被填满。

3

请记住,这些文献仍然偏向于结果效应,因此应相应地降低证据权重。

4

有证据表明,即使是糖尿病患者也会停止使用CGM,且不会带来健康影响。

5

给可穿戴设备公司一句话:大声且频繁地提醒大家这个事实!

6

考虑到他们在生活方式咨询和辅导方面的糟糕记录,这也是理所当然的。我告诉别人这是Ozempic的教训:你实际上不会激励别人去做事。可穿戴设备也不会。它们提醒人们短暂地保持活跃,随后新鲜感消退,人们又回到习惯,就像饮食改变往往是短暂的。给人们一些实际的解决方案,比如简单的每周注射,这有效;告诉他们改变生活方式,你很少会看到他们坚持下去。

Wearables Mostly Don't Work - Cremieux Recueil

</markdown>

D:2026.03.25

<markdown> </markdown>

讨论列表 AKP讨论 查看原帖及回帖