可穿戴设备大多不起作用

只是证据

对于最常见的可穿戴设备类型，最大的问题是它们是否能增加身体活动量？ 我们寻找生物行为反馈、启动、沉没成本——无论你想从哪个角度来争论——我们确实看到了相关证据。基本上所有评论都表明，它00111-X/fulltext)对身体活动的影响从小到中微。

有时这种效果是薄弱的。例如，在Au等人2024年关于儿童和青少年可穿戴活动追踪器的系统综述和荟萃分析中，修剪填充使每日步数的效应量不显著（-0.01;95%置信区间：-0.35-0.33）。对于测量的“中度至剧烈体育活动”（MVPA，文献中常见结局），调整后效应值保持稳定，但偏小（-0.14）且边缘显著（p = 0.01）。在 Wu等人2023年关于老年人可穿戴活动追踪器的系统综述和荟萃分析中，他们在探讨发表偏倚方面能力不足，但他们对MVPA的修剪填充仍将效应量从约0.54天（0.36-0.72）减半至约0.25-0.26天（\~0.05-0.46），但仍保持显著性（修正后p≈0.02）。

![按p值可疑度对场地进行排名](https://substackcdn.com/image/fetch/$s_!gHpv!,w_140,h_140,c_fill,f_auto,q_auto:good,fl_progressive:steep,g_auto/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F96bf49b8-a69f-409e-9c5f-0a94eaee313b_1331x730.jpeg)

[按p值可疑度对场地进行排名](https://www.cremieux.xyz/p/ranking-fields-by-p-value-suspiciousness)

克雷米厄

2023年4月22日

阅读完整报道

这些文献中的效应起初并不大，如果能考虑发表偏差，效果会显著缩小。有些综述甚至指出，荟萃分析中研究数量越少，结果越积极，这明显表明存在发表偏倚。排行榜：

![](https://substackcdn.com/image/fetch/$s_!zfed!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb90ebdc3-fa66-42b7-ae5e-930586a925d1_2881x2012.jpeg)

Ferguson 等人 2022，图400111-X/fulltext)

许多来自鲜少报道、相对新颖的结果的炒作——这本可以帮助研究者在被引用时脱颖而出！——很可能是由于选择性发表，这往往会夸大效应大小。

![当心多学之人](https://substackcdn.com/image/fetch/$s_!yFbG!,w_140,h_140,c_fill,f_auto,q_auto:good,fl_progressive:steep,g_auto/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F72de6635-9e3c-4ff9-996f-22b0b53c149e_420x300.png)

[当心多学之人](https://www.cremieux.xyz/p/beware-the-man-of-many-studies)

克雷米厄

2023年6月5日

阅读完整报道

当你记住分析师通常是医生，而医学博士通常不擅长统计学时，文献中的效果就更小且更具统计价值。1

例如，这里有个经济学家但很少医生能察觉的问题。在我引用的Wu等人综述中，他们还回顾了另外三个结果：每日步数、总每日体育活动量和久坐时间。所有这些结果似乎都有发表偏倚的证据，但判断力太有限。不过经济学家会指出，每个结果层面的荟萃分析都包含了每个研究的多个估计值，没有聚类。

如果团队中有一位合格的经济学家，他们会注意到标准误是未聚集的，并告诉纯医学团队他们的结果过于精确，因为结果相互依赖——他们基本上多次估计了相同的东西，或者方法论上依赖的现象，却没有考虑到这一点！如果它们的元分析结果是用聚类法估计的，显著性和效应会变化，通常变化很细微，但有时会非常显著。

对于总日体力活动，考虑聚类意味着从显著的0.21天降为无显著的0.29天;对于每日步数，结果从高度显著的0.59天变为依然显著的0.57天，但现在有显著的修剪填充结果，使其降到了仍然显著的0.48天;对于久坐时间，结果实际上不会改变，但修剪填充使结果无显著性（D = -0.09，p = 0.07）。2

这些以及更明显、有时重要、有时不那么统计的问题，是可穿戴研究的常态，如果你持续考虑它们，会发现本就温和的影响远比表面看起来要小得多。再加上许多研究设计不佳——如何盲测可穿戴研究?—,高度积极的志愿者、暂时的新颖性和参与效应，以及流失和合规性问题，理性的人会得出结论，这些代理结果的影响需要大幅降低权重。

最后一句话非常重要：这些是代理结果。除非身体活动和每日步数会带来健康变化——这才是真正关注的结果，否则没人应该关心它们是否会增加！幸运的是，由于这些代理结果被广泛接受，研究人员倾向于将其视为主要指标，并基于这些代理指标的显著结果发表论文，而较少关注实际健康改善。这使得对实际健康改善的推断在与代理结果相关程度上带有上偏，但除此之外基本保持无偏。那么，这些显示了什么？不多！

请考虑这一点：在Ferguson等人2022年的综述中，他们发现，通常未对前述问题进行校正的荟萃分析，通常在生理上效果较小，在更健康、更具代表性的样本中效果较小。

![](https://substackcdn.com/image/fetch/$s_!dDtq!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F89a7f4a9-cb90-4aaa-bb66-bde14a2b6497_5048x4661.jpeg)

Ferguson等，2022年，图200111-X/fulltext)

心理社会结果的证据更糟：

![](https://substackcdn.com/image/fetch/$s_!dbtF!,w_2400,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8d661702-7111-40d0-be67-949033d0db26_5043x2075.jpeg)

Ferguson等人，2023年，图300111-X/fulltext)

这个问题反复出现：似乎对促进健康行为有影响，但这些效应并不转化为对身体成分、身体风险改善、心理社会改善等，而且即使有影响，样本通常也处于风险之中，因此不建议泛化到普通人群。

如果我们从活动监测转向CGM，我们会发现，虽然糖尿病患者显然受益并受到保护，但普通人并没有获得太多好处。仔细想想，这一切就很明显了：一个正常人到底应该用CGM做什么？他们会更好地控制饮食吗？为了什么目的？所以他们避免了那些通常对健康影响不大的血糖峰值？很难把CGMs当作推荐给普通非糖尿病人群的推荐产品。

![X化身为@cremieuxrecueil](https://substackcdn.com/image/fetch/$s_!BwK9!,w_40,h_40,c_fill,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fpbs.substack.com%2Fprofile_images%2F1637507712983375875%2FEQHiqVq8.jpg)

克雷米厄@克雷米厄勒克雷

就在前几周，我还跟别人说我觉得血糖监测对健康没什么帮助，这大多只是一时的流行。今天我了解到，开具持续或间歇性监测的成年人在6到18个月内几乎没有HbA1c的益处。

![](https://pbs.substack.com/media/GyBTgG0WsAIVz20.jpg)

上午5：23 ·2025年8月11日 · 4.67万浏览量 Views

34条回复 Replies·11 次转发 Reposts · 290个赞 Likes

当我们对非糖尿病患者进行连续血糖监测时，发现餐后和空腹血糖水平及变异性、步数和步行时间、体重以及其他一些健康代理指标的微小改善证据较弱。3 几乎没有证据表明硬性结果会发生变化。坦率地说，我们不应抱有期待，因为普通人从CGM中获取的健康信息并不多。

我猜非糖尿病的连续血糖监测（CGM）使用者最多会像我和朋友们一样：你会学会什么会让你血糖飙升，并通过一些不太重要的习惯改变来减少警报。新鲜感逐渐沦为背景噪音;警报和提醒变得越来越少，且更加明显地失误且可忽略;一旦你明白喝酒会睡得更差，睡眠减少会让你更疲惫，穿戴设备就成了认知负担的来源。4

在结束之前，我想再提一件事：许多可穿戴设备并不可靠。数步数和心跳简单、通常可靠，而且价值不大。睡眠时长？睡眠分期？SpO₂？心房颤动？别太相信这些东西。热量和能量消耗？压力？无袖带血压？真的不信那个。

一项综述发现步数和心率准确，但能量消耗估计的可靠性较差。一项针对Apple Watch的新研究发现，有时效果不错，但对于更高级的设备来说，结果参差不齐，这款相当昂贵的设备步数和睡眠追踪都只有中等准确度。可靠性极其异质，无论是设备内部还是设备间，某些测量需要定期重新校准，用户可能会忘记这样做。5

支持大规模采用的最好证据是一连串“可以”：可穿戴设备可以揭示隐藏的健康信号;可穿戴设备可以推动行为;可穿戴设备可以持续激励。

实证记录显示链条并不强;事实上，它通常会被断开。6

行为效应较小，且在考虑统计和抽样偏差后进一步缩小;随着设备新颖性衰退，参与度和服从性逐渐消退;而真正重要的终点——体重、心血管风险、心理健康、HbA1c及其他艰难结果——很少超出高风险、严格训练的样本（即使它们的收益也会随着时间推移减弱）。再加上大多数头条指标都是嘈杂或模型驱动的，最终你卖给人们的设备大多是增加认知负担和炫酷仪表盘，而很少能让人们变得更健康。

告诉所有人使用可穿戴设备只会产生大量数据，但健康效果不大。

我喜欢医学博士，但我更喜欢他们让我在发表论文前审阅。

MVPA的结果是从0.54天上升到0.55天。我们之前看到修剪填土能将非聚集效应减半。有了聚类，它会把它降到更合理的0.42天。作者们处于罕见的情况，实际上他们本可以得到帮助！

对于每日总体力活动，修剪填充对聚集没有作用，因为没有研究被填满。

请记住，这些文献仍然偏向于结果效应，因此应相应地降低证据权重。

有证据表明，即使是糖尿病患者也会停止使用CGM，且不会带来健康影响。

给可穿戴设备公司一句话：大声且频繁地提醒大家这个事实！

考虑到他们在生活方式咨询和辅导方面的糟糕记录，这也是理所当然的。我告诉别人这是Ozempic的教训：你实际上不会激励别人去做事。可穿戴设备也不会。它们提醒人们短暂地保持活跃，随后新鲜感消退，人们又回到习惯，就像饮食改变往往是短暂的。给人们一些实际的解决方案，比如简单的每周注射，这会有效;告诉他们改变生活方式，你很少会看到他们坚持下去。

Wearables Mostly Don't Work - Cremieux Recueil

🥩阿赐酱切片腊肠 + 腊五花肉｜无防腐剂无淀粉无烟熏｜SGS 全程检测｜减盐减油全年可吃｜快手零难度冰箱必备查看
店长推荐

2026.03.25

可穿戴设备

讨论列表 AKP讨论查看原帖及回帖

目录

可穿戴设备大多不起作用

最新的营养和锻炼潮流对大多数人来说并不太有帮助

只是证据

[按p值可疑度对场地进行排名](https://www.cremieux.xyz/p/ranking-fields-by-p-value-suspiciousness)

[当心多学之人](https://www.cremieux.xyz/p/beware-the-man-of-many-studies)

可穿戴设备

目录

**可穿戴设备大多不起作用**

最新的营养和锻炼潮流对大多数人来说并不太有帮助

**只是证据**

**[按p值可疑度对场地进行排名](https://www.cremieux.xyz/p/ranking-fields-by-p-value-suspiciousness)**

**[当心多学之人](https://www.cremieux.xyz/p/beware-the-man-of-many-studies)**

可穿戴设备

可穿戴设备大多不起作用

只是证据

[按p值可疑度对场地进行排名](https://www.cremieux.xyz/p/ranking-fields-by-p-value-suspiciousness)

[当心多学之人](https://www.cremieux.xyz/p/beware-the-man-of-many-studies)