分享好友 最新动态首页 最新动态分类 切换频道
预测模型自变量太多怎么筛选?这篇Lancet子刊如何从249个变量筛出11个
2024-12-27 16:33
基于传统危险因素的风险预测模型虽然也能够有效的区分未来低风险和高风险的个体,但由于缺乏特异性和对复杂风险因素的不完整描述,临床适用性受到限制。
因此越来越多的学者引入蛋白质组学、循环代谢物等分子层面信息作为预测因子提高模型的准确度,但一般来说,蛋白质、循环代谢物等种类繁多。要纳入构建预测模型,自变量筛选成了一大难题。
今天老郑看到一篇Lancet子刊的文章,也是第一次看到这种筛选自变量的方法,从249种代谢物中筛选了11种纳入预测模型,老郑带大家一起看看!

2024年12月6日,顶刊Lancet子刊《eClinicalMedicine》(医学一区top,IF=9.6)发表了一篇题为:“Novel type 2 diabetes prediction score based on traditional risk factors and circulating metabolites: model derivation and validation in two large cohort studies”的研究论文,旨在评估在临床使用的剑桥糖尿病风险评分(CDRS)基础上添加代谢组学生物标志物对评估2型糖尿病10年风险的增量预测价值。

预测模型自变量太多怎么筛选?这篇Lancet子刊如何从249个变量筛出11个

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料)

在这项研究中,研究者用了两个大型队列研究推导和验证预测模型。

  • 模型推导和内部验证:纳入了86,232名英国生物银行(UKB)参与者(在2006年3月13日至2010年10月1日期间招募),将队列拆分为训练集(70%)和测试集(30%)。
  • 外部验证:纳入了4383名来自德国ESTHER队列的参与者(在2000年7月1日至2002年6月30日期间招募)。

研究人员对参与者进行了10年的随访,以评估2型糖尿病的发病率。

√CDRS是一种预测工具,用于评估个人未来发展为2型糖尿病的风险。

这个评分系统包括年龄、性别、身体质量指数(BMI)、糖尿病家族史、吸烟状况、抗高血压药物和类固醇的处方。如果可以采集血液样本,建议使用临床CDRS,其中还包括HbA1c。

√代谢组学分析

Nightingale Health的高通量NMR代谢组学平台用于测量随机选择的UKB参与者基线血浆样本中的250种代谢物,以及ESTHER队列中具有足够血液样本质量的所有基线血清样本。

因为在两个队列的大多数参与者中甘油无法测量,甘油被排除在外,留下249个代谢物用于分析。

本文的自变量筛选很有意思,为了进行变量选择,研究者采用了LASSO方法,使用Cox比例风险模型和r包“glmnet”(版本4.1-7)。将临床CDRS和所有代谢物浓度作为自变量,2型糖尿病发生率作为因变量。

在训练集内,研究者进行了1000个重抽样样本的bootstrap过程,以增强变量选择过程的稳定性和泛化性。

  • 对于每个bootstrap样本,我们进行10次交叉验证,以识别正则化参数λ的最佳值,使交叉验证误差最小化。
  • LASSO Cox比例风险模型在每个重抽样的样本中使用最优λ进行拟合,这使一些系数接近于零,而其他系数完全接近于零。
  • 我们记录了在每个bootstrap样本的最终Cox比例风险模型中具有非零系数的代谢物,这些代谢物被选择。
  • 完成所有的1000个bootstrap样本后,我们计算这1000个bootstrap样本中每个代谢物的选择频率,作为它被选择的次数的百分比。

随后根据代谢物的选择频率进行排序,范围从0%到100%。

在1000个bootstrap样本中,LASSO选择的代谢物至少有95%(这个阈值之前已经给出)是被选择的,可以增强模型的泛化能力并最小化模型过拟合。将筛选出的代谢物纳入临床CDRS构建新的预测模型。

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料)

最终,通过LASSO分析和bootstrapping法,研究者选择了11种代谢物来增强训练集中临床CDRS对2型糖尿病风险的预测能力。

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料)

全套过程,我想大家看得眼花缭乱,但确实做到了“增强变量选择过程的稳定性和泛化”的目的。

基于lasso的方法筛选自变量是常规套路,但lasso的方法存在不确定性,或者存在着过拟合的可能性。

一般来说我们干完lasso就结束了。它不!这篇论文在lasso基础上用了一些其他方法。

一个是实现泛化性,用的是十折交叉方法,那就可以减少过拟合的方法,哪个场景下模型验证效果最好的,意味着泛化能力最强,这个时候的lasso模型是最好的。

第二个是实现稳定性,lasso结果不稳定怎么办?那就来1000次,1000个lasso方法95%都存在着的自变量。

高明!这套组合拳,老郑我看得觉得有意思。

他们家的变量实在是太多了。太富裕了,随便你折腾,最终都有足够的自变量纳入模型。

下次你们也试试。

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料)

最新文章
腾讯云轻量应用服务器流量价格表
价格表,北京上海广州等中国内地地域流量价格是0.8元每GB,中国香港地域流量价格是1元每GB,每款轻量应用服务器套餐自带免费月流量包,只有流量超额才会另外收取流量费。分享腾讯云轻量应用服务器流量价格、超出套餐后流量收费以及流量计费
从零开始的AI自动生成绘画软件系统开发指南
“在这个信息爆炸的时代,为什么有些创作者能用AI生成绘画软件迅速吸引眼球,而另一些却只能默默无闻?难道是因为他们掌握了什么秘密?还是因为他们的工具比别人的更强大?”随着科技的飞速发展,AI自动生成绘画软件正逐渐成为艺术创作的热
python 爬虫代码实例
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名
ubuntu18.04美化主题(完整版)
{  转载自 https://www.cnblogs.com/batty/}和网上的美化一样,但是我当初跟着博客美化的时候遇到一些问题,按博客的做法无法解决。所以我自己也写一篇关于ubuntu18.04美化主题的博客。第一步:安装主题工具:GNOME Tweaks然后安装完成后
龙BT最新技术革新及其影响力展望
摘要:最新的龙BT技术革新在科技领域引起了广泛关注。这一技术突破带来了更高效、更便捷的应用体验,推动了相关行业的快速发展。其影响不仅体现在提升了工作效率,更在相关领域内催生了新的商业模式和竞争格局。这项技术的革新对于推动社会
线上推广引流的方法_线上推广获客
∩^∩ ...小程序用户达160万人,2023年计划组织超40场线上线下营销推广活动相关营销能力也成为了拓展引流必不可少的手段。公司是否有相应的发展计划,来推动自身旅游业务发展?公司回答表示:公司积极拓宽线上营销后面会介绍。 住宿业平台
龙岩SEO网络营销,企业互联网腾飞的关键动力
龙岩SEO网络营销,作为企业互联网发展的新引擎,通过优化搜索引擎排名,提升企业品牌影响力,助力企业实现线上腾飞。随着互联网的飞速发展,网络营销已经成为企业提升品牌知名度、拓展市场份额的重要手段,龙岩作为福建省的一个地级市,拥
首次!文明大冶跻身百强榜!
喜荆楚网(湖北日报网)楚天舆情数据研究院制作的湖北区县微信排行榜2024年11月榜单出炉“文明大冶”微信公众号首次跻身全省TOP100榜排行榜规则说明1、聚集湖北省内主要党政机关政务微信公众号,根据WCI指数数据进行科学排行,主要从“整体
骗了人:深世智能APP是做任务刷单软件!被骗无法提现不了
深世智能APP是做任务刷单软件!被骗无法提现不了帮助出嘿葳《8224205》希望阅读此文的读者能够及时采取措施以减少损失;请及时与团队联系提供解决方案(文章下面图片有咨询方式)若想追回损失资产,务必仔细阅读以下内容。【GFRGRHFDHS】202
重磅揭秘“滴滴抢预约单神器软件”爆光开挂猫腻详情
滴滴抢预约单神器软件是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。抢单可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义抢单系统规律,只需要输入自己想要
相关文章
推荐文章
发表评论
0评