网站首页 > 基础教程正文

R数据分析:Lasso回归筛选变量构建Cox模型并绘制列线图

ccvgpt 2024-10-12 15:00:51 基础教程 9 ℃

01 研究背景

本章是基于Lasso回归筛选变量后，构建Cox回归临床预测模型，并绘制Nomogram图。Cox模型是一种半参数模型，该模型以生存结局和生存时间为因变量，分析多个因素对生存期的影响，常用RR来量化这种结果，绘制Nomogram列线图实现个体预测。

02 案例研究

本文数据收集了83例癌症患者的生存资料，包含患者年龄、性别、癌症分期等。研究目的探讨癌症患者生存情况的影响因素并构建预测模型。临床研究一般有提供多个危险因素，首先做单因素的筛选。本文采用Lasso回归筛选因素。

具体分析步骤是①筛选变量②基于这些变量构建模型③绘制Nomogram图，预测不同时间生存概率。③计算模型c_index(区分度)该步骤用神包rms一步实现。接下来直接上代码。

03 R代码及解读

##加载包 明确每个包的作用
library(glmnet) ##Lasso回归
library(rms)  ## 画列线图；
library(VIM) ## 包中aggr()函数，判断数据缺失情况
library(survival) ##  生存分析包
#读取数据集
dt <-read.csv("cancer.csv")

str(dt)  ##查看每个变量结构
 aggr(dt,prop=T,numbers=T) #判断数据缺失情况，红色表示有缺失。
 dt <- na.omit(dt) 按行删除缺失值

由图片可看到所有变量都为蓝色，没有缺失值。如果用na.omit()函数按照行删除。

第一步，也是很重要的一步，数据整理。

#用for循环语句将数值型变量转为因子变量
for(i in names(dt)[c(4:9)]) {dt[,i] <- as.factor(dt[,i])}
##筛选变量前，首先将自变量数据（因子变量）转变成矩阵（matrix）
## Lasso要求的数据类型
x.factors <- modtel.matrix(~ dt$sex+dt$trt+dt$bui+dt$ch+dt$p+dt$stage,dt)[,-1]
#将矩阵的因子变量与其它定量边量合并成数据框，定义了自变量。
x <- as.matrix(dtata.frame(x.factors,dt[,3]))
#设置应变量，打包生存时间和生存状态（生存数据）
y <- data.matrix(Surv(dt$time,dt$censor))

第二步：Lasso回归筛选变量

#调用glmnet包中的glmnet函数，注意family那里一定要制定是“cox”，如果是做logistic需要换成"binomial"。
fit <-glmnet(x,y,family = "cox",alpha = 1)
plot(fit,label=T)
plot(fit,xvar="lambda",label=T)
#主要在做交叉验证,lasso
fitcv <- cv.glmnet(x,y,family="cox", alpha=1,nfolds=10)
plot(fitcv)
coef(fitcv, s="lambda.min")
##
#9 x 1 sparse Matrix of class "dgCMatrix"                1
##d.sex1    .       
##d.trt1    .       
##d.bui1    .       
##d.ch2     .       
##d.ch3     .       
##d.ch4    -0.330676
##d.p1      .       
##d.stage4  .       
##d...3.    .

该图在之前文章提到，见如何进行高维变量筛选和特征选择(一)？Lasso回归，由上述代码以及图片完成变量筛选，这里只做演示，假设所有的变量都入选了，我们用这些入选的变量构建Cox回归模型。

第三步：构建Cox模型，并检验等比例风险

#拟合cox回归
coxm <- cph(Surv(time,censor==1)~age+sex+trt+bui+ch+p+stage,x=T,y=T,data=dt,surv=T) 
cox.zph(coxm)#等比例风险假定
##       chisq df     p
##age    1.993  1 0.158
##sex    0.363  1 0.547
##trt    3.735  1 0.053
##bui    2.587  1 0.108
##ch     0.296  1 0.587
##p      0.307  1 0.579
##stage  0.395  1 0.530
##GLOBAL 9.802  7 0.200

注意chp()函数的写法，其中因变量需要用Surv()先打包。后面写法同LR。
等比例风险检验：最后面的GLOBAL是整体看，P值大于0.05，全模型整体都是满足的。对于每一个分类来说P值大于0.05，也是满足的。

第四步：绘制nomogram图，注意该函数里面的参数设置。

###开始cox nomo graph
surv <- Survival(coxm) # 建立生存函数

surv1 <- function(x)surv(1*3,lp=x) # 定义time.inc,3月OS
surv2 <- function(x)surv(1*6,lp=x) # 定义time.inc,6月OS
surv3 <- function(x)surv(1*12,lp=x) # 定义time.inc,1年OS

dd<-datadist(dt) #设置工作环境变量，将数据整合
options(datadist='dd') #设置工作环境变量，将数据整合

plot(nomogram(coxm,
              fun=list(surv1,surv2,surv3),
              lp= F,
              funlabel=c('3-Month Survival','6-Month survival','12-Month survival'),
              maxscale=100,
              fun.at=c('0.9','0.85','0.80','0.70','0.6','0.5','0.4','0.3','0.2','0.1')),
     xfrac=.45)
#maxscale 参数指定最高分数，一般设置为100或者10分
#fun.at 设置生存率的刻度
#xfrac 设置数值轴与最左边标签的距离，可以调节下数值观察下图片变化情况
plot(nomogram)

该图的使用，本质上是将Cox回归模型可视化展示，方便临床快速判断。假设有个病人性别为女，trt为0，P期为1，Nomogram用法是在sex变量上找到其值为1的刻度，然后画垂线投影到最上方的points刻度尺上，找到对应的分值为75分，同理找到trt为0的分值约为50分，P为1的对应分值为100，将这三个因素的points值加起来总分225。下一步在下面的Total Points刻度尺上找到225分，向下方的3个轴做垂线，6-Month-survival对应的值在0.6和0.7之间，约为0.65，说明该患者6个月的生存概率值为65%，其他以此类推。

第三步：利用rms包计算模型区分度。

##模型验证
#Concordance index
f<-coxph(Surv(time,censor==1)~age+sex+trt+bui+ch+p+stage,data=d)
sum.surv<-summary(f)
c_index<-sum.surv$concordance
c_index  ##
##C      se(C) 
##0.55396619 0.07664425

该模型的区分度C-index为0.554，其本质同ROC曲线面积。结果显示，该模型的区分度一般。根据前面变量筛选，考虑纳入更多的影响因素和样本。

本文转载自易学统计，请支持原创。

小结

感谢大家耐心看完，自己的文章都写的很细，代码都在原文中，希望大家都可以自己做一做，请关注后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏，再点赞转发。

也欢迎大家的意见和建议。

如果你是一个大学本科生或研究生，如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁，如果你在使用SPSS,R，Python，Mplus, Excel中遇到任何问题，都可以联系我。因为我可以给您提供最好的，最详细和耐心的数据分析服务。

如果你对Z检验，t检验，方差分析，多元方差分析，回归，卡方检验，相关，多水平模型，结构方程模型，中介调节，量表信效度等等统计技巧有任何问题，请私信我，获取最详细和耐心的指导。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧，打工人！

往期内容：

R数据分析：列线图的做法及解释

R数据分析：手把手教你画列线图(Nomogram)及解读结果

用Python画一个带有误差线的条形图：附完整代码

R数据分析：双连续变量交互作用的简单斜率图作图及解释

R语言作图：分类变量与连续变量关系的图形化表达

上一篇： R语言实战—自学笔记—向量 r语言中的向量
下一篇：一篇文章搞懂R语言回归 r语言回归模型

网站首页 > 基础教程 正文

R数据分析:Lasso回归筛选变量构建Cox模型并绘制列线图

猜你喜欢

网站首页 > 基础教程正文