The Methods of Multivariate Statistical Analysis
生存分析
Survival Analysis
第十章
主要内容
什么是生存分析? 生存分析的基本概念 生存分析的基本方法 非参数分析方法 Cox比例风险回归分析方法 生存分析的注意事项
数据的收集方式:横断面数据(cross-sectional data)在同一个时间点上收集的数据;纵断面数据(longitudinal data)在连续的若干个时间点上收集的数据.随防数据:50个人的术后存活时间 — 时间序列数据:近20年每年的肺癌死亡率
在医学研究中,常常用追踪(follow up)的 方式来研究事物发展的规律.例如: 了解某xx的疗效 了解手术后的存活时间 了解某医疗仪器设备的使用寿命 这种研究的特点是追踪研究的现象都要经过一段时间,统计学上将这段时间称为生存时间.
生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法.
一、什么是生存分析?
二、生存分析的基本概念
生存时间生存时间数据的类型生存时间数据的特点生存分析资料的收集方法描述生存时间分布规律的函数生存分析的主要研究内容
A) 生存时间 (survival time): 从某起始事件起到某终止事件止所经历的时间跨度称为生存时间.例如,在临床研究中,急性白血病患者从骨髓移植xx开始到复发为止之间的时间间隔.冠心病患者在两次发作之间的时间间隔.在流行病学研究中,从开始接触某危险因素到发病所经历的时间.在动物实验研究中,从开始给药到发生死亡所经历的时间.
B) 生存时间数据的类型xx数据(complete data):它准确地度量了观察对象实际生存的时间.截尾数据(censored data):它没有准确地度量观察对象实际生存的时间.例如,在随访过程中某些观察对象失访;或死于其它原因;或在规定的研究过程结束时观察对象的终止事件还未发生.
C) 生存时间数据的特点: 1)所有观察值取值非负 2)存在截尾数据生存分析资料的收集方法:1)确定随访内容(指标变量)2)确定随访人数(样本数)3)确定随访的起始和终止时间同时开始,同时结束不同时间开始,同时结束不同时间开始,不同时间结束
E) 描述生存时间分布规律的函数:1、生存函数 2、 死亡函数 3、 死亡密度函数 4、 风险函数
生存函数S(t):观察对象的生存时间T大于某时刻 t 的概率称为生存函数(survival function).S(t)满足条件:S(0)=1, S(∞)=0,且0≤S(t)≤1.
死亡函数F(t):观察对象的生存时间T不大于某时刻 t 的概率称为死亡函数(failure function).F(t)满足条件:F(0)=0, F(∞)=1,且0≤F(t)≤1.
死亡密度函数f(t):观察对象在某时刻t 的瞬时死亡率称为死亡密度函数(failure density function).
风险函数h(t):生存到时刻 t 的观察对象在时刻t 的瞬时死亡率称为风险函数(hazard function).
F) 生存分析的主要研究内容:1、描述生存过程2、比较生存过程3、分析危险因素4、建立数学模型
1、描述法2、非参数分析法3、参数分析法4、半参数分析法
三、生存分析的基本方法
1、描述法:根据样本观察值提供的信息,直接用公式计算出每一时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式来显示生存时间的分布规律.优点:方法简单,且对数据的分布无要求.缺点:1) 不能比较两组或多组生存时间分布函数的区别;2) 不能分析危险因素对生存时间的影响;3) 不能建立生存时间与危险因素之间的关系模型.
例1、某研究者收集了两组急性淋巴细胞性白血病患者xx后的随访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组(NLA)25人.生存时间T (月)的数据如下. 协变量为淋巴结状态(SLN),负数代表截尾数据.LA组: 1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23, 26,28,31,37,66,73,-124
Standard Number Number T Survival Failure Error Failed Left 0.000 1.0000 0 0 0 18 1.000 0.9444 0.0556 0.0540 1 17 2.000 0.8889 0.1111 0.0741 2 16 3.000 0.8333 0.1667 0.0878 3 15 4.000 0.7778 0.2222 0.0980 4 14 5.000 0.7222 0.2778 0.1056 5 13 7.000 0.6667 0.3333 0.1111 6 12 8.000 0.6111 0.3889 0.1149 7 11 9.000 0.5556 0.4444 0.1171 8 10 10.000 0.5000 0.5000 0.1179 9 9 11.000 0.4444 0.5556 0.1171 10 8 13.000 0.3889 0.6111 0.1149 11 7 14.000 0.3333 0.6667 0.1111 12 6 15.000 0.2778 0.7222 0.1056 13 5 18.000 0.2222 0.7778 0.0980 14 4 19.000*14 3 20.000*14 2 21.000*14 1 23.000 0 1.0000 0 15 0
LA组生存时间分布规律
Standard Number Number T Survival Failure Error Failed Left 0.000 1.0000 0 0 0 25 1.000 0.9600 0.0400 0.0392 1 24 2.000 0.9200 0.0800 0.0543 2 23 3.000 0.8800 0.1200 0.0650 3 22 4.000 0.8400 0.1600 0.0733 4 21 5.000 0.8000 0.2000 0.0800 5 20 7.000 0.7600 0.2400 0.0854 6 19 8.000 0.7200 0.2800 0.0898 7 18 9.000 0.6800 0.3200 0.0933 8 17 10.000 0.6400 0.3600 0.0960 9 16 11.000 0.6000 0.4000 0.0980 10 15 13.000 0.5600 0.4400 0.0993 11 14
NLA组生存时间分布规律
Standard Number Number T Survival Failure Error Failed Left 14.000 0.5200 0.4800 0.0999 12 13 15.000 0.4800 0.5200 0.0999 13 12 18.000 0.4400 0.5600 0.0993 14 11 19.000 0.4000 0.6000 0.0980 15 10 20.000*15 9 21.000 0.3556 0.6444 0.0966 16 8 23.000 0.3111 0.6889 0.0942 17 7 26.000 0.2667 0.7333 0.0906 18 6 28.000 0.2222 0.7778 0.0857 19 5 31.000 0.1778 0.8222 0.0793 20 4 37.000 0.1333 0.8667 0.0708 21 3 66.000 0.0889 0.9111 0.0596 22 2 73.000 0.0444 0.9556 0.0433 23 1 124.000*23 0
NLA组生存时间分布规律(续)
Survival Function Estimates 1.0 SDF | **N | L*N | L*NN 0.5 LLNNN LL NNNN LLL NNN L–L N-N–N N-N—N 0.0 L N 0 10 20 30 40 50 60 70 80 90 100 Time
无淋巴结浸润患者(N)比有淋巴结浸润患者(L)的平均生存时间长.
两组急性淋巴细胞性白血病患者xx后的生存时间比较
2、非参数法:估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法.例如,乘积极限法和寿命表法.优点: 1) 可以估计生存函数; 2) 可以比较两组或多组生存布函数; 3) 可以分析危险因素对生存时间的影响; 4) 对生存时间的分布没有要求.缺点:不能建立生存时间与危险因素之间依存关系的数学模型.
两种非参数生存分析方法
乘积极限法(PL法):适用于离散数据,它用于建立时刻 t 上的生存函数.PL法是根据 t 时刻及其之前各时间点上的条件生存率的乘积来估计时刻 t 的生存函数S(t)和它的标准误SE(S(t)).
累积生存率:
标准误:
例如:P260, 表18.1
寿命表法(LT)法:LT法适用于区间数据,它用于建立时间区间 [t, t +Δt)上的生存函数.LT法是根据时间区间[t, t +Δt)左端点的生存率及其之前各区间左端点生存率之积来估计区间[t, t +Δt)的生存函数S(t)和它的标准误SE(S(t)).
累积生存率:
标准误:
例如:P263, 表18.3
例1、某研究者收集了两组急性淋巴细胞性白血病患者xx后的随访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组(NLA)25人,数据如下.设因变量T为生存时间(月),协变量为淋巴结状态(SLN),截尾指标用censor表示,负数代表截尾数据.试用非参数的PL法进行生存分析,检验患者有无淋巴结浸润对其生存时间长短的影响.LA组: 1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23, 26,28,31,37,66,73,-124
【SAS程序】data d1; input sln $ n; do i=1 to n; input t @@; if t<0 then censor=0; else censor=1; t=abs(t); output; end; cards; LA 18 1 2 3 4 5 7 8 9 10 11 13 14 15 18 -19 -20 -21 23 NLA 25 1 2 3 4 5 7 8 9 10 11 13 14 15 18 19 -20 21 23 26 28 31 37 66 73 -124run;proc lifetest plots=(s, ls, lls) method=pl ; time t*censor(0); strata sln;run;
The LIFETEST ProcedureProduct-Limit Survival Estimates SLN = LA Survival Standard Number Number T Survival Failure Error Failed Left 0.000 1.0000 0 0 0 18 1.000 0.9444 0.0556 0.0540 1 17 2.000 0.8889 0.1111 0.0741 2 16 3.000 0.8333 0.1667 0.0878 3 15 4.000 0.7778 0.2222 0.0980 4 14 5.000 0.7222 0.2778 0.1056 5 13 7.000 0.6667 0.3333 0.1111 6 12 8.000 0.6111 0.3889 0.1149 7 11 9.000 0.5556 0.4444 0.1171 8 10 10.000 0.5000 0.5000 0.1179 9 9 11.000 0.4444 0.5556 0.1171 10 8 13.000 0.3889 0.6111 0.1149 11 7 14.000 0.3333 0.6667 0.1111 12 6 15.000 0.2778 0.7222 0.1056 13 5 18.000 0.2222 0.7778 0.0980 14 4 19.000*14 3 20.000*14 2 21.000*14 1 23.000 0 1.0000 0 15 0
Survival Function Estimates 1.0 SDF | **N | L*N | L*NN 0.5 LLNNN LL NNNN LLL NNN L–L N-N–N N-N—N 0.0 L N 0 10 20 30 40 50 60 70 80 90 100 Time
无淋巴结浸润患者(N)比有淋巴结浸润患者(L)的平均生存时间长.
两组急性淋巴细胞性白血病患者xx后的随访资料
Test of Equality over Strata Pr >Test Chi-Square DF Chi-SquareLog-Rank 2.2036 1 0.1377Wilcoxon 1.5598 1 0.2117-2Log(LR) 3.4627 1 0.0628
生存曲线的比较:
H0:k个组的生存函数曲线一致H1:至少两组生存函数曲线不一致.
结论:两组患者的生存时间没有显著性差异.
例2、医学研究人员用烷烃化剂对65名多骨髓瘤患者进行xx,48名患者在研究过程中死亡,17名仍存活.在数据集eg10_2中,变量T表示从诊断开始所生存的月数;status由0和1两个值组成,分别表示患者在研究结束时的存活情况,若status=0,则表示相应的T是截尾数据.与生存有关的变量有:x1(诊断时的log(bun)值)、x2(诊断时的血红蛋白含量)、x3(诊断时的血小板含量:0=不正常,1=正常)、x4(诊断时的年龄,年)、x5(诊断时的log(WBC)值)、x6(诊断时是否骨折,0=否,1=是)、x7(log(骨髓中原生质细胞的含量))、x8(诊断时的尿蛋白含量)、x9(诊断时的血清钙含量).试用非参数的LT法进行生存分析,并从这9个说明变量中找出重要的危险因素变量.因为数据多此处数据表省略.
【SAS程序】 data eg10_2;input t status x1-x9;cards;1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 10……77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12run;proc lifetest plots( s, ls, lls) method=lt width=12; time t*status(0); test x1-x9;run;
The LIFETEST ProcedureLife Table Survival Estimates Conditional Effective Conditional Probability Interval Number Number Sample Probability Standard [Lower, Upper) Failed Censored Size of Failure Error 0 12 21 6 62.0 0.3387 0.0601 12 24 10 6 35.0 0.2857 0.0764 24 36 5 1 21.5 0.2326 0.0911 36 48 3 1 15.5 0.1935 0.1004 48 60 4 2 11.0 0.3636 0.1450 60 72 2 0 6.0 0.3333 0.1925 72 84 0 1 3.5 0 0 84 . 3 0 3.0 1.0000 0
Forward Stepwise Sequence of Chi-Squares for the LOG RANK Test Pr > Chi-Square Pr >Variable DF Chi-Square Chi-Square Increment IncrementX1 1 8.5164 0.0035 8.5164 0.0035X2 2 12.7252 0.0017 4.2089 0.0402X9 3 15.3053 0.0016 2.5801 0.1082X4 4 16.9873 0.0019 1.6820 0.1947X6 5 17.6291 0.0034 0.6417 0.4231X7 6 17.9120 0.0065 0.2830 0.5948X3 7 18.1517 0.0113 0.2397 0.6244X5 8 18.3925 0.0185 0.2408 0.6236X8 9 18.4550 0.0302 0.0625 0.8025
危险因素
参数法:根据样本观察值来估计假定的分布模型中的参数,获得生存时间的概率分布模型.生存时间经常服从的基线分布有指数分布、Weibull分布、对数正态分布、对数Logistic分布和Gamma分布.优点:1) 可以估计生存函数;2) 可以比较两组或多组生存布函数;3) 可以分析危险因素对生存时间的影响;4) 可以建立生存时间与危险因素之间依存关系的模型.缺点:需要事先知道生存时间的分布.
(1)指数分布:S(t)= exp(-λt) (2)Weibull分布:S(t)= exp(-λtγ ) (3)对数正态分布:
半参数法:不需要对生存时间的分布作出假定,但却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响. 例如:Cox比例风险回归模型.优点:1) 可以估计生存函数;2) 可以比较两组或多组生存布函数;3) 可以分析危险因素对生存时间的影响;4) 可以建立生存时间与危险因素之间依存关系模型.5) 不需要事先知道生存时间的分布.