banner

블로그

Nov 10, 2023

경쟁 위험에 대한 통계 모델과 기계 학습 비교: 예측 모델의 개발 및 검증

BMC 의학 연구 방법론 23권, 기사 번호: 51(2023) 이 기사 인용

1353 액세스

9 알트메트릭

측정항목 세부정보

건강 연구에서 여러 만성 질환은 경쟁 위험(CR)에 취약합니다. 처음에는 CR이 있는 경우 사건의 누적 발생률을 추정하기 위해 통계 모델(SM)이 개발되었습니다. 최근 임상 예측을 위해 기계 학습(ML)을 적용하는 데 대한 관심이 증가함에 따라 이러한 기술은 모델 CR에도 확장되었지만 문헌은 제한적입니다. 여기서 우리의 목표는 복잡하지 않은 데이터(소/중간 표본 크기, 낮은 차원 설정) 내에서 CR에 대한 ML 대 SM의 잠재적인 역할을 조사하는 것입니다.

말단 연조직 육종(eSTS) 환자 3,826명을 후향적으로 수집한 데이터 세트와 9개의 예측 변수를 사용하여 차별 및 교정 측면에서 모델 예측 성능을 평가했습니다. 간단한 임상 환경에서 CR에 대해 두 가지 SM(원인별 Cox, Fine-Gray) 및 세 가지 ML 기술을 비교합니다. ML 모델에는 CR을 위한 원래의 부분 로지스틱 인공 신경망(PLANNCR 원본), 아키텍처 측면에서 새로운 사양을 갖춘 PLANNCR(PLANNCR 확장) 및 CR을 위한 무작위 생존 숲(RSFCR)이 포함됩니다. 임상적 종말점은 수술과 질병 진행(관심사례) 또는 사망(경쟁사례) 사이의 시간(년)입니다. 관심 시점은 2년, 5년, 10년입니다.

원본 eSTS 데이터를 기반으로 100개의 부트스트랩 훈련 데이터 세트가 그려집니다. 최종 모델의 성능은 Brier 점수와 CR이 포함된 AUC(Area Under the Curve)를 측정값으로 사용하여 검증 데이터(샘플 제외)에 대해 평가됩니다. 오보정(절대 정확도 오류)도 추정됩니다. 결과는 ML 모델이 Brier 점수와 AUC(95% 신뢰 구간이 중복됨)에 관해 2년, 5년, 10년에 SM에 비해 비슷한 성능에 도달할 수 있음을 보여줍니다. 그러나 SM은 종종 더 잘 보정됩니다.

전반적으로 ML 기술은 상당한 구현 시간(데이터 전처리, 초매개변수 조정, 계산 강도)이 필요하기 때문에 실용성이 떨어지는 반면, 회귀 방법은 모델 교육의 추가 워크로드 없이도 잘 수행될 수 있습니다. 따라서 복잡하지 않은 실제 생존 데이터의 경우 이러한 기술은 모델 성능에 대한 탐색 도구로서 SM에만 보완적으로 적용되어야 합니다. 모델 보정에 더 많은 관심이 시급히 필요합니다.

동료 검토 보고서

생존 분석(사건 발생 시간 분석이라고도 함)은 연구 중인 특정 집단의 수명을 추정하는 데 사용됩니다. 생존 데이터는 종종 검열됩니다. 관심 사건 또는 시간 제한(연구 종료)을 경험하기 전 추적 관찰 중단으로 인해 모든 환자에 대해 사건 발생 시간이 관찰되지 않았습니다. 경쟁 위험(CR)은 생존 데이터의 임상 적용에서 자주 발생합니다[1,2,3,4]. 이러한 유형의 데이터에서 개인은 여러 원인 중 하나로 인해 실패할 수 있습니다. CR은 관심 있는 사건의 발생을 배제하는 사건(예를 들어 사망으로 인해 질병 재발의 발생이 배제될 수 있음)을 의미합니다[5, 6]. 건강 연구에서 생물학은 사건들 사이에 적어도 어느 정도 의존성을 암시하므로 CR은 독립적일 가능성이 없습니다. 암, 만성 심부전, 치매 등 노화와 노쇠로 인한 여러 만성 질환에서 연구 대상 집단은 CR에 취약합니다[7].

올바른 검열된 사건 발생 시간 데이터가 있는 경우 생존을 추정하는 가장 널리 사용되는 비모수적 접근 방식은 Kaplan-Meier 방법론(KM)입니다[8]. 그러나 CR이 있는 경우 이 방법은 환자의 과잉 치료로 이어질 수 있는 실패 확률을 과대평가합니다[1, 5, 9]. 원인별 Cox 모델[10], Fine-Gray 하위 분포 위험 회귀 모델과 같은 CR이 있는 경우 이벤트의 누적 발생률(절대 위험)을 추정하기 위해 다양한 통계 모델(SM)이 개발되었습니다. 11]. 전자는 각 원인별 위험에 대해 Cox 모델이 적용되는 CR 설정에 대한 표준 비례 위험 Cox 모델을 자연스럽게 확장한 것입니다. 후자는 하위 분포 위험 비율에 대해 보고하는 시간 경과에 따른 누적 발생 함수(CIF)에 대한 공변량의 영향을 직접 모델링합니다[9].

A common approach in the literature is the partial logistic artificial neural network (PLANN) of Biganzoli et al. (1998) [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e784"18]. For the purpose of implementation, time is specified in discrete non-overlapping time intervals which are added as an input feature in a longitudinally transformed feed-forward network with logistic activation, and entropy error function. The output layer estimates smoothed discrete hazards for each time interval. PLANN was extended by Lisboa et al. (2003) under a Bayesian regularisation framework which performs automatic relevance determination (PLANN-ARD) [19]. Recently, Kantidakis et al. in 2020 proposed extensions of PLANN in terms of architecture i.e., new hyperparameters, new activation functions, and time interval specification as multiple input features [20]. Next to survival neural networks (SNNs), another well-known ML technique for clinical prediction of survival data is random survival forests (RSF, Ishwaran et al. 2008) [21]. RSF adapt Breiman's random forest method by using a collection of survival trees [22]./p>

In 2006, Biganzoli et al. extended the partial logistic artificial neural network to competing risks (PLANNCR) for the joint modelling of discrete cause-specific hazards [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e2646"18, 23]. PLANNCR is a feed-forward network comprised of a group of units called nodes (or neurons) in each layer. It has an input layer that picks up the signals and passes them to a single hidden layer after the application of an activation (also called transformation) function. An activation function modulates the degree of non-linearity transferred from the input features to the hidden layer. Connections between the artificial neurons of different layers are called edges - each having a weight. Weights are adjusted through training increasing or decreasing the strength of each connection [35]. Signals are transmitted towards the output layer, which provides a smoothed estimation of discrete conditional event probabilities (in multiple output nodes; each for an event), with another activation function./p>

This expression can be expanded based on Graaf et al. 1999 [3.0.CO;2-5 ." href="/articles/10.1186/s12874-023-01866-z#ref-CR41" id="ref-link-section-d54317150e5094"41] taking the following form/p>s \}\) the information at time s used to compute the prediction of \(\pi (s, t)\). The first term in (12) measures calibration - how close the predictions are to \(\mathbb{E} [\Delta (s, t) | H(s)]\), the "true" underlying risk of event in \((s, s+t]\) given H(s). In addition, the second term depends on the discrimination ability of H(s). Thus, Brier score is a measure of both calibration and discrimination. Typically, it ranges from 0 to 0.25 (lower values mean smaller prediction error)./p>

Biganzoli E, Boracchi P, Mariani L, Marubini E. Feed forward neural networks for the analysis of censored survival data: a partial logistic regression approach. Stat Med. 1998;17(10):1169–86. 3.0.CO;2-D"https://doi.org/10.1002/(SICI)1097-0258(19980530)17:10<1169::AID-SIM796>3.0.CO;2-D./p>

Graf E, Schmoor C, Sauerbrei W, Schumacher M. Assessment and comparison of prognostic classification schemes for survival data. Stat Med. 1999;18(17-18):2529–2545. http://www.ncbi.nlm.nih.gov/pubmed/10474158. 3.0.CO;2-5"https://doi.org/10.1002/(SICI)1097-0258(19990915/30)18:17/18<2529::AID-SIM274>3.0.CO;2-5./p>

공유하다