Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Случайный лес факторов риска как прогностический инструмент неблагоприятных событий в клинической медицине
Компьютерные исследования и моделирование, 2025, т. 17, № 5, с. 987-1004Целью исследования являются разработка ансамблевого метода машинного обучения, обеспечивающего построение интерпретируемых прогностических моделей, и его апробация на примере прогнозирования внутригоспитальной летальности (ВГЛ) у больных инфарктом миокарда с подъемом сегмента ST (ИМпST).
Проведено ретроспективное когортное исследование по данным 5446 электронных историй болезни пациентов с ИМпST, которым выполнялось чрескожное коронарное вмешательство (ЧКВ). Было выделено две группы лиц, первую изк оторых составили 335 (6,2%) больных, умерших в стационаре, вторую — 5111 (93,8%) — с благоприятным исходом лечения. Пул потенциальных предикторов был сформирован с помощью методов математической статистики. С помощью методов мультиметрической категоризации (минимизация p-value, максимизация площади под ROC-кривой-AUC и результаты анализа shap-value), деревьев решений и многофакторной логистической регрессии (МЛР) предикторы были преобразованы в факторы риска ВГЛ. Для разработки прогностических моделей ВГЛ использовали МЛР, случайный лес факторов риска (СЛФР), стохастический градиентный бустинг (XGboost), случай- ный лес, методы Adaptive boosting, Gradient Boosting, Light Gradient-Boosting Machine, Categorical Boosting (CatBoost), Explainable Boosting Machine и Stacking.
Авторами разработан метод СЛФР, который обобщает результаты прогноза модифицированных деревьев решений, выделяет факторы риска и ранжирует их по интенсивности влияния на вероятность развития неблагоприятного события. СЛФР позволяет разрабатывать модели с высоким прогностическим потенциалом (AUC = 0,908), сопоста- вимым с моделями CatBoost и Stacking (AUC: 0,904 и 0,908 соответственно). Метод СЛФР может рассматриваться в качестве важного инструмента для клинического обоснования результатов прогноза и стать основой для разработки высокоточных интерпретируемых моделей.
Ключевые слова: ансамблевые методы машинного обучения, факторы риска, категоризация непрерывных переменных, аддитивное объяснение Шепли, интерпретируемые модели машинного обучения.
Random forest of risk factors as a predictive tool for adverse events in clinical medicine
Computer Research and Modeling, 2025, v. 17, no. 5, pp. 987-1004The aim of study was to develop an ensemble machine learning method for constructing interpretable predictive models and to validate it using the example of predicting in-hospital mortality (IHM) in patients with ST-segment elevation myocardial infarction (STEMI).
A retrospective cohort study was conducted using data from 5446 electronic medical records of STEMI patients who underwent percutaneous coronary intervention (PCI). Patients were divided into two groups: 335 (6.2%) patients who died during hospitalization and 5111 (93.8%) patients with a favourable in-hospital outcome. A pool of potential predictors was formed using statistical methods. Through multimetric categorization (minimizing p-values, maximizing the area under the ROC curve (AUC), and SHAP value analysis), decision trees, and multivariable logistic regression (MLR), predictors were transformed into risk factors for IHM. Predictive models for IHM were developed using MLR, Random Forest Risk Factors (RandFRF), Stochastic Gradient Boosting (XGboost), Random Forest (RF), Adaptive boosting, Gradient Boosting, Light Gradient-Boosting Machine, Categorical Boosting (CatBoost), Explainable Boosting Machine and Stacking methods.
Authors developed the RandFRF method, which integrates the predictive outcomes of modified decision trees, identifies risk factors and ranks them based on their contribution to the risk of adverse outcomes. RandFRF enables the development of predictive models with high discriminative performance (AUC 0.908), comparable to models based on CatBoost and Stacking (AUC 0.904 and 0.908, respectively). In turn, risk factors provide clinicians with information on the patient’s risk group classification and the extent of their impact on the probability of IHM. The risk factors identified by RandFRF can serve not only as rationale for the prediction results but also as a basis for developing more accurate models.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"





