Текущий выпуск Номер 5, 2025 Том 17

Все выпуски

Результаты поиска по 'gradient boosting':
Найдено статей: 4
  1. Gaber M.I., Nechaevskiy A.V.
    Development of advanced intrusion detection approach using machine and ensemble learning for industrial internet of things networks
    Компьютерные исследования и моделирование, 2025, т. 17, № 5, с. 799-827

    The Industrial Internet of Things (IIoT) networks plays a significant role in enhancing industrial automation systems by connecting industrial devices for real time data monitoring and predictive maintenance. However, this connectivity introduces new vulnerabilities which demand the development of advanced intrusion detection systems. The nuclear facilities are considered one of the closest examples of critical infrastructures that suffer from high vulnerability through the connectivity of IIoT networks. This paper develops a robust intrusion detection approach using machine and ensemble learning algorithms specifically determined for IIoT networks. This approach can achieve optimal performance with low time complexity suitable for real-time IIoT networks. For each algorithm, Grid Search is determined to fine-tune the hyperparameters for optimizing the performance while ensuring time computational efficiency. The proposed approach is investigated on recent IIoT intrusion detection datasets, WUSTL-IIOT-2021 and Edge-IIoT-2022 to cover a wider range of attacks with high precision and minimum false alarms. The study provides the effectiveness of ten machine and ensemble learning models on selected features of the datasets. Synthetic Minority Over-sampling Technique (SMOTE)-based multi-class balancing is used to manipulate dataset imbalances. The ensemble voting classifier is used to combine the best models with the best hyperparameters for raising their advantages to improve the performance with the least time complexity. The machine and ensemble learning algorithms are evaluated based on accuracy, precision, recall, F1 Score, and time complexity. This evaluation can discriminate the most suitable candidates for further optimization. The proposed approach is called the XCL approach that is based on Extreme Gradient Boosting (XGBoost), CatBoost (Categorical Boosting), and Light Gradient- Boosting Machine (LightGBM). It achieves high accuracy, lower false positive rate, and efficient time complexity. The results refer to the importance of ensemble strategies, algorithm selection, and hyperparameter optimization in enhancing the performance to detect the different intrusions across the IIoT datasets over the other models. The developed approach produced a higher accuracy of 99.99% on the WUSTL-IIOT-2021 dataset and 100% on the Edge-IIoTset dataset. Our experimental evaluations have been extended to the CIC-IDS-2017 dataset. These additional evaluations not only highlight the applicability of the XCL approach on a wide spectrum of intrusion detection scenarios but also confirm its scalability and effectiveness in real-world complex network environments.

    Gaber M.I., Nechaevskiy A.V.
    Development of advanced intrusion detection approach using machine and ensemble learning for industrial internet of things networks
    Computer Research and Modeling, 2025, v. 17, no. 5, pp. 799-827

    The Industrial Internet of Things (IIoT) networks plays a significant role in enhancing industrial automation systems by connecting industrial devices for real time data monitoring and predictive maintenance. However, this connectivity introduces new vulnerabilities which demand the development of advanced intrusion detection systems. The nuclear facilities are considered one of the closest examples of critical infrastructures that suffer from high vulnerability through the connectivity of IIoT networks. This paper develops a robust intrusion detection approach using machine and ensemble learning algorithms specifically determined for IIoT networks. This approach can achieve optimal performance with low time complexity suitable for real-time IIoT networks. For each algorithm, Grid Search is determined to fine-tune the hyperparameters for optimizing the performance while ensuring time computational efficiency. The proposed approach is investigated on recent IIoT intrusion detection datasets, WUSTL-IIOT-2021 and Edge-IIoT-2022 to cover a wider range of attacks with high precision and minimum false alarms. The study provides the effectiveness of ten machine and ensemble learning models on selected features of the datasets. Synthetic Minority Over-sampling Technique (SMOTE)-based multi-class balancing is used to manipulate dataset imbalances. The ensemble voting classifier is used to combine the best models with the best hyperparameters for raising their advantages to improve the performance with the least time complexity. The machine and ensemble learning algorithms are evaluated based on accuracy, precision, recall, F1 Score, and time complexity. This evaluation can discriminate the most suitable candidates for further optimization. The proposed approach is called the XCL approach that is based on Extreme Gradient Boosting (XGBoost), CatBoost (Categorical Boosting), and Light Gradient- Boosting Machine (LightGBM). It achieves high accuracy, lower false positive rate, and efficient time complexity. The results refer to the importance of ensemble strategies, algorithm selection, and hyperparameter optimization in enhancing the performance to detect the different intrusions across the IIoT datasets over the other models. The developed approach produced a higher accuracy of 99.99% on the WUSTL-IIOT-2021 dataset and 100% on the Edge-IIoTset dataset. Our experimental evaluations have been extended to the CIC-IDS-2017 dataset. These additional evaluations not only highlight the applicability of the XCL approach on a wide spectrum of intrusion detection scenarios but also confirm its scalability and effectiveness in real-world complex network environments.

  2. Тиньков О.В., Полищук П.Г., Хачатрян Д.С., Колотаев А.В., Балаев А.Н., Осипов В.Н., Григорьев В.Ю.
    Количественный анализ «структура – противоопухолевая активность» и рациональный молекулярный дизайн бифункциональных VEGFR-2/HDAC-ингибиторов
    Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 911-930

    Ингибиторы гистондеацетилаз (HDACi) рассматриваются в качестве перспективного класса препаратов для лечения рака из-за их влияния на рост клеток, дифференцировку и апоптоз. Ангиогенез играет важную роль в росте солидных опухолей и развитии метастазов. Фактор роста эндотелия сосудов (VEGF) является ключевым ангиогенным агентом, который секретируется злокачественными опухолями, что индуцирует пролиферацию и миграцию эндотелиальных клеток сосудов. В настоящее время наиболее перспективной стратегией в борьбе с онкологическими заболеваниями является создание гибридных лекарств, одновременно действующих на несколько физиологических мишеней. Значительный интерес с точки зрения создания бифункциональных противоопухолевых средств представляют соединения, содержащие одновременно N-фенил-4-аминохиназолин и гидроксамовую кислоту, так как данные фрагменты по отдельности присутствуют в уже успешно применяемых противоопухолевых лекарственных средствах. В этой связи в ходе литературного анализа была сформирована выборка из 42 соединений, содержащих указанные молекулярные фрагменты и обладающих экспериментальными данными по ингибированию HDAC, VEGFR-2 и росту клеток рака легкого человека MCF-7. С использованием симплексных дескрипторов и метода опорных векторов (Support Vector Machine, SVM) для указанной выборки, предварительно разделенной на обучающий и тестовый наборы, были построены удовлетворительные (R2test = 0.64–0.87) модели количественной связи «структура–активность» (Quantitative Structure- Activity Relationship, QSAR). Для полученных QSAR-моделей была проведена структурная интерпретация. Было оценено согласованное влияние различных молекулярных фрагментов на увеличение противоопухолевой активности исследуемых соединений. Среди заместителей N-фенильного фрагмента можно выделить положительный вклад брома в пара-положении для всех трех видов активности. По результатам интерпретации был проведен рациональный молекулярный дизайн и предложены перспективные соединения. Для сравнительного QSAR-исследования использованы физико-химические дескрипторы, рассчитываемые программой HYBOT, метод случайного леса (Random Forest, RF), а также онлайн-версия экспертной системы OCHEM (https://ochem.eu). При моделировании OCHEM были выбраны PyDescriptor-дескрипторы и метод экстремального градиентного бустинга. Кроме того, полученные с помощью экспертной системы OCHEM модели были использованы для виртуального скрининга 300 соединений с целью отбора перспективных VEGFR-2/HDAC-ингибиторов для последующего синтеза и испытаний.

    Tinkov O.V., Polishchuk P.G., Khachatryan D.S., Kolotaev A.V., Balaev A.N., Osipov V.N., Grigorev B.Y.
    Quantitative analysis of “structure – anticancer activity” and rational molecular design of bi-functional VEGFR-2/HDAC-inhibitors
    Computer Research and Modeling, 2019, v. 11, no. 5, pp. 911-930

    Inhibitors of histone deacetylases (HDACi) have considered as a promising class of drugs for the treatment of cancers because of their effects on cell growth, differentiation, and apoptosis. Angiogenesis play an important role in the growth of most solid tumors and the progression of metastasis. The vascular endothelial growth factor (VEGF) is a key angiogenic agent, which is secreted by malignant tumors, which induces the proliferation and the migration of vascular endothelial cells. Currently, the most promising strategy in the fight against cancer is the creation of hybrid drugs that simultaneously act on several physiological targets. In this work, a series of hybrids bearing N-phenylquinazolin-4-amine and hydroxamic acid moieties were studied as dual VEGFR-2/HDAC inhibitors using simplex representation of the molecular structure and Support Vector Machine (SVM). The total sample of 42 compounds was divided into training and test sets. Five-fold cross-validation (5-fold) was used for internal validation. Satisfactory quantitative structure—activity relationship (QSAR) models were constructed (R2test = 0.64–0.87) for inhibitors of HDAC, VEGFR-2 and human breast cancer cell line MCF-7. The interpretation of the obtained QSAR models was carried out. The coordinated effect of different molecular fragments on the increase of antitumor activity of the studied compounds was estimated. Among the substituents of the N-phenyl fragment, the positive contribution of para bromine for all three types of activity can be distinguished. The results of the interpretation were used for molecular design of potential dual VEGFR-2/HDAC inhibitors. For comparative QSAR research we used physicochemical descriptors calculated by the program HYBOT, the method of Random Forest (RF), and on-line version of the expert system OCHEM (https://ochem.eu). In the modeling of OCHEM PyDescriptor descriptors and extreme gradient boosting was chosen. In addition, the models obtained with the help of the expert system OCHEM were used for virtual screening of 300 compounds to select promising VEGFR-2/HDAC inhibitors for further synthesis and testing.

  3. Козырь П.С., Савельев А.И.
    Анализ эффективности методов машинного обучения в задаче распознавания жестов на основе данных электромиографических сигналов
    Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 175-194

    При разработке систем человеко-машинных интерфейсов актуальной является задача распознавания жестов. Для выявления наиболее эффективного метода распознавания жестов был проведен анализ различных методов машинного обучения, используемых для классификации движений на основе электромиографических сигналов мышц. Были рассмотрены такие методы, как наивный байесовский классификатор (НБК), дерево решений, случайный лес, градиентный бустинг, метод опорных векторов, метод $k$-ближайших соседей, а также ансамбли методов (НБК и дерево решений, НБК и градиентный бустинг, градиентный бустинг и дерево решений). В качестве метода получения информации о жестах была выбрана электромиография. Такое решение не требует расположения руки в поле зрения камеры и может быть использовано для распознавания движений пальцев рук. Для проверки эффективности выбранных методов распознавания жестов было разработано устройство регистрации электромиографического сигнала мышц предплечья, которое включает в себя три электрода и ЭМГ-датчик, соединенный с микрокон- троллером и блоком питания. В качестве жестов были выбраны: сжатие кулака, знак «большой палец», знак «Виктория», сжатие указательного пальца и взмах рукой справа налево. Оценка эффективности методов классификации проводилась на основе значений доли правильных ответов, точности, полноты, а также среднего значения времени работы классификатора. Данные параметры были рассчитаны для трех вариантов расположения электромиографических электродов на предплечье. По результатам тести- рования, наиболее эффективными методами являются метод $k$-ближайших соседей, случайный лес и ансамбль НБК и градиентного бустинга, средняя точность которого для трех положений электродов составила 81,55 %. Также было определено положение электродов, при котором методы машинного обучения достигают максимального значения точности распознавания. При таком положении один из дифференциальных электродов располагается на месте пересечения глубокого сгибателя пальцев и длинного сгибателя большого пальца, второй — над поверхностным сгибателем пальцев

    Gesture recognition is an urgent challenge in developing systems of human-machine interfaces. We analyzed machine learning methods for gesture classification based on electromyographic muscle signals to identify the most effective one. Methods such as the naive Bayesian classifier (NBC), logistic regression, decision tree, random forest, gradient boosting, support vector machine (SVM), $k$-nearest neighbor algorithm, and ensembles (NBC and decision tree, NBC and gradient boosting, gradient boosting and decision tree) were considered. Electromyography (EMG) was chosen as a method of obtaining information about gestures. This solution does not require the location of the hand in the field of view of the camera and can be used to recognize finger movements. To test the effectiveness of the selected methods of gesture recognition, a device was developed for recording the EMG signal, which includes three electrodes and an EMG sensor connected to the microcontroller and the power supply. The following gestures were chosen: clenched fist, “thumb up”, “Victory”, squeezing an index finger and waving a hand from right to left. Accuracy, precision, recall and execution time were used to evaluate the effectiveness of classifiers. These parameters were calculated for three options for the location of EMG electrodes on the forearm. According to the test results, the most effective methods are $k$-nearest neighbors’ algorithm, random forest and the ensemble of NBC and gradient boosting, the average accuracy of ensemble for three electrode positions was 81.55%. The position of the electrodes was also determined at which machine learning methods achieve the maximum accuracy. In this position, one of the differential electrodes is located at the intersection of the flexor digitorum profundus and flexor pollicis longus, the second — above the flexor digitorum superficialis.

  4. Шахгельдян К.И., Куксин Н.С., Домжалов И.Г., Пак Р.Л., Гельцер Б.И.
    Случайный лес факторов риска как прогностический инструмент неблагоприятных событий в клинической медицине
    Компьютерные исследования и моделирование, 2025, т. 17, № 5, с. 987-1004

    Целью исследования являются разработка ансамблевого метода машинного обучения, обеспечивающего построение интерпретируемых прогностических моделей, и его апробация на примере прогнозирования внутригоспитальной летальности (ВГЛ) у больных инфарктом миокарда с подъемом сегмента ST (ИМпST).

    Проведено ретроспективное когортное исследование по данным 5446 электронных историй болезни пациентов с ИМпST, которым выполнялось чрескожное коронарное вмешательство (ЧКВ). Было выделено две группы лиц, первую изк оторых составили 335 (6,2%) больных, умерших в стационаре, вторую — 5111 (93,8%) — с благоприятным исходом лечения. Пул потенциальных предикторов был сформирован с помощью методов математической статистики. С помощью методов мультиметрической категоризации (минимизация p-value, максимизация площади под ROC-кривой-AUC и результаты анализа shap-value), деревьев решений и многофакторной логистической регрессии (МЛР) предикторы были преобразованы в факторы риска ВГЛ. Для разработки прогностических моделей ВГЛ использовали МЛР, случайный лес факторов риска (СЛФР), стохастический градиентный бустинг (XGboost), случай- ный лес, методы Adaptive boosting, Gradient Boosting, Light Gradient-Boosting Machine, Categorical Boosting (CatBoost), Explainable Boosting Machine и Stacking.

    Авторами разработан метод СЛФР, который обобщает результаты прогноза модифицированных деревьев решений, выделяет факторы риска и ранжирует их по интенсивности влияния на вероятность развития неблагоприятного события. СЛФР позволяет разрабатывать модели с высоким прогностическим потенциалом (AUC = 0,908), сопоста- вимым с моделями CatBoost и Stacking (AUC: 0,904 и 0,908 соответственно). Метод СЛФР может рассматриваться в качестве важного инструмента для клинического обоснования результатов прогноза и стать основой для разработки высокоточных интерпретируемых моделей.

    Shakhgeldyan K.I., Kuksin N.S., Domzhalov I.G., Pak R.L., Geltser B.I.
    Random forest of risk factors as a predictive tool for adverse events in clinical medicine
    Computer Research and Modeling, 2025, v. 17, no. 5, pp. 987-1004

    The aim of study was to develop an ensemble machine learning method for constructing interpretable predictive models and to validate it using the example of predicting in-hospital mortality (IHM) in patients with ST-segment elevation myocardial infarction (STEMI).

    A retrospective cohort study was conducted using data from 5446 electronic medical records of STEMI patients who underwent percutaneous coronary intervention (PCI). Patients were divided into two groups: 335 (6.2%) patients who died during hospitalization and 5111 (93.8%) patients with a favourable in-hospital outcome. A pool of potential predictors was formed using statistical methods. Through multimetric categorization (minimizing p-values, maximizing the area under the ROC curve (AUC), and SHAP value analysis), decision trees, and multivariable logistic regression (MLR), predictors were transformed into risk factors for IHM. Predictive models for IHM were developed using MLR, Random Forest Risk Factors (RandFRF), Stochastic Gradient Boosting (XGboost), Random Forest (RF), Adaptive boosting, Gradient Boosting, Light Gradient-Boosting Machine, Categorical Boosting (CatBoost), Explainable Boosting Machine and Stacking methods.

    Authors developed the RandFRF method, which integrates the predictive outcomes of modified decision trees, identifies risk factors and ranks them based on their contribution to the risk of adverse outcomes. RandFRF enables the development of predictive models with high discriminative performance (AUC 0.908), comparable to models based on CatBoost and Stacking (AUC 0.904 and 0.908, respectively). In turn, risk factors provide clinicians with information on the patient’s risk group classification and the extent of their impact on the probability of IHM. The risk factors identified by RandFRF can serve not only as rationale for the prediction results but also as a basis for developing more accurate models.

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.