Оптимізація моделей машинного навчання для оцінки ризику поширення туберкульозу
DOI:
https://doi.org/10.32347/2412-9933.2025.61.160-169Ключові слова:
туберкульоз, машинне навчання, прогнозування, модель SVM, фактори впливу, штучний інтелект, регресійний аналізАнотація
Туберкульоз (ТБ) залишається однією з найактуальніших проблем охорони здоров’я, особливо в країнах, що розвиваються. Високий рівень захворюваності та поширення мультирезистентних штамів Mycobacterium tuberculosis створюють значні виклики для сучасної медицини. Індія є однією з держав із найбільшим тягарем ТБ, тому оптимізація методів прогнозування поширення хвороби є надзвичайно важливою для ефективного впровадження заходів профілактики і лікування. Застосування методів машинного навчання (ML) дає можливість автоматизувати аналіз великих обсягів даних та виявляти ключові фактори ризику. Метою цього дослідження є розроблення ефективних моделей машинного навчання для оцінки ризику поширення ТБ в Індії на основі соціально-економічних, демографічних і медичних факторів. Для аналізу було використано набір даних, що містить 148 записів за період 2019–2022 рр., розбитих за штатами Індії. До основних змінних належить кількість виявлених випадків ТБ, показники успішності лікування, рівень смертності серед хворих, а також статус вживання тютюну й алкоголю серед пацієнтів. Дослідження включало попередню обробку даних, кореляційний аналіз та застосування методів машинного навчання. Було протестовано кілька моделей: лінійну регресію, регуляризовані моделі (Lasso та Ridge), метод опорних векторів (SVM), метод найближчих сусідів (KNN), випадковий ліс та дерево рішень. Аналіз засвідчив, що найкращу точність має модель SVM із оптимізованими параметрами, що продемонструвала найвищий коефіцієнт детермінації та найнижчу середньоквадратичну помилку. Порівняння інших моделей виявило значні переваги SVM над лінійною регресією та деревом рішень, які показали низьку узагальнюючу здатність. Визначення найбільш вагомих факторів у прогнозуванні поширення ТБ здійснено за допомогою методу Permutation Importance. Найбільший вплив мали такі фактори: географічне розташування (штат), кількість зареєстрованих випадків ТБ серед дітей, кількість жінок із ТБ, рівень смертності серед пацієнтів та інфраструктура для лікування лікарсько-стійкого ТБ. Виявлено, що соціальні фактори, такі як рівень споживання тютюну й алкоголю серед пацієнтів, також впливають на поширення хвороби, проте їхній внесок є менш значущим. Дослідження підтвердило ефективність застосування методів машинного навчання для прогнозування поширення туберкульозу. Оптимізована модель SVM забезпечила найкращі показники точності й узагальнюючої здатності. Аналіз вагомості факторів засвідчив, що найбільший вплив на поширення хвороби мають регіональні особливості, демографічні показники та рівень смертності. Отримані результати можуть бути використані для вдосконалення стратегій боротьби з ТБ, зокрема через цільове впровадження заходів у регіонах з високими ризиками. Використання ML-методів дає змогу покращити ефективність контролю над захворюванням, що є важливим кроком у глобальній боротьбі з туберкульозом.
Посилання
Batoure Bamana, A., Shafiee Kamalabad, M., & Oberski, D. L. (2024). A systematic literature review of time series methods applied to epidemic prediction. Informatics in Medicine Unlocked, 50, 101571. https://doi.org/10.1016/j.imu.2024.101571.
Arisanti, R., Pontoh, R. S., Winarni, S., Nurhasanah, Y., Pertiwi, A. P., & Aini, S. D. N. (2024). Integrating generalized linear mixed models with extreme neural network: Enhancing pulmonary tuberculosis risk modeling in West Java, Indonesia. Communications in Mathematical Biology and Neuroscience, 2024, 85. https://doi.org/10.28919/cmbn/8748.
D‘Souza, N. S., Wang, H., Giovannini, A., Foncubierta-Rodriguez, A., Beck, K. L., Boyko, O., & Syeda-Mahmood, T. F. (2024). Fusing modalities by multiplexed graph neural networks for outcome prediction from medical data and beyond. Medical Image Analysis, 93, 103064. https://doi.org/10.1016/j.media.2023.103064.
Zhang, F., Zhang, F., Li, L., & Pang, Y. (2024). Clinical utilization of artificial intelligence in predicting therapeutic efficacy in pulmonary tuberculosis. Journal of Infection and Public Health, 17 (4), 632–641. https://doi.org/10.1016/j.jiph.2024.02.012.
Sun, C., Fang, R., Salemi, M., Prosperi, M., & Magalis, B. R. (2024). DeepDynaForecast: Phylogenetic-informed graph deep learning for epidemic transmission dynamic prediction. PLoS Computational Biology, 20 (4), e1011351. https://doi.org/10.1371/journal.pcbi.1011351.
Yilmaz, Y. (2024). Stacked ensemble modeling for improved tuberculosis treatment outcome prediction in pediatric cases. Concurrency and Computation: Practice and Experience, 36(13), e8089. https://doi.org/10.1002/cpe.8089.
Canas, L. S., Dong, T. H. K., Beasley, D., Donovan, J., Cleary, J. O., et al. (2024). Computer-aided prognosis of tuberculous meningitis combining imaging and non-imaging data. Scientific Reports, 14 (1), 17581. https://doi.org/10.1038/s41598-024-68308-8.
Abade, A., Porto, L. F., Scholze, A. R., Kuntath, D., Barros, N. D. S., et al. (2024). A comparative analysis of classical and machine learning methods for forecasting TB/HIV co-infection. Scientific Reports, 14 (1), 18991. https://doi.org/10.1038/s41598-024-69580-4.
Zhang, Y., Ma, H., Wang, H., Xia, Q., Wu, S., et al. (2024). Forecasting the trend of tuberculosis incidence in Anhui Province based on machine learning optimization algorithm, 2013–2023. BMC Pulmonary Medicine, 24 (1), 536. https://doi.org/10.1186/s12890-024-03296-z.
Hamna Mariyam K B, Anuwat Jirawattanapanit, Sayooj Aby Jose, Karuna Mathew. A comprehensive study on tuberculosis prediction models: Integrating machine learning into epidemiological analysis Journal of Theoretical Biology, 597, art. no. 111988, 2025 DOI: 10.1016/j.jtbi.2024.111988.
Lane, T. R., Urbina, F., Rank, L., Gerlach, J., Riabova, O., et al. (2022). Machine learning models for Mycobacterium tuberculosis in vitro activity: Prediction and target visualization. Molecular Pharmaceutics, 19 (2), 674–689. https://doi.org/10.1021/acs.molpharmaceut.1c00791.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Андрій Олександрович Білощицький

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.