Оптимізація моделей машинного навчання для оцінки ризику поширення туберкульозу

Автор(и)

  • Дмитро Господарчук Львівський національний університеті імені Івана Франка, Львів, Україна https://orcid.org/0009-0003-9425-4609
  • Денис Невінський Інститут телекомунікацій, радіоелектроніки та електронної техніки Національного університету «Львівська політехніка», Львів, Україна https://orcid.org/0000-0002-0962-072X
  • Дмитро Мартьянов Інститут комп'ютерних наук та інформаційних технологій Національного університету «Львівська політехніка», Львів, Україна https://orcid.org/0009-0003-3919-4412
  • Ярослав Виклюк Інститут комп’ютерних наук та інформаційних технологій Національного університету «Львівська політехніка», Львів, Україна https://orcid.org/0000-0003-4766-4659
  • Ігор Сем’янів Буковинський державний медичний університет, Чернівці, Україна https://orcid.org/0000-0003-0340-0766

DOI:

https://doi.org/10.32347/2412-9933.2025.61.160-169

Ключові слова:

туберкульоз, машинне навчання, прогнозування, модель SVM, фактори впливу, штучний інтелект, регресійний аналіз

Анотація

Туберкульоз (ТБ) залишається однією з найактуальніших проблем охорони здоров’я, особливо в країнах, що розвиваються. Високий рівень захворюваності та поширення мультирезистентних штамів Mycobacterium tuberculosis створюють значні виклики для сучасної медицини. Індія є однією з держав із найбільшим тягарем ТБ, тому оптимізація методів прогнозування поширення хвороби є надзвичайно важливою для ефективного впровадження заходів профілактики і лікування. Застосування методів машинного навчання (ML) дає можливість автоматизувати аналіз великих обсягів даних та виявляти ключові фактори ризику. Метою цього дослідження є розроблення ефективних моделей машинного навчання для оцінки ризику поширення ТБ в Індії на основі соціально-економічних, демографічних і медичних факторів. Для аналізу було використано набір даних, що містить 148 записів за період 2019–2022 рр., розбитих за штатами Індії. До основних змінних належить кількість виявлених випадків ТБ, показники успішності лікування, рівень смертності серед хворих, а також статус вживання тютюну й алкоголю серед пацієнтів. Дослідження включало попередню обробку даних, кореляційний аналіз та застосування методів машинного навчання. Було протестовано кілька моделей: лінійну регресію, регуляризовані моделі (Lasso та Ridge), метод опорних векторів (SVM), метод найближчих сусідів (KNN), випадковий ліс та дерево рішень. Аналіз засвідчив, що найкращу точність має модель SVM із оптимізованими параметрами, що продемонструвала найвищий коефіцієнт детермінації та найнижчу середньоквадратичну помилку. Порівняння інших моделей виявило значні переваги SVM над лінійною регресією та деревом рішень, які показали низьку узагальнюючу здатність. Визначення найбільш вагомих факторів у прогнозуванні поширення ТБ здійснено за допомогою методу Permutation Importance. Найбільший вплив мали такі фактори: географічне розташування (штат), кількість зареєстрованих випадків ТБ серед дітей, кількість жінок із ТБ, рівень смертності серед пацієнтів та інфраструктура для лікування лікарсько-стійкого ТБ. Виявлено, що соціальні фактори, такі як рівень споживання тютюну й алкоголю серед пацієнтів, також впливають на поширення хвороби, проте їхній внесок є менш значущим. Дослідження підтвердило ефективність застосування методів машинного навчання для прогнозування поширення туберкульозу. Оптимізована модель SVM забезпечила найкращі показники точності й узагальнюючої здатності. Аналіз вагомості факторів засвідчив, що найбільший вплив на поширення хвороби мають регіональні особливості, демографічні показники та рівень смертності. Отримані результати можуть бути використані для вдосконалення стратегій боротьби з ТБ, зокрема через цільове впровадження заходів у регіонах з високими ризиками. Використання ML-методів дає змогу покращити ефективність контролю над захворюванням, що є важливим кроком у глобальній боротьбі з туберкульозом.

Біографії авторів

Дмитро Господарчук , Львівський національний університеті імені Івана Франка, Львів

Student of the Department of Differential Equations and Mathematical Statistics

Денис Невінський , Інститут телекомунікацій, радіоелектроніки та електронної техніки Національного університету «Львівська політехніка», Львів

Доцент кафедри електронних засобів інформаційно-комп’ютерних технологій

Дмитро Мартьянов , Інститут комп'ютерних наук та інформаційних технологій Національного університету «Львівська політехніка», Львів

Аспірант кафедри систем штучного інтелекту

Ярослав Виклюк , Інститут комп’ютерних наук та інформаційних технологій Національного університету «Львівська політехніка», Львів

Професор кафедри систем штучного інтелекту

Ігор Сем’янів , Буковинський державний медичний університет, Чернівці

Доцент кафедри фтизіатрії та пульмонології

Посилання

Batoure Bamana, A., Shafiee Kamalabad, M., & Oberski, D. L. (2024). A systematic literature review of time series methods applied to epidemic prediction. Informatics in Medicine Unlocked, 50, 101571. https://doi.org/10.1016/j.imu.2024.101571.

Arisanti, R., Pontoh, R. S., Winarni, S., Nurhasanah, Y., Pertiwi, A. P., & Aini, S. D. N. (2024). Integrating generalized linear mixed models with extreme neural network: Enhancing pulmonary tuberculosis risk modeling in West Java, Indonesia. Communications in Mathematical Biology and Neuroscience, 2024, 85. https://doi.org/10.28919/cmbn/8748.

D‘Souza, N. S., Wang, H., Giovannini, A., Foncubierta-Rodriguez, A., Beck, K. L., Boyko, O., & Syeda-Mahmood, T. F. (2024). Fusing modalities by multiplexed graph neural networks for outcome prediction from medical data and beyond. Medical Image Analysis, 93, 103064. https://doi.org/10.1016/j.media.2023.103064.

Zhang, F., Zhang, F., Li, L., & Pang, Y. (2024). Clinical utilization of artificial intelligence in predicting therapeutic efficacy in pulmonary tuberculosis. Journal of Infection and Public Health, 17 (4), 632–641. https://doi.org/10.1016/j.jiph.2024.02.012.

Sun, C., Fang, R., Salemi, M., Prosperi, M., & Magalis, B. R. (2024). DeepDynaForecast: Phylogenetic-informed graph deep learning for epidemic transmission dynamic prediction. PLoS Computational Biology, 20 (4), e1011351. https://doi.org/10.1371/journal.pcbi.1011351.

Yilmaz, Y. (2024). Stacked ensemble modeling for improved tuberculosis treatment outcome prediction in pediatric cases. Concurrency and Computation: Practice and Experience, 36(13), e8089. https://doi.org/10.1002/cpe.8089.

Canas, L. S., Dong, T. H. K., Beasley, D., Donovan, J., Cleary, J. O., et al. (2024). Computer-aided prognosis of tuberculous meningitis combining imaging and non-imaging data. Scientific Reports, 14 (1), 17581. https://doi.org/10.1038/s41598-024-68308-8.

Abade, A., Porto, L. F., Scholze, A. R., Kuntath, D., Barros, N. D. S., et al. (2024). A comparative analysis of classical and machine learning methods for forecasting TB/HIV co-infection. Scientific Reports, 14 (1), 18991. https://doi.org/10.1038/s41598-024-69580-4.

Zhang, Y., Ma, H., Wang, H., Xia, Q., Wu, S., et al. (2024). Forecasting the trend of tuberculosis incidence in Anhui Province based on machine learning optimization algorithm, 2013–2023. BMC Pulmonary Medicine, 24 (1), 536. https://doi.org/10.1186/s12890-024-03296-z.

Hamna Mariyam K B, Anuwat Jirawattanapanit, Sayooj Aby Jose, Karuna Mathew. A comprehensive study on tuberculosis prediction models: Integrating machine learning into epidemiological analysis Journal of Theoretical Biology, 597, art. no. 111988, 2025 DOI: 10.1016/j.jtbi.2024.111988.

Lane, T. R., Urbina, F., Rank, L., Gerlach, J., Riabova, O., et al. (2022). Machine learning models for Mycobacterium tuberculosis in vitro activity: Prediction and target visualization. Molecular Pharmaceutics, 19 (2), 674–689. https://doi.org/10.1021/acs.molpharmaceut.1c00791.

##submission.downloads##

Опубліковано

2025-03-28

Як цитувати

Господарчук , Д. ., Невінський , Д. ., Мартьянов , Д. ., Виклюк , Я. ., & Сем’янів , І. . (2025). Оптимізація моделей машинного навчання для оцінки ризику поширення туберкульозу. Управління розвитком складних систем, (61), 160–169. https://doi.org/10.32347/2412-9933.2025.61.160-169

Номер

Розділ

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ УПРАВЛІННЯ