Оптимізація й адаптація нейромереж на основі наявних архітектур: методи, виклики та перспективи

Юлія  Рябчун; Олег  Курінський; Олена  Доля; Анатолій  Фесан

doi:10.32347/2412-9933.2025.61.210-218

Автор(и)

Юлія Рябчун Київський національний університет будівництва і архітектури, Київ, Україна https://orcid.org/0000-0002-8320-4038
Олег Курінський Київський національний університет будівництва і архітектури, Київ , Україна https://orcid.org/0009-0005-8651-4145
Олена Доля Київський національний університет будівництва і архітектури, Київ, Україна https://orcid.org/0000-0003-2503-2634
Анатолій Фесан Київський національний університет будівництва і архітектури, Київ, Україна https://orcid.org/0009-0007-1849-057X

DOI:

https://doi.org/10.32347/2412-9933.2025.61.210-218

Ключові слова:

нейронні мережі, оптимізація; адаптація, Dataset, Normalization, Adam Optimizer, Fine-tuning

Анотація

У статті представлено комплексне дослідження розробки нейронних мереж на основі наявних архітектур, спрямоване на створення потужних моделей, здатних вирішувати складні завдання машинного навчання, з метою підвищення їх ефективності у вирішенні різноманітних завдань штучного інтелекту. Актуальність дослідження обумовлена зростанням вимог до продуктивності моделей у зв’язку з обмеженнями апаратних ресурсів, необхідністю швидкого реагування на нові виклики й адаптації до специфічних умов використання в реальному часі. Проаналізовано сучасні підходи до модифікації попередньо навчених моделей з метою підвищення їх продуктивності, зменшення обчислювальних витрат та адаптації до нових завдань. Дослідження включає аналіз наявних підходів, виявлення основних викликів при інтеграції оптимізованих нейронних мереж у різні галузі застосування та розроблення рекомендацій щодо покращення їх продуктивності й адаптивності. Результати дослідження уможливлюють не лише класифікувати наявні методи, а й окреслити перспективні напрями розвитку технологій, що сприятимуть створенню більш ефективних та гнучких систем штучного інтелекту. Використовуючи різноманітні методи і підходи, включаючи перенесення навчання (transfer learning), тонке налаштування (fine-tuning) та ансамблеві методи (ensemble methods), ця робота розлядає оптимізацію процесу створення нових нейронних мереж шляхом використання попередньо навчених моделей як основи. Окрему увагу приділено методам перенесення навчання, компресії моделей, квантилізації та пошуку нейромережевих архітектур (NAS). Центральним елементом підходу є розгортання нейронних мереж, побудованих на основі наявних моделей, що дає змогу суттєво скоротити час навчання і підвищити точність нових мереж. Методологія дослідження охоплює збір та підготовку набору даних, нормалізацію даних для забезпечення стабільності й ефективності навчання, а також використання оптимізатора Adam для швидкої та ефективної мінімізації функції втрат. Практична цінність отриманих результатів проявляється в можливості їх застосування для розробки більш енергоефективних рішень у таких галузях, як автономні транспортні засоби, системи обробки природної мови, медична діагностика та інших сферах, де критично важлива швидка адаптація до змінних умов роботи.

Біографії авторів

Юлія Рябчун , Київський національний університет будівництва і архітектури, Київ

Докторка філософії, доцентка кафедри інформаційних технологій

Олег Курінський , Київський національний університет будівництва і архітектури, Київ

Здобувач вищої освіти, спеціальність 122 "Комп’ютерні науки"

Олена Доля , Київський національний університет будівництва і архітектури, Київ

Кандидатка фізико-математичних наук, доцентка, доцентка кафедри інформаційних технологій проєктування та прикладної математики

Анатолій Фесан , Київський національний університет будівництва і архітектури, Київ

Аспірант кафедри інформаційних технологій

Посилання

Koreniuk T., Honcharenko, T., Sapaiev, V. (2024). Individualization of Learning due to Introduction of Artificial Intelligence into the Education System. 2024 IEEE AITU: Digital Generation, Conference Pro eedings – AITU 2024, pp. 150–153. URL: DOI: 10.1109/IEEECONF61558.2024.10585595.

Matsiievskyi, O., Honcharenko, T., Solovei, O., Liashchenko, T., Achkasov, I., Golenkov, V. (2024). Using Artificial Intelligence to Convert Code to Another Programming Language. 2024 IEEE 4th International Conference on Smart Information Systems and Technologies (SIST), pp. 379–385. URL: https://ieeexplore.ieee.org/abstract/document/10629305.

Gaudenz, Boesch. (2021). Very Deep Convolutional Networks (VGG) Essential Guide. URL: https://viso.ai/deep-learning/vgg-very-deep-convolutional-networks/

Simonyan, Karen, Zisserman, Andrew. (2014). Very Deep Convolutional Networks for Large-Scale Image Recognition. Computer Vision and Pattern Recognition. arXiv:1409.1556. URL: https://doi.org/10.48550/arXiv.1409.1556.

Geoffrey, E., Hinton, O., Vinyals, J. Dean. (2015). Distilling the Knowledge in a Neural Network. NIPS 2014 Deep Learning Workshop. URL: https://doi.org/10.48550/arXiv.1503.02531.

Howard, J., Gugger, S. Fastai: A Layered API for Deep Learning. Information. 2020. Vol. 11, no. 2. P. 108. URL: https://doi.org/10.3390/info11020108.

Kirkpatrick, J., et al. (2017). Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences. Vol. 114, no. 13. P. 3521–3526. URL: https://doi.org/10.1073/pnas.1611835114.

Song, Han, Jeff, Pool, John, Tran, William, J. Dally. (2015). Learning both Weights and Connections for Efficient Neural Networks. Published as a conference paper at NIPS 2015. URL: https://doi.org/10.48550/arXiv.1506.02626.

Wang Y., et al. (2024). Spectrum-BERT: Pre-training of Deep Bidirectional Transformers for Spectral Classification of Chinese Liquors. IEEE Transactions on Instrumentation and Measurement. 2024. P. 1. URL: https://doi.org/10.1109/tim.2024.3374300.

Geoffrey, Hinton, Oriol, Vinyals, Jeff, Dean. (2015). Distilling the Knowledge in a Neural Network. NIPS 2014 Deep Learning Workshop. URL: https://doi.org/10.48550/arXiv.1503.02531.

Barret Zoph, Quoc V. Le (2016). Neural Architecture Search with Reinforcement Learning. Machine Learning (cs.LG). URL: https://doi.org/10.48550/arXiv.1611.01578.

Cassimon, A., Mercelis, S., Mets, K. (2024). Scalable reinforcement learning-based neural architecture search. Neural Computing and Applications. URL: https://doi.org/10.1007/s00521-024-10445-2.

Hanxiao Liu, Karen Simonyan, Yiming Yang. (2018). Differentiable Architecture Search. Published at ICLR 2019. URL: https://doi.org/10.48550/arXiv.1806.09055

Jbara, W. A., Soud, J. H. (2024). DeepFake Detection Based VGG-16 Model. 2024 2nd International Conference on Cyber Resilience (ICCR), Dubai, United Arab Emirates, 26–28 February 2024. URL: https://doi.org/10.1109/iccr61006.2024.10533024.

Qian Y. et al. (2016). Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. Vol. 24, no. 12. P. 2263–2276. URL: https://doi.org/10.1109/taslp.2016.2602884.

Nikbakhtsarvestani F., Ebrahimi M., Rahnamayan S. Multi-objective ADAM Optimizer (MAdam). 2023 IEEE International Conference on Systems, Man, and Cybernetics (SMC), Honolulu, Oahu, HI, USA, 1–4 October 2023. 2023. URL: https://doi.org/10.1109/smc53992.2023.10394533

Pateriya P. N. et al. (2023). Deep Residual Networks for Image Recognition. International Journal of Innovative Research in Computer and Communication Engineering. Vol. 11, no. 09. P. 10742–10747. URL: https://doi.org/10.15680/ijircce.2023.1109026

Krizhevsky, Alex, Sutskever, Ilya, and E., Hinton, Geoffrey. (2012). ImageNet Classification with Deep Convolutional Neural Networks", NIPS, pp. 1106–1114.

Xiaoling Xia, Cui Xu and Bing Nan. (2017). Inception-v3 for flower classification. 2017 2nd International Conference on Image, Vision and Computing (ICIVC), Chengdu, 2017, pp. 783–787. URL: doi: 10.1109/ICIVC.2017.7984661.

Оптимізація й адаптація нейромереж на основі наявних архітектур: методи, виклики та перспективи

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Юлія Рябчун , Київський національний університет будівництва і архітектури, Київ

Олег Курінський , Київський національний університет будівництва і архітектури, Київ

Олена Доля , Київський національний університет будівництва і архітектури, Київ

Анатолій Фесан , Київський національний університет будівництва і архітектури, Київ

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

##plugins.block.developedBy.blockTitle##

Мова

Інформація