ВИЗНАЧЕННЯ СТИЛЬОВОЇ НАЛЕЖНОСТІ ТЕКСТУ ЗА ДОПОМОГОЮ ШТУЧНИХ НЕЙРОННИХ МЕРЕЖ
DOI:
https://doi.org/10.32347/2412-9933.2020.42.63-68Ключові слова:
стиль, класифікація, корпусна лінгвістика, штучні нейронні мережі, векторизація текстуАнотація
Досліджено проблему розроблення ефективного способу визначення стильової належності текстів. Розглянуто такі стилі, як науковий, публіцистичний та офіційно-діловий. Для аналізу відібрані тексти одної тематики – про мову. Розглянуто різні поєднання методів векторизації та архітектур штучних нейронних мереж, які б забезпечили високий рівень розпізнаваності. Серед архітектур штучних нейронних мереж розглянуто: Support Vector Machines (SVM) (C-Support Vector Classification (SVC), Epsilon-Support Vector Regression (SVR)) та Multi Layer Perseptron (MLP). Серед методів векторизації розглянуто: HeshingVectorizer, CountVectorizer та TfidVectorizer. Проведені дослідження засвідчили, що всі розглядувані підходи найбільш ефективно розрізняють офіційно-ділові тексти, що пояснюється їх найбільшою стандартизованістю. Особливо ефективно розрізняються науковий та офіційно-діловий стилі. Найменшу точність розглядувані методи показують при визначенні стильової приналежності, коли одним зі стилів є публіцистичний. Найбільш ефективним підходом для визначення стильової приналежності виявилось поєднання методу векторизації tfidVectorizer та обох архітектур штучних нейронних мереж Support Vector Machines. На попередньому етапі для збільшення ефективності використовувався стемінг слів.
У текстах, що містять не менше 500 символів, такий підхід допоміг забезпечити точність 94 – 98%, а час для навчання штучної нейронної мережі при цьому не перевищує одну секунду на комп’ютерах стандартної на цей час конфігурації. За допомогою бібліотеки Lime наведено візуалізацію дослідження роботи штучної нейронної мережі, що є надзвичайно важливим емпіричним матеріалом для фахівців-філологів для проведення подальшого лінгвістичного аналізу.
Посилання
Ermolenko, S.Ya., (2007). Linguostilistic: main termins, directs and methods of investigation. Ukrainian linguostilistic ХХ – beginning of ХХІ century: systems of termins and bibliography. К.: Gramota.
Dubivik, A.R., (2017). Avtimatic determination of stylistic belonging of text at their statistic parameters. Computer linguistique and calculation onthology, 1, 29 – 45.
Pedregosa, F. et al. (2011). Scikit-learn: Machine learning in Python. Journal of machine Learning research, 12,
– 2830.
Bodyanskiy, Y., (2005). Computational Intelligence Techniques for Data Analysis. Leipziger Informatik-Tage, 15 – 36.
Lupei, M., Mitsa, A., Repariuk, V., & Sharkan, V., (2020). Identification of authorship of Ukrainian-language texts of journalistic style using neural networks. Eastern-European Journal of Enterprise Technologies, 1 (2 (103)), 30 – 36. doi: https://doi.org/10.15587/1729-4061.2020.195041
Bodyanskiy, Y. et al. (2018). Deep 2D-Neural Network and its Fast Learning. Proceedings of the 2018 IEEE Second International Conference on Data Stream Mining & Processing, DSMP 2018. Lviv, Ukraine, 21 – 25 August 2018, pp. 519 – 523.
Rashkevych, Y., Peleshko, D., and Pasyeka, M., (2003). Optimization search process in database of learning system. Proceedings of the 2nd IEEE International Workshop on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications, IDAACS 2003. Lviv, Ukraine, 8-10 Sept. 2003, pp. 358 – 361.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2020 Maksym Lupei
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.