ЗАДАЧА ВСТАНОВЛЕННЯ ПОВНОТИ ВИСВІТЛЕННЯ РЕЗУЛЬТАТІВ ДИСЕРТАЦІЙНИХ ДОСЛІДЖЕНЬ ЗДОБУВАЧАМИ НАУКОВИХ СТУПЕНІВ

Автор(и)

DOI:

https://doi.org/10.32347/2412-9933.2021.47.102-108

Ключові слова:

дисертація, наукове дослідження, наукова публікація, латентний семантичний аналіз

Анотація

Описано можливості застосування латентного семантичного аналізу для задачі виявлення повноти висвітлення результатів дисертаційних досліджень здобувачами наукових ступенів. Для досягнення мети виконано такі завдання: зроблено огляд ймовірнісної тематичної моделі представлення текстових документів, зокрема наукових документів з використанням специфічних предметних термінів, які представляються n-грамам; наведено формальне описання ймовірнісної тематичної моделі для задачі встановлення повноти висвітлення матеріалів дисертаційних досліджень автора в його наукових статтях. Особливістю ймовірнісної тематичної моделі для задачі встановлення повноти висвітлення матеріалів дисертаційних досліджень автора в його наукових публікаціях є використання навчання та спеціального регуляризатора. Результатом моделі є матриця належності тем, які визначаються сегментами авторефератів дисертації автора до документів, які визначаються публікаціями автора. Застосування цієї моделі до пропонованої задачі ще не було описано. Розглянута в роботі задача спирається на задачу максимізації функції правдоподібності, яка є некоректно поставленою. Для зведення задачі до коректно поставленої використовуються тільки відповідні регуляризатори. Інші методи зведення задач до коректних  не розглядалися. Обмеженням дослідження є проблема канонізації текстів різними мовами. У пропонованому дослідженні використовується текстова інформація українською мовою. У подальшому дослідженні буде запропоновано зведення текстів до однієї мовної бази, оскільки інструменти канонізації текстів англійської мови мають більш широкі можливості, зокрема для наукових публікацій. Також обмеженням є складність отримання повних текстів дисертацій для повноцінної верифікації моделі. Результати дослідження використовуються в комплексі з системою виявлення неповних дублікатів у наукових документах, зокрема дисертаціях на здобуття наукового ступеня.

Біографії авторів

Петро Лізунов , Київський національний університет будівництва і архітектури, Київ

Доктор технічних наук, професор, завідувач кафедри будівельної механіки

Андрій Білощицький , Astana IT University, Нур-Султан

Доктор технічних наук, професор, проректор з науки та інновацій

Олександр Кучанський , Київський національний університет імені Тараса Шевченка, Київ

Доктор технічних наук, доцент, доцент кафедри інформаційних систем та технологій

Юрій Андрашко , ДВНЗ «Ужгородський національний університет», Ужгород

Кандидат технічних наук, доцент кафедри системного аналізу і теорії оптимізації

Тамара Лященко , Київський національний університет будівництва і архітектури, Київ

Старший викладач кафедри інформаційних технологій

Посилання

Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Yu., Biloshchytska, S. (2020). The use of probabilistic latent semantic analysis to identify scientific subject spaces and to evaluate the completeness of covering the results of dissertation studies. Eastern-European Journal of Enterprise Technologies, 4/4 (106), 14–20.

Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Yu., Biloshchytska, S. (2019). Improvement of the method for scientific publications clustering based on n-gram analysis and fuzzy method for selecting research partners. Eastern-European Journal of Enterprise Technologies, 4/4 (100), 6–14.

Dumais, S. T. (2005). Latent Semantic Analysis. Annual Review of Information Science and Technology, 38, 188–230. doi: https://doi.org/10.1002/aris.1440380105.

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., Harshman, R. (1990). Indexing by Latent Semantic Analysis. JASIS, 41, 391–407.

Hofmann, T. (1999). Probabilistic Latent Semantic Indexing. In Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 289–296. arXiv:1301.6705

Dai, A. M., Olah, C., Le, Q. V. (2015). Document embedding with paragraph vectors. NIPS Deep Learning Workshop. arXiv:1507.07998v1

Rosen-Zvi, M., Gri ths, T., Steyvers, M., Smyth, P. (2004). The author-topiс model for authors and doсuments. Proсeedings of the 20th сonferenсe on Unсertainty in artiсial intelligenсe, 487–494.

Pagliardini, M., Gupta, P., Jaggi, M. (2018). Unsupervised Learning of Sentence Embeddings using Compositional n-Gram Features. NAACL 2018 - Conference of the North American Chapter of the Association for Computational Linguistics, 528–540. doi: https://doi.org/10.18653/v1/N18-1049

Lifchitz, A., Jhean-Larose, S., Denhiere, G. (2009). Effect of tuned parameters on an LSA multiple choice questions answering model. Behavior Research Methods, 41 (4), 1201–1209. doi: https://doi.org/10.3758/BRM.41.4.1201. PMID 19897829.

Galvez, R. H., Gravano, A. (2017). Assessing the usefulness of online message board mining in automatic stock prediction systems. Journal of Computational Science, 19, 1877–7503. doi: https://doi.org/10.1016/j.jocs.2017.01.001.

Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Biloshchytska, S., Chala, L. (2016). Detection of near duplicates in tables based on the locality-sensitive hashing method and the nearest neighbor method. Eastern-European Journal of Enterprise Technologies, 6(4(84)), 4–10. doi: https://doi.org/10.15587/1729-4061.2016.86243

Biloshchytskyi A., Kuchansky A., Biloshchytska S., Dubnytska A. (2017). Conceptual Model of Automatic System of Near Duplicates Detection on Electronic Documents. IEEE “The Experience of Designing and Applications of CAD Systems in Microelectron.” (CADSM), P. 381-384.

Rossi, R. J. (2018). Mathematical Statistics: An Introduction to Likelihood Based Inference. New York: John Wiley & Sons.

Tikhonov, A., Arsenin, V. (1986). Methods for solving ill-posed problems. M: Nauka.

Blei, D. M., Ng, A. Y., Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3, 993–1022.

Dietz, L., Bickel, S., Scheffer, T. (2007). Unsupervised prediction of citation influences. In Proceedings of the 24th international conference on Machine learning. ICML '07. New York, NY, USA: ACM, 233–240.

BigARTM. (2015). Retrieved from https://bigartm.readthedocs.io/en/stable/intro.html

Vorontsov, K. V. (2013). Probabilistic topic modeling. Retrieved from http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Y., Biloshchytska, S. Serbin, O. (2021). Development of the combined method of identification of near duplicates in electronic scientific works. Eastern-European Journal of Enterprise Technologies, 4(4(112), 57–63. https://doi.org/10.15587/1729-4061.2021.238318.

##submission.downloads##

Опубліковано

2021-09-27

Як цитувати

Лізунов , П. ., Білощицький , А. ., Кучанський , О. ., Андрашко , Ю. ., & Лященко , Т. . (2021). ЗАДАЧА ВСТАНОВЛЕННЯ ПОВНОТИ ВИСВІТЛЕННЯ РЕЗУЛЬТАТІВ ДИСЕРТАЦІЙНИХ ДОСЛІДЖЕНЬ ЗДОБУВАЧАМИ НАУКОВИХ СТУПЕНІВ. Управління розвитком складних систем, (47), 102–108. https://doi.org/10.32347/2412-9933.2021.47.102-108

Номер

Розділ

ІНФОРМАТИЗАЦІЯ ВИЩОЇ ОСВІТИ