Optimization in probabilistic topic modeling of technological predictive information
https://doi.org/10.35266/1999-7604-2024-3-7
Abstract
The analysis of soft clustering methods of documents and probabilistic distributions of terms and topics leads us to consider computational methods and tools for modeling the dynamics of polytopic fl ows in a multidimensional information space. We propose an optimized stochastic model that captures the dynamics of soft clustering of knowledge networks in an information space. This model is based on semantic connections
in texts of a specifi c subject area, which are extracted from scientometric and bibliographic databases. Using the theoretical model, we developed an algorithm and methodology for applying advanced text analytics,
which includes the identifi cation of hidden topics and the prediction of trends. The developed methodology allows, with a certain level of scientifi c objectivity, to predict new technologies and current scientifi c directions
in a given specifi c research area, including for solving theoretical, applied and management problems. The practical results led to the development of a glossary of predictive terms “Information Technologies and Communications”. We recommend using this glossary in the educational process of the general and vocational education system
About the Authors
O. R. PopovRussian Federation
Candidate of Sciences (Engineering), Docent
S. O. Kramarov
Russian Federation
Doctor of Sciences (Physics and Mathematics), Professor
References
1. Shadrova A. Topic models do not model topics: epistemological remarks and steps towards best practices // Journal of Data Mining & Digital Humanities. 2021. https://doi.org/10.46298/jdmdh.7595.
2. Churchill R., Singh L. The evolution of topic modeling // ACM Computing Surveys. 2022. Vol. 54, no. 10s. P. 1–35. https://doi.org/10.1145/3507900.
3. Zhao H., Phung D., Huynh V. et al. Topic modelling meets deep neural networks: A survey // Proceedings of the Thirtieth International Joint Conference on Artifi cial Intelligence, IJCAI-21. 2021. P. 4713–4720. https://doi.org/10.48550/arXiv.2103.00498.
4. Бодрунов С. Д. Ноономика : моногр. М. : Культурная революция, 2018. 432 с.
5. Thilakaratne M., Falkner K., Atapattu T. A systematic review on literature-based discovery: general overview, methodology, & statistical analysis // ACM Computing Surveys. 2019. Vol. 52, no. 6. P. 1–34. https://doi.org/10.1145/3365756.
6. Zelenkov Yu. The topic dynamics in knowledge mana gement research // Knowledge Management in Orga nizations (KMO 2019): Proceedings of the 14th International Conference. 2019. P. 324–335. https:// doi.org/10.1007/978-3-030-21451-7_28.
7. Gorshkov S., Ilyushin E., Chernysheva A. et al. Using topic modeling for communities clusterization in the VKontakte social network // International Journal of Open Information Technologies. 2021. Vol. 9, no. 5. P. 12–17.
8. Zhang J., Ghahramani Z., Yang Y. A probabilistic model for online document clustering with application to novelty detection // Advances in neural information processing systems. 2004. Vol. 17.
9. Zhang Y., Zhang G., Chen H. et al. Topic analysis and forecasting for science, technology and innovation: Methodology with a case study focusing on big data research // Technological forecasting and social change. 2016. Vol. 105. P. 179–191.
10. Айсина Р. М. Обзор средств визуализации тематических моделей коллекций текстовых документов // Машинное обучение анализ данных. 2015. Т. 1, № 11. С. 1584–1618.
11. Герасименко Н. А., Чернявский А. С., Никифорова М. А. и др. Инкрементальное обучение тематических моделей для поиска трендовых тем в научных публикациях // Доклады Российской академии наук. Математика, информатика, процессы управления. 2022. Т. 508, № 1. С. 106–108.
12. Герасименко Н. ruSciBench – бенчмарк для оценки эмбеддингов научных текстов. URL: https://habr.com/ru/articles/781032/ (дата обращения: 25.03.2024).
13. Большакова Е. И., Воронцов К. В., Ефремова Н. Э. и др. Автоматическая обработка текстов на естественном языке и анализ данных. М. : НИУ ВШЭ, 2017. 268 с.
14. Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. 2012. Т. 4, № 4. С. 693–706.
15. Тихонов А. Н., Арсенин В. Я. Методы решения некорректных задач. 3-е изд., испр. М. : Наука, 1986. 286 с.
16. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. 1999. P. 50–57.
17. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation // Journal of Machine Learning Research. 2003. Vol. 3. P. 993–1022.
18. Воронцов К. В., Потапенко А. А. Аддитивная регуляризация тематических моделей // Доклады Академии наук. 2014. Т. 456, № 3. С. 268–271.
19. Попов О. Р. Адаптация мировых практик к проблеме долгосрочного технологического прогнозирования состояния самоорганизующихся интеллектуальных систем // Интеллектуальные ресурсы – региональному развитию. 2021. № 2. С. 91–98.
20. Крамаров С. О., Попов О. Р., Джариев И. Э. и др. Динамика формирования связей в сетях, структурированных на основе прогностических терминов // Russian Technological Journal. 2023. Т. 11, № 3. С. 17–29.https://doi.org/10.32362/2500-316X-2023-11-3-17-29.
21. Попов О. Р., Гросу А., Крамаров С. О. Комплексный сетевой алгоритм формирования глоссария контекстно-близких прогностических терминов // Современные информационные технологии и ИТ-образование. 2023. Т. 19, № 3. URL: http://sitito.cs.msu.ru/index.php/SITITO/article/view/999 (дата обращения: 25.03.2024).
22. Chuang J., Gupta S., Manning C. et al. Topic model diagnostics: Assessing domain relevance via topical alignment // International conference on machine learning. 2013. P. 612–620.
Review
For citations:
Popov O.R., Kramarov S.O. Optimization in probabilistic topic modeling of technological predictive information. Proceedings in Cybernetics. 2024;23(3):56-69. (In Russ.) https://doi.org/10.35266/1999-7604-2024-3-7