COMPARING CLASSIFICATION METHODS FOR NEWS TEXTS IN RUSSIAN USING MACHINE LEARNING ALGORITHMS
https://doi.org/10.34822/1999-7604-2022-1-63-71
Abstract
The article discusses the problem of classification of news texts in Russian using such machine learning algorithms as naive Bayes classifier, random decision forests, logistic regression, and artificial neural network. The texts of the Internet news portal Lenta.ru were selected from nine different classes –
sections of news articles to solve the problem. The software implementation in the framework of the study was carried out using the Python programming language. The preprocessing of text data included removal of irrelevant characters and their reduction to a common register, tokenization, normalization, removal of stop words and vectorization of texts. Tensorflow and Keras libraries of the Python programming language were used to implement an artificial neural network. For each of the machine learning models used, hyperparameters values were determined in order to achieve the highest classification quality using a number of metrics: precision, recall and F-measure. A comparative analysis of the algorithms used was carried out. Possible ways for further study within the problem in question are specified.
About the Authors
E. A. ChelyshevRussian Federation
Master’s Degree Student
Е-mail: chel.ed@yandex.ru
Sh. A. Otsokov
Russian Federation
Doctor of Sciences (Engineering)
Е-mail: Shamil24@mail.ru
M. V. Raskatova
Russian Federation
Candidate of Sciences (Engineering)
Е-mail: marina@raskatova.ru
P. Shchegolev
Russian Federation
Assistant Professor
Е-mail: Shchegolevsp@mpei.ru
References
1. Reinsel D., Gantz J., Rydning J. The Digitalization of the World – From Edge to Core. IDC White Paper, 2018. 28 p. URL: https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagatedataage-whitepaper.pdf (дата обращения: 11.01.2022).
2. Батура Т. В. Методы автоматической классификации текстов // Программн. продукты и системы. 2017. Т. 30, № 1. С. 85–99.
3. Шаграев А. Г. Модификация, разработка и реализация методов классификации новостных текстов : дис. … канд. техн. наук. М., 2014. 108 с.
4. News Dataset from Lenta.ru. URL: https://www.kag gle.com/yutkin/corpus-of-russian-news-articles-fromlenta (дата обращения: 08.02.2022).
5. Челышев Э. А., Оцоков Ш. А., Раскатова М. В. Автоматическая рубрикация текстов с использованием алгоритмов машинного обучения // Вестн. Рос. нового ун-та. Сер.: Сложные системы: модели, анализ, управление. 2021. № 4. С. 175–182. DOI 10.25586/RNU.V9187.21.04.P.175.
6. Вершинин Е. В., Тимченко Д. К. Исследование применения стемминга и лемматизации при разработке систем адаптивного перевода текста // Наука. Исследования. Практика : сб. изб. ст. по материалам Междунар. науч. конф. СПб. : Гуманитар. национал. исслед. ин-т «НАЦРАЗВИТИЕ», 2020. С. 77–79.
7. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Proceedings of the 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9–11, 2015. P. 330–342. DOI 10.1007/978-3-319-26123-2_31.
8. Мартынов В. А., Плотникова Н. П. Нормализация и фильтрация текста для задачи кластеризации // XLVIII Огаревские чтения : материалы науч. конф. В 3 ч. Саранск, 06–13 декабря 2019 г. Саранск : Национал. исслед. Мордов. гос. ун-т им. Н. П. Огарева, 2020. С. 448–452.
9. Korogodina O., Klyshinsky E., Karpik O. Evaluation of Vector Transformations for Russian Word2Vec and FastText Embeddings // Proceedings of the 30th International Conference on Computer Graphics and Machine Vision (GraphiCon 2020). Part 2. Saint Petersburg, 2020.
10. Жеребцова Ю. А., Чижик А. В. Сравнение моделей векторного представления текстов в задаче создания чатбота // Вестник НГУ. Сер.: Лингвистика и межкультурная коммуникация. 2020. Т. 18, № 3. С. 16–34. DOI 10.25205/1818-7935-2020-18-3-16-34.
11. Рубцова Ю. С. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности : дис. … канд. техн. наук. Новосибирск, 2019. 141 с.
12. Fadlil A., Riadi I., Aji S. DDoS Attacks Classification Using Numeric Attribute-Based Gaussian Naive Bayes // International Journal of Advanced Computer Science and Applications. 2017. № 8. P. 42–50. DOI 10.14569/IJACSA.2017.080806.
13. Aggarwal C. C., Zhai C. Mining Text Data. Boston : Springer, 2012. 524 p.
14. Полин Я. А., Зудилова Т. В., Ананченко И. В., Войтюк Т. Е. Деревья решений в задачах классификации: особенности применения и методы повышения качества классификации // Современ. наукоемкие технологии. 2020. № 9. С. 59–63. DOI 10.17513/snt.38215.
15. Bertsimas D., Dunn J. Optimal classification trees // Machine Learning. 2017. Vol. 106. P. 1039–1082.
16. Челышев Э. А., Оцоков Ш. А., Раскатова М. В. Разработка информационной системы для автоматической рубрикации новостных текстов // Междунар. журн. информацион. технологий и энергоэффективности. 2021. Т. 6, № 3 (21). С. 11–17.
17. Vujovic Z. D. Classification Model Evaluation Metrics // International Journal of Advanced Computer Science and Applications. 2021. Vol. 12, № 6. P. 599–606.
Review
For citations:
Chelyshev E.A., Otsokov Sh.A., Raskatova M.V., Shchegolev P. COMPARING CLASSIFICATION METHODS FOR NEWS TEXTS IN RUSSIAN USING MACHINE LEARNING ALGORITHMS. Proceedings in Cybernetics. 2022;(1 (45)):63-71. (In Russ.) https://doi.org/10.34822/1999-7604-2022-1-63-71