СРАВНЕНИЕ МЕТОДОВ КЛАССИФИКАЦИИ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ
https://doi.org/10.34822/1999-7604-2022-1-63-71
Аннотация
В работе рассмотрена задача классификации русскоязычных новостных текстов с использованием таких алгоритмов машинного обучения, как наивный байесовский классификатор, случайный лес деревьев решений, логистическая регрессия и искусственная нейронная сеть. Для решения задачи использовались тексты новостного интернет-портала Lenta.ru, относящиеся к девяти различным классам – рубрикам новостных статей. Программная реализация в рамках данной работы проводилась с использованием языка программирования Python. Проведена предварительная обработка текстовых данных: удаление нерелевантных символов и приведение их к общему регистру, токенизация, нормализация, удаление стоп-слов и векторизация текстов. Для реализации искусственной нейронной сети в рамках данной работы использовались библиотеки Tensorflow и Keras языка программирования Python. Для каждой из использованных моделей машинного обучения были определены значения гиперпараметров, дающих наивысшее качество классификации, с использованием ряда метрик: precision, recall и F-мера. Проведен сравнительный анализ использованных алгоритмов. Указаны возможные пути дальнейшей работы в рамках рассматриваемой задачи.
Об авторах
Э. А. ЧелышевРоссия
магистрант
E-mail: chel.ed@yandex.ru
Ш. А. Оцоков
Россия
доктор технических наук
E-mail: Shamil24@mail.ru
М. В. Раскатова
Россия
кандидат технических наук
E-mail: marina@raskatova.ru
П. Щёголев
Россия
ассистент
E-mail: Shchegolevsp@mpei.ru
Список литературы
1. Reinsel D., Gantz J., Rydning J. The Digitalization of the World – From Edge to Core. IDC White Paper, 2018. 28 p. URL: https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagatedataage-whitepaper.pdf (дата обращения: 11.01.2022).
2. Батура Т. В. Методы автоматической классификации текстов // Программн. продукты и системы. 2017. Т. 30, № 1. С. 85–99.
3. Шаграев А. Г. Модификация, разработка и реализация методов классификации новостных текстов : дис. … канд. техн. наук. М., 2014. 108 с.
4. News Dataset from Lenta.ru. URL: https://www.kag gle.com/yutkin/corpus-of-russian-news-articles-fromlenta (дата обращения: 08.02.2022).
5. Челышев Э. А., Оцоков Ш. А., Раскатова М. В. Автоматическая рубрикация текстов с использованием алгоритмов машинного обучения // Вестн. Рос. нового ун-та. Сер.: Сложные системы: модели, анализ, управление. 2021. № 4. С. 175–182. DOI 10.25586/RNU.V9187.21.04.P.175.
6. Вершинин Е. В., Тимченко Д. К. Исследование применения стемминга и лемматизации при разработке систем адаптивного перевода текста // Наука. Исследования. Практика : сб. изб. ст. по материалам Междунар. науч. конф. СПб. : Гуманитар. национал. исслед. ин-т «НАЦРАЗВИТИЕ», 2020. С. 77–79.
7. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Proceedings of the 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9–11, 2015. P. 330–342. DOI 10.1007/978-3-319-26123-2_31.
8. Мартынов В. А., Плотникова Н. П. Нормализация и фильтрация текста для задачи кластеризации // XLVIII Огаревские чтения : материалы науч. конф. В 3 ч. Саранск, 06–13 декабря 2019 г. Саранск : Национал. исслед. Мордов. гос. ун-т им. Н. П. Огарева, 2020. С. 448–452.
9. Korogodina O., Klyshinsky E., Karpik O. Evaluation of Vector Transformations for Russian Word2Vec and FastText Embeddings // Proceedings of the 30th International Conference on Computer Graphics and Machine Vision (GraphiCon 2020). Part 2. Saint Petersburg, 2020.
10. Жеребцова Ю. А., Чижик А. В. Сравнение моделей векторного представления текстов в задаче создания чатбота // Вестник НГУ. Сер.: Лингвистика и межкультурная коммуникация. 2020. Т. 18, № 3. С. 16–34. DOI 10.25205/1818-7935-2020-18-3-16-34.
11. Рубцова Ю. С. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности : дис. … канд. техн. наук. Новосибирск, 2019. 141 с.
12. Fadlil A., Riadi I., Aji S. DDoS Attacks Classification Using Numeric Attribute-Based Gaussian Naive Bayes // International Journal of Advanced Computer Science and Applications. 2017. № 8. P. 42–50. DOI 10.14569/IJACSA.2017.080806.
13. Aggarwal C. C., Zhai C. Mining Text Data. Boston : Springer, 2012. 524 p.
14. Полин Я. А., Зудилова Т. В., Ананченко И. В., Войтюк Т. Е. Деревья решений в задачах классификации: особенности применения и методы повышения качества классификации // Современ. наукоемкие технологии. 2020. № 9. С. 59–63. DOI 10.17513/snt.38215.
15. Bertsimas D., Dunn J. Optimal classification trees // Machine Learning. 2017. Vol. 106. P. 1039–1082.
16. Челышев Э. А., Оцоков Ш. А., Раскатова М. В. Разработка информационной системы для автоматической рубрикации новостных текстов // Междунар. журн. информацион. технологий и энергоэффективности. 2021. Т. 6, № 3 (21). С. 11–17.
17. Vujovic Z. D. Classification Model Evaluation Metrics // International Journal of Advanced Computer Science and Applications. 2021. Vol. 12, № 6. P. 599–606.
Рецензия
Для цитирования:
Челышев Э.А., Оцоков Ш.А., Раскатова М.В., Щёголев П. СРАВНЕНИЕ МЕТОДОВ КЛАССИФИКАЦИИ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ. Вестник кибернетики. 2022;(1 (45)):63-71. https://doi.org/10.34822/1999-7604-2022-1-63-71
For citation:
Chelyshev E.A., Otsokov S.A., Raskatova M.V., Shchegolev P. COMPARING CLASSIFICATION METHODS FOR NEWS TEXTS IN RUSSIAN USING MACHINE LEARNING ALGORITHMS. Proceedings in Cybernetics. 2022;(1 (45)):63-71. (In Russ.) https://doi.org/10.34822/1999-7604-2022-1-63-71