Preview

Вестник кибернетики

Расширенный поиск

СРАВНЕНИЕ МЕТОДОВ КЛАССИФИКАЦИИ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ

https://doi.org/10.34822/1999-7604-2022-1-63-71

Аннотация

В работе рассмотрена задача классификации русскоязычных новостных текстов с использованием таких алгоритмов машинного обучения, как наивный байесовский классификатор, случайный лес деревьев решений, логистическая регрессия и искусственная нейронная сеть. Для решения задачи использовались тексты новостного интернет-портала Lenta.ru, относящиеся к девяти различным классам – рубрикам новостных статей. Программная реализация в рамках данной работы проводилась с использованием языка программирования Python. Проведена предварительная обработка текстовых данных: удаление нерелевантных символов и приведение их к общему регистру, токенизация, нормализация, удаление стоп-слов и векторизация текстов. Для реализации искусственной нейронной сети в рамках данной работы использовались библиотеки Tensorflow и Keras языка программирования Python. Для каждой из использованных моделей машинного обучения были определены значения гиперпараметров, дающих наивысшее качество классификации, с использованием ряда метрик: precision, recall и F-мера. Проведен сравнительный анализ использованных алгоритмов. Указаны возможные пути дальнейшей работы в рамках рассматриваемой задачи.

Для цитирования:


Челышев Э.А., Оцоков Ш.А., Раскатова М.В., Щёголев П. СРАВНЕНИЕ МЕТОДОВ КЛАССИФИКАЦИИ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ. Вестник кибернетики. 2022;(1 (45)):63-71. https://doi.org/10.34822/1999-7604-2022-1-63-71

For citation:


Chelyshev E.A., Otsokov Sh.A., Raskatova M.V., Shchegolev P. COMPARING CLASSIFICATION METHODS FOR NEWS TEXTS IN RUSSIAN USING MACHINE LEARNING ALGORITHMS. Proceedings in Cybernetics. 2022;(1 (45)):63-71. (In Russ.) https://doi.org/10.34822/1999-7604-2022-1-63-71

Просмотров: 462


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1999-7604 (Online)