Preview

Вестник кибернетики

Расширенный поиск

МЕТОД ОЦЕНИВАНИЯ ЛОГИСТИЧЕСКИХ РЕГРЕССИЙ С ПОМОЩЬЮ АППАРАТА ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ

https://doi.org/10.35266/1999-7604-2024-2-2

Содержание

Перейти к:

Аннотация

Статья посвящена проблеме оценивания логистических регрессий, в которых объясняемая переменная принимает только два значения – 0 и 1. Прогнозные значения объясняемой переменной оцененной логистической регрессии трактуются как вероятности возникновения некоторого события, поэтому такие модели находят широкое применение при решении задач классификации. Для оценивания логистических регрессий на практике в основном используется метод максимального правдоподобия, реализованный во многих современных статистических пакетах. Один из его недостатков, например, в том, что в случае полной разделимости объектов на два класса он не дает единственных оценок. В работе предложен новый метод оценивания логистических регрессий. Условно его можно разбить на два этапа. Первый этап состоит в решении специальным образом сформулированной задачи линейного программирования, благодаря чему находятся весовые коэффициенты линейной комбинации объясняющих переменных. По сути, уже на этом этапе осуществляется классификация. Второй этап состоит в калибровке масштаба вероятностей. На основе реальной выборки объема 100 проведены вычислительные эксперименты. Новый метод доказал свою работоспособность при полной разделимости объектов на два класса. К тому же по количеству корректно предсказанных случаев новый метод ни разу не уступил методу максимального правдоподобия, а в одном из экспериментов и вовсе превзошел его.

Для цитирования:


Базилевский М.П., Малыгин А.А., Шаманова А.Е. МЕТОД ОЦЕНИВАНИЯ ЛОГИСТИЧЕСКИХ РЕГРЕССИЙ С ПОМОЩЬЮ АППАРАТА ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ. Вестник кибернетики. 2024;23(2):14-22. https://doi.org/10.35266/1999-7604-2024-2-2

For citation:


Bazilevsky M.P., Malygin A.A., Shamanova A.E. METHOD FOR ESTIMATING LOGISTIC REGRESSIONS USING LINEAR PROGRAMMING APPARATUS. Proceedings in Cybernetics. 2024;23(2):14-22. (In Russ.) https://doi.org/10.35266/1999-7604-2024-2-2

ВВЕДЕНИЕ

В современных технологиях машинного обучения [1–3] актуальными и широко применяемыми считаются задачи классификации, решение которых заключается в построении алгоритмов, способных автоматически разделять некоторые имеющиеся объекты или ситуации на классы. Например, задача классификации спама в электронной почте, состоящая в автоматическом определении по таким факторам, как текст письма, адрес отправителя, наличие ссылок и т. д., является ли письмо спамом или нет. Задача классификации клиента в банке с целью выдачи ему кредита в зависимости от его дохода, семейного положения, кредитной истории, возраста и т. д. Важную роль задачи классификации играют в обеспечении информационной безопасности предприятий, поскольку правильная классификация киберугрозы является залогом успеха в ее противодействии [4].

Если для классификации имеется только два класса объектов, то целесообразно перей­ти к оцениванию модели бинарного выбора [5][6] следующего вида:

(1)

где n – объем выборки;

l – число объясняющих переменных;

xij – i-е значение j-й объясняющей переменной;

yi ∈ {0,1} – i-е значение бинарной объясняемой переменной;

εi – i-я ошибка аппроксимации;

α0, α1, ..., αl – неизвестные параметры;

G(z) – некоторая вещественная функция от аргумента z.

При логистическом распределении функция (сигмоида), поэтому модель (1) принимает вид:

(2)

Модель (2) называется логистической регрессией (логит-моделью).

Логистические регрессии применяются в различных сферах человеческой деятельности. Так, например, в [7] построена логистическая регрессия для прогнозирования летальности в отделении интенсивной терапии, в [8] – для вычисления повреждаемости твердого деформируемого тела, в [9] – для прогнозирования использования населением портала государственных услуг.

Поскольку все расчетные значения объясняемой переменной y, полученные с помощью оцененной логит-модели (2), всегда попадают в промежуток от 0 до 1, то их отождествляют с вероятностями. Если эта вероятность больше 0,5, то объект или ситуация соответствует классу № 1, а если меньше 0,5 – классу № 2.

К сожалению, логистические регрессии являются нелинейными по неизвестным параметрам, поэтому для их оценивания нельзя использовать простые методы наименьших квадратов или модулей. Вместо них применяется метод максимального правдоподобия (ММП) [10][11]. Алгоритмы ММП реализованы во многих современных статистических пакетах, например в Gretl. Однако в случае полной разделимости объектов или ситуаций на два класса ММП-оцен­ки логистической регрессии не единственны. На устранение данного недостатка направлено данное исследование.

Цель работы состоит в разработке простого метода оценивания логистических регрессий, способного работать даже в условиях абсолютной классификации объектов.

МАТЕРИАЛЫ И МЕТОДЫ

Аппарат математического программирования [12][13] активно применяется в настоящее время в научных исследованиях для решения самых разных прикладных задач. Также он находит применение в регрессионном анализе (см., например, [14–17]).

Сигмоида устроена так, что при z = 0 функция G = ½, поэтому классифицировать объекты в этой точке, вообще говоря, невозможно. Если z > 0, то G > ½, поэтому объекты относятся к первому классу. Если же z < 0, то G < ½, поэтому объекты относятся ко второму классу. Из этого следует, что для классификации требуется подобрать неизвестные параметры α0, α1, ..., αl значений аргументов сигмоиды:

(3)

так, чтобы выполнялись следующие условия:

zi > 0, iI1, (4)

zi < 0, iI0, (5)

где I= {i | yi = 0}, I= {i | yi = 1}.

Неравенства в условиях (4), (5) строгие, поэтому их нельзя задействовать в задаче линейного программирования (ЛП). Тогда придадим им нестрогий вид:

zi 0, iI1, (6)

zi 0, iI0. (7)

Условия (6), (7) означают, что если в результате оценивания zi = 0, то классифицировать объект невозможно. Поэтому заменим их следующими соотношениями:

zi r, iI1, (8)

zi r, iI, (9)

где r – заданное исследователем положительное число.

Если область решений системы линейных неравенств (3), (8) и (9) непустое множество, то возможна полная разделимость объектов на два класса. На практике же такое может происходить нечасто, поэтому введем ошибки классификации:

ui 0, i = 1,n. (10)

Если i-й объект классифицирован верно, то ui = 0. Учитывая это, условия (8), (9) нужно переписать в виде:

zi r – ui, iI1, (11)

zi r + ui, iI. (12)

Сумма ошибок, естественным образом, должна быть минимальной, т. е.

(13)

Тогда решение задачи ЛП с целевой функцией (13) и линейными ограничениями (3), (10)–(12) позволяет найти такие значения параметров α0, α1, ..., αl, при которых сумма ошибок классификации минимальна.

Заметим, что подобную формулировку задачи ЛП можно встретить в других ранее опубликованных научных статьях, посвященных инструментам оценки кредитоспособности заемщиков. Так, в работе [18], датированной 2012 г., при анализе методов классификации приведена следующая задача ЛП:

α1 + α2 + ... + αng+nb → min,

w1xi+ w2xi+ ... + wpxip c – ai, 1 ≤ i ≤ ng,

w1xi+ w2xi+ ... + wpxip c – ai,

ng + ≤ i ≤ ng + nb,

ai 0, 1 ≤ i ≤ ng + nb,

где ng – количество «хороших» заемщиков;

nb – количество «плохих» заемщиков;

xip – ответ i-го заемщика на p-й вопрос анкеты;

с – заданная граница, отделяющая «плохого» заемщика от «хорошего»;

αi – i-я ошибка классификации;

w1, ..., wp – неизвестные веса.

Точно такую же постановку можно найти в зарубежной статье [19], опубликованной и вовсе в 2000 г. Там же отмечено, что модели ЛП для решения проблемы классификации были предложены еще в 1981 г. в работе [20]. Однако если в этой задаче взять c = 0, то ее решением всегда будут нулевые веса и нулевые ошибки классификации. В сформулированной нами задаче ЛП (3), (10)–(13) такая особенность за счет введения числа r исключена.

Выясним, как влияет выбор параметра r на результаты решения задачи ЛП (3), (10)–(13). Пусть при r = r* эта задача имеет оптимальное решение a0 = a0*, a1 = a1*, ..., al = al*, u1 = u1*, ..., un = un*, z1 = z1*, …, zn = zn*. Увеличим значение параметра r в k > 0 раз, т. е. примем r = k × r*. Поделим все ограничения и целевую функцию в задаче ЛП на k. Тогда она принимает вид:

Эта задача имеет оптимальное решение

Отсюда следует, что при увеличении параметра r в k > 0 раз оптимальные значения всех переменных увеличатся также в k раз. Таким образом, если упорядочить оптимальные значения переменных z1, …, zn, найденные при r = r*, по возрастанию, то при r = k × r* эти значения увеличатся в k раз, но порядок их следования сохранится. Используем далее это свойство для проведения калибровки масштаба вероятностей.

После решения задачи ЛП (3), (10)–(13) вероятности отнесения объектов к одному из двух классов находятся по формуле:

Из-за того что значение параметра r в задаче ЛП выбирается произвольно, эти вероятности могут принимать непредсказуемые значения, например, они все могут быть очень близки к 0,5. В таком случае необходимо провести калибровку масштаба вероятностей, оценив неизвестный параметр β в следующей регрессионной модели:

(14)

К сожалению, регрессия (14) является нелинейной по неизвестному параметру. Поэтому калибровку масштаба вероятностей при проще осуществить по следующему алгоритму.

Шаг 1. Назначить близкое к единице число Δ. Например, Δ = 0,99, Δ = 0,999 или Δ = 0,9999.

Шаг 2. Если |zmin| < |zmax|, где zmin = min{z*1, z*2, ..., z*}, zmax= max{z*1, z*2, ..., z*}, то найти неизвестный параметр β регрессии (14) из уравнения:

откуда

Шаг 3. Если |zmin| > |zmax|, то найти неизвестный параметр β из уравнения:

откуда

Пусть при r = r* оптимальные значения параметров zi = zi*, i = 1,n, а при r = k × r* – zi = k × zi*, i = 1,n. Если |zmin| > |zmax|, то при r = r* величина

а при r = k × r*

В обоих случаях уравнение

будет одинаковым. Из этого следует, что для любого r калибровка масштаба вероятностей приводит к единственному уравнению.

Пусть при решении задачи ЛП (3), (10)– (13) значение целевой функции т. е. имеет место полная разделимость объектов на два класса. Очевидно, что в такой ситуации задача ЛП имеет не единственное решение, поэтому и калибровка масштаба вероятностей может давать разные результаты. Поэтому для такого случая вместо представленного трехшагового алгоритма следует решить задачу ЛП с целевой функцией:

r → max, (15)

с линейными ограничениями (3) и

(16)

(17)

Особенность нового метода оценивания логистических регрессий с помощью аппарата ЛП в том, что вероятности y*i, i = 1,n , всегда попадают в диапазон 1 – Δ y*i Δ.

РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ

Для демонстрации работы предложенного математического аппарата были использованы статистические данные из книги [21]. Бинарная переменная y равна 1, если сотрудник имеет право бесплатного доступа в Интернет, 0 – в противном случае. Объясняющие переменные: x1 – возраст сотрудника, x2 – стаж профессиональной деятельности, x3 – заработная плата, x4 – число случаев поступления полезной для фирмы информации от сотрудника, x5 – результат тестирования на предмет оценки навыков работы в Интернете. Общий объем выборки составил 100.

ММП-оценивание логистических регрессий проводилось с использованием эконометрического пакета Gretl, для решения задач ЛП применялся пакет LPSolve IDE.

Эксперимент № 1 (использовались первые 20 наблюдений выборки).

Исходные статистические данные представлены в таблице.

Таблица

Исходные данные и результаты оценивания логистической регрессии

y

x1

x2

x3

x4

x5

y*

0

22

1

2,5

2

6

0,222

0

24

1

3

3

8

0,408

1

25

1

2,1

1

7

0,592

1

27

4

4,6

8

11

0,679

1

28

3

5,9

9

13

0,592

0

21

1

3,3

5

14

0,408

1

22

1

3,2

9

15

0,779

0

29

5

6

1

13

0,224

1

26

4

2,7

8

11

0,917

0

27

6

3,8

0

3

0,146

1

28

4

4,2

9

11

0,862

0

29

3

6,7

5

13

0,266

1

29

9

6,5

10

14

0,592

1

30

4

3,4

9

13

0,980

1

41

7

7,2

7

15

0,984

0

32

8

7,9

4

7

0,071

1

46

9

6,4

9

12

0,999

1

34

3

6,3

8

13

0,899

0

33

3

6,1

1

9

0,408

1

47

9

9,7

5

13

0,952

Примечание: составлено авторами на основании данных, полученных в исследовании.

В Gretl была зафиксирована ошибка «Получен идеальный прогноз: MLE не существует». Это связано с тем, что имеет место полная разделимость объектов на два класса, поэтому единственных ММП-оценок логистической регрессии не существует.

В LPSolve задача ЛП (3), (10)–(13) была решена при r = 0,01. Все ошибки классификации оказались равны 0. Поэтому для калибровки масштаба вероятностей была решена задача ЛП (3), (15)–(17) при Δ = 0,999. Оцененная логистическая регрессия имеет вид:

(18)

Найденные по модели (18) вероятности представлены в последнем столбце таблицы. Как видно, абсолютно все объекты классифицированы корректно.

Эксперимент № 2 (использовались все 100 наблюдений выборки).

Оцененная по этим данным в Gretl с помощью ММП логистическая регрессия имеет вид:

(19)

Модель (19) корректно классифицирует 96 объектов, за исключением наблюдений под номерами 3, 6, 28 и 48.

В LPSolve при r = 0,01 была найдена следующая зависимость переменной z* от объясняющих переменных:

(20)

Для калибровки масштаба вероятностей было назначено Δ = 0,999. Установлено, что zmin = –0,08587, zmax = 0,081072. Поскольку |zmin| > |zmax|, то оценка параметра β определялась по формуле:

С учетом (20) оцененная логистическая регрессия имеет вид:

(21)

Модель (21) корректно классифицирует те же 96 объектов, что и модель (19). Но весовые коэффициенты этих регрессий различаются.

Та же самая модель (21) была получена при r = 100, что подтверждает корректность приведенных в данной работе математических выводов.

Эксперимент № 3 (использовались все 100 наблюдений выборки, но в первых пятидесяти из них значения объясняемой переменной были выбраны 0, а в последних пятидесяти – 1).

Оцененная по этим данным в Gretl с помощью ММП логистическая регрессия имеет вид:

(22)

Модель (22) корректно классифицирует 52 объекта.

Оцененная новым методом при r = 0,01 и Δ = 0,999 логит-модель имеет вид:

(23)

Модель (23) корректно классифицирует 56 объектов. Таким образом, в этом эксперименте результаты классификации новым методом оказались лучше, чем при использовании ММП.

ЗАКЛЮЧЕНИЕ

В данной работе предложен новый метод оценивания неизвестных параметров логистических регрессий, в основе которого – решение специальным образом сформулированной задачи ЛП. В результате ее решения определяются неизвестные весовые коэффициенты гиперплоскости, разделяющей объекты двух различных классов, т. е. осуществляется классификация. Показано, чем предложенная задача отличается от подобных задач ЛП. Доказана однородность сформулированной задачи ЛП. На основе этого разработан алгоритм калибровки масштаба вероятностей в логистической регрессии. На реальных данных проведены вычислительные эксперименты. Показано, что новый метод, в отличие от ММП, работает даже в случае полной разделимости объектов на два класса. По количеству корректно предсказанных случаев новый метод ни разу не уступил ММП, а в одном из экспериментов и вовсе превзошел его.

Список литературы

1. Géron A. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow. Concepts, tools, and techniques to build intelligent systems. Sebastopol, CA : O’Reilly Media, 2022. 861 p.

2. Kelleher J. D., Mac Namee B., D’arcy A. Fundamentals of machine learning for predictive data analytics: Algorithms, worked examples, and case studies. Cambridge, Massachusetts : MIT press, 2020. 856 p.

3. Alpaydin E. Introduction to machine learning. Cambridge, Massachusetts : MIT press, 2020. 798 p.

4. Кажемский М. А., Шелухин О. И. Многоклассовая классификация сетевых атак на информационные ресурсы методами машинного обучения // Труды учебных заведений связи. 2019. Т. 5, № 1. С. 107–115. DOI 10.31854/1813-324X-2019-5-1-107-115.

5. Горошко И. В., Гонов Ш. Х. Разработка алгоритма оценки результатов деятельности органов внутренних дел с использованием моделей бинарного выбора // Моделирование, оптимизация и информационные технологии. 2018. Т. 6, № 2. С. 368–378.

6. Космыкова Т. Бинарные модели оценки риска банкротства предприятий // Наука и инновации. 2016. № 2. С. 47–50.

7. Лучинин А. С., Лянгузов А. В. Модель логистической регрессии для прогнозирования летальности в отделении интенсивной терапии: проблемы и решения // Качественная клиническая практика. 2022. № 2. С. 13–20.

8. Мармыш Д. Е. Применение логистической регрессии к вычислению повреждаемости твердого деформируемого тела // Механика машин, механизмов и материалов. 2021. № 1. С. 46–53. DOI 10.46864/1995-0470-2020-1-54-46-53.

9. Кошевой О. С. Модель логистической регрессии для прогнозирования использования населением портала государственных услуг // Государственное управление. Электронный вестник. 2021. № 86. С. 42–56.

10. Копытцев В. А. Оценка надежности метода максимального правдоподобия при его использовании для решения систем уравнений с искажениями в правых частях // Математические вопросы криптографии. 2023. Т. 14, № 3. С. 107–117.

11. Ефремова И. Н., Ефремов В. В. Восстановление непрерывного изображения с использованием оценок максимального правдоподобия и интерполяции по атомарным функциям в соответствии с апертурой светочувствительного элемента датчика // Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение. 2022. Т. 12, № 1. С. 84–98. DOI 10.21869/2223-1536-2022-12-1-84-98.

12. Иваньо Я. М. О некоторых методах математического моделирования в решении задач прогнозирования и планирования производства аграрной продукции // Актуальные вопросы аграрной науки. 2021. № 38. С. 49–57.

13. Lachhwani K. Application of neural network models for mathematical programming problems: A state of art review // Archives of Computational Methods in Engineering. 2020. Vol. 27. P. 171–182.

14. Базилевский М. П. Программа построения вполне интерпретируемых элементарных и неэлементарных квазилинейных регрессионных моделей // Труды Института системного программирования РАН. 2023. Т. 35, № 4. С. 129–144. DOI 10.15514/ISPRAS-2023-35(4)-7.

15. Базилевский М. П. Метод построения неэлементарных линейных регрессий на основе аппарата математического программирования // Проблемы управления. 2022. № 4. С. 3–14. DOI 10.25728/pu.2022.4.1.

16. Базилевский М. П. Отбор информативных регрессоров с учетом мультиколлинеарности между ними в регрессионных моделях как задача частично-булевого линейного программирования // Моделирование, оптимизация и информационные технологии. 2018. Т. 6, № 2. С. 104–118.

17. Базилевский М. П. Построение вполне интерпретируемых линейных регрессионных моделей с помощью метода последовательного повышения абсолютных вкладов переменных в общую детерминацию // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2022. № 2. С. 5–16.

18. Никаненкова В. В. Кредитный скоринг как инструмент оценки кредитоспособности заемщиков // Вестник Адыгейского государственного университета, серия «Экономика». 2012. № 2. С. 32–38.

19. Thomas L. C. A survey of credit and behavioural scoring: Forecasting fi nancial risk of lending to consumers // International Journal of Forecasting. 2000. Vol. 16, no. 2. P. 149–172.

20. Freed N., Glover F. Applications and Implementation: A linear programming approach to the discriminant problem // Decision Sciences. 1981. Vol. 12, no. 1. P. 68–74.

21. Исмагилов И. И., Кадочникова Е. И. Специальные модели эконометрики в среде Gretl. Казань : Казан. ун-т, 2018. 91 с.


Об авторах

Михаил Павлович Базилевский
Иркутский государственный университет путей сообщения, Иркутск
Россия

кандидат технических наук, доцент



Артём Александрович Малыгин
Иркутский государственный университет путей сообщения, Иркутск
Россия

магистрант



Анна Евгеньевна Шаманова
Иркутский государственный университет путей сообщения, Иркутск
Россия

магистрант



Рецензия

Для цитирования:


Базилевский М.П., Малыгин А.А., Шаманова А.Е. МЕТОД ОЦЕНИВАНИЯ ЛОГИСТИЧЕСКИХ РЕГРЕССИЙ С ПОМОЩЬЮ АППАРАТА ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ. Вестник кибернетики. 2024;23(2):14-22. https://doi.org/10.35266/1999-7604-2024-2-2

For citation:


Bazilevsky M.P., Malygin A.A., Shamanova A.E. METHOD FOR ESTIMATING LOGISTIC REGRESSIONS USING LINEAR PROGRAMMING APPARATUS. Proceedings in Cybernetics. 2024;23(2):14-22. (In Russ.) https://doi.org/10.35266/1999-7604-2024-2-2

Просмотров: 122


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1999-7604 (Online)