로지스틱 선형(Rogistic Regression)
로지스틱 회귀는 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법이다._위키피디아
로지스틱 회귀는 수학을 사용하여 두 데이터 요인 간의 관계를 찾는 데이터 분석 기법이다. 그런 다음 이 관계를 사용하여 다른 요인을 기반으로 이러한 요인 중 하나의 값을 예측한다. 예측은 일반적으로 ‘예’ 또는 ‘아니요’와 같이 유한한 수의 결과를 가진다.
로지스틱 회귀를 위한 함수로는 시그모이드(Sigmoid) 함수를 사용한다.
Sigmoid function: $\frac{1}{1+e^{-x}}$
로지스틱 함수 개념
- odds = $\frac{p}{1-p}$ 라고 하자. 여기서 p는 성공확률, (1-p)는 실패확률이다. 즉 odds는 실패 확률 대비 성공 확률의 비(ratio)이다.
- odds = $\frac{p}{1-p}=e^{\alpha+\beta x}$ 라고 정하자. 둘 다 출력 값 범위가 같다.
- 위 식의 양 변에 로그를 적용하면 $ \alpha+\beta x =\log (\frac{p}{1-p})$로 바꿀 수 있다. 이 때, $(\alpha+\beta x)$를 새로운 변수 $t$라고 하자.
- $f(t)=\frac{1}{1+e^{-t}}$ 식을 시그모이드 함수 혹은 로지스틱 함수라고 한다. 여기서 함수의 x축은 독립 변수의 선형 결합이다.
로지스틱 함수 유도
- $ \frac{p}{1-p}=e^t$ 라고 위 개념에서 정의했다. 다음으로 양 변에 역수를 적용하자.
- $ \frac{1-p}{p}=\frac{1}{p}-1=\frac{1}{e^t}$ 식에 다시 양 변에 1을 더하자.
- $\frac{1}{p}=\frac{1}{e^t}+1=\frac{1}{e^t}+\frac{e^t}{e^t}=\frac{e^t+1}{e^t}$
- $p=\frac{e^t}{1+e^t}=\frac{1}{1+e^{-t}}$ 마지막 항은 분자, 분모에 $e^t$를 나눈 값이다.
로지스틱 함수를 사용하면 입력 $t=\alpha +\beta x$ (범위: $[-\infty, \infty]$ )를 넣으면 $p$ (범위: [0, 1]) 출력을 얻을 수 있다. 여기서 α,β 는 파라미터이고 우리가 찾아야 할 값이다. [참고자료 1]
위 포스팅은 이항 로지스틱 회귀를 예시로 들었다. 다항 로지스틱 회귀는 $t$ 값이 $\alpha +\beta x$ 가 아닌 $\alpha +\beta_i x_i$ 이다. 여기서 $i$는 index이다.
참고자료
https://angeloyeo.github.io/2020/09/23/logistic_regression.html
https://mazdah.tistory.com/769
https://ko.wikipedia.org/wiki/%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1_%ED%9A%8C%EA%B7%80
https://aws.amazon.com/ko/what-is/logistic-regression/
'수학' 카테고리의 다른 글
[수학] 퓨리에 변환 (Fourier Transform) (0) | 2024.09.19 |
---|