이전에 공부했던 내용들은 어떤 숫자들을 예측했다면,
이번에는 Binary Classification 이라고 두개중 한개를 고르는 방식을 공부해 볼 것이다.
실제로 이 알고리즘이 가장 많이 사용되고 있는대 그중에 대표적으로 3가지가 존재한다고 한다.
1. 스팸, 햄 구별 ( 스팸매일인지 아닌지를 구별 )
2. 페이스북 (우리가 페이스북에서 타임라인을 볼때 좋아요가 되어있는 것만 보여줌 )
3. 지출 방식에따라 도난 되어진 카드인지, 아닌지를 판별할때
이런식으로 두가지중 한가지의 선택지가 존재하는 알고리즘이다.
즉 0 , 1 (컴퓨터 그자체 알고리즘 ) 이라고 생각하면된다.
여기서 주의!!! 할점은
0 , 1 로 표현하는 classfication 에서 linear 로 표현 할때 문제가 발생하는대
0 ------------------------------------------
|
|
1--------------------------------------------
50
이런식의 그래프가 그려지게 되고 리니어( 대각선 ) 하게 선을 그어서 50 이상은 성공, 미만은 실패 라 정할때
만약 학습당시 무한한 수로 학습을 시킨다면? 50의 기준이 50~ (초과 ) 가 되는 순간
알고리즘은 틀린 알고리즘이 된다.
그럼 어떻게 해주어야되는가 ?
정답은 공식의 변화를 주어서 0~1 사이에서 표현할수 있도록 압축 하는 것이다.
그럼 리니어한 표현이 가능하고 항상 0 과 1사이에서 존재하게 된다.
이 함수를 sigmoid 라고 부른다
z 의 값이 아무리 커져도 1 로 수렴하고, 아무리 작아져도 0 으로 수렴한다.
즉 z = WX 라고 표현이 가능할 것이다.
그럼 자연스럽게 H(x) = g(z) 로 표현이 가능해진다.
정리하자면.
위와같은 공식이 다시 만들어진다. 이것을 응용하여 여러가지 상황에서 학습을 할수 있게된다.
'머신 러닝' 카테고리의 다른 글
10.Soft_Regression (0) | 2017.12.06 |
---|---|
09.Logistic Regression의 Cost 함수 (0) | 2017.12.05 |
07.Multi_variable 실습 (0) | 2017.12.04 |
06. Multi-variable linear regression (0) | 2017.12.03 |
05.Linear_regression의 cost 최소화 개념 (0) | 2017.12.03 |
댓글