본문 바로가기
머신 러닝

08.Logistic Classification

by Jnamelight 2017. 12. 5.

이전에 공부했던 내용들은 어떤 숫자들을 예측했다면, 


이번에는 Binary Classification 이라고 두개중 한개를 고르는 방식을 공부해 볼 것이다.


실제로 이 알고리즘이 가장 많이 사용되고 있는대 그중에 대표적으로 3가지가 존재한다고 한다.


1. 스팸, 햄 구별 ( 스팸매일인지 아닌지를 구별 )


2. 페이스북 (우리가 페이스북에서 타임라인을 볼때 좋아요가 되어있는 것만 보여줌 )


3. 지출 방식에따라 도난 되어진 카드인지, 아닌지를 판별할때



이런식으로 두가지중 한가지의 선택지가 존재하는 알고리즘이다.


즉 0 , 1 (컴퓨터 그자체 알고리즘 ) 이라고 생각하면된다.






여기서 주의!!! 할점은



0 , 1 로 표현하는 classfication 에서 linear 로 표현 할때 문제가 발생하는대


0 ------------------------------------------

|

|

1--------------------------------------------

                      50


이런식의 그래프가 그려지게 되고  리니어( 대각선 )  하게 선을 그어서 50 이상은 성공, 미만은 실패 라 정할때


만약 학습당시 무한한 수로 학습을 시킨다면? 50의 기준이 50~ (초과 ) 가 되는 순간


알고리즘은 틀린 알고리즘이 된다.


그럼 어떻게 해주어야되는가 ?



정답은 공식의 변화를 주어서 0~1 사이에서 표현할수 있도록 압축 하는 것이다.


그럼 리니어한 표현이 가능하고 항상 0 과 1사이에서 존재하게 된다.


이 함수를 sigmoid 라고 부른다 


z 의 값이 아무리 커져도 1 로 수렴하고, 아무리 작아져도 0 으로 수렴한다. 


즉 z = WX 라고 표현이 가능할 것이다.


그럼 자연스럽게 H(x) = g(z) 로 표현이 가능해진다.


정리하자면.



위와같은 공식이 다시 만들어진다.  이것을 응용하여 여러가지 상황에서 학습을 할수 있게된다.



'머신 러닝' 카테고리의 다른 글

10.Soft_Regression  (0) 2017.12.06
09.Logistic Regression의 Cost 함수  (0) 2017.12.05
07.Multi_variable 실습  (0) 2017.12.04
06. Multi-variable linear regression  (0) 2017.12.03
05.Linear_regression의 cost 최소화 개념  (0) 2017.12.03

댓글