선형회귀를 이해하면 Logistic classification을 더 쉽게 이해 할 수 있다. 그래서 복습한다. 복습해야 할 내용은 아래와 같다.
Hypothesis
Cost Function
Gradient decent
아래와 같은 데이터가 있다고 가정해보자.
x1(hours)
x2 (attendance)
y(score)
10
5
90
9
5
80
3
2
50
2
4
60
11
1
40
예측(Hypothesis)는 선형함수
로 나타낼 수 있다. 코스트(Cost Function)는 학습 데이터와 예측에서의 차이를 계산하기 위한 함수다. 함수는
와 같다. 학습이라는 것은 결국 코스트를 최소화하는 W를 찾는 과정이다. W를 찾기 위해서는 경사 하강법(Gradient decent)을 사용한다. 이 수식은
와 같다. 이들 3가지 요소를 이용하면 선형회귀 문제를 풀 수 있다.
Binary Classification
Binary Classfication는 둘 중 하나를 정해진 카테고리로 분류하기 위해서 사용한다.
이 메일이 Spam 인지 Ham 인지
Facebook feed가 관심있을 feed 인지, 그렇지 않은 feed 일지
신용카드의 사용 패턴이 정상인지 아닌지
주식을 팔 때인가 살 때인가.
등등 실제 현실에서 유용하게 사용 할 수 있는 툴을 만들 수 있다.
바이너리인 만큼 계산이 쉽도록 예측 결과를 0과 1로 나타낸다. 스팸메일인지에 대한 예측의 경우 Spam==1, Ham==0, 패이스북 feed를 노출할 것인지는 Show==1, Hide==0 등으로 단순하게 나타낸다.
선형회귀와 Binary Classification의 차이
공부한 시간에 따른 합격여부 정보를 가진 아래와 같은 데이터가 있다고 가정해 보자.
x 값은 공부한 시간이고, y 값은 합격 여부다. 값이 0이면 불합격, 1이면 합격이다. 우리는 여기에서 5시간 이상을 공부하면 합격 한다는 것을 알 수 있다. 언뜻 이 문제는 선형회귀모델로도 예측이 가능 할 것으로 보인다. 선형회귀모델로 풀어보자.
선형회귀를 복습한다
Binary Classification
선형회귀와 Binary Classification의 차이
Cost 펑션
Recent Posts
Archive Posts
Tags