Menu

문서정보

선형회귀를 복습한다

선형회귀를 이해하면 Logistic classification을 더 쉽게 이해 할 수 있다. 그래서 복습한다. 복습해야 할 내용은 아래와 같다. 아래와 같은 데이터가 있다고 가정해보자.
x1(hours) x2 (attendance) y(score)
10 5 90
9 5 80
3 2 50
2 4 60
11 1 40
예측(Hypothesis)는 선형함수 로 나타낼 수 있다. 코스트(Cost Function)는 학습 데이터와 예측에서의 차이를 계산하기 위한 함수다. 함수는 와 같다. 학습이라는 것은 결국 코스트를 최소화하는 W를 찾는 과정이다. W를 찾기 위해서는 경사 하강법(Gradient decent)을 사용한다. 이 수식은 와 같다. 이들 3가지 요소를 이용하면 선형회귀 문제를 풀 수 있다.

Binary Classification

Binary Classfication는 둘 중 하나를 정해진 카테고리로 분류하기 위해서 사용한다. 등등 실제 현실에서 유용하게 사용 할 수 있는 툴을 만들 수 있다.

바이너리인 만큼 계산이 쉽도록 예측 결과를 0과 1로 나타낸다. 스팸메일인지에 대한 예측의 경우 Spam==1, Ham==0, 패이스북 feed를 노출할 것인지는 Show==1, Hide==0 등으로 단순하게 나타낸다.

선형회귀와 Binary Classification의 차이

공부한 시간에 따른 합격여부 정보를 가진 아래와 같은 데이터가 있다고 가정해 보자.

 간단한 classfication 예제

x 값은 공부한 시간이고, y 값은 합격 여부다. 값이 0이면 불합격, 1이면 합격이다. 우리는 여기에서 5시간 이상을 공부하면 합격 한다는 것을 알 수 있다. 언뜻 이 문제는 선형회귀모델로도 예측이 가능 할 것으로 보인다. 선형회귀모델로 풀어보자.

 선형회귀모델로 풀어보자

Cost 펑션