Recommanded Free YOUTUBE Lecture: <% selectedImage[1] %>

선형회귀를 복습한다

선형회귀를 이해하면 Logistic classification을 더 쉽게 이해 할 수 있다. 그래서 복습한다. 복습해야 할 내용은 아래와 같다.
  • Hypothesis
  • Cost Function
  • Gradient decent
아래와 같은 데이터가 있다고 가정해보자.
x1(hours) x2 (attendance) y(score)
10 5 90
9 5 80
3 2 50
2 4 60
11 1 40
예측(Hypothesis)는 선형함수 로 나타낼 수 있다. 코스트(Cost Function)는 학습 데이터와 예측에서의 차이를 계산하기 위한 함수다. 함수는 와 같다. 학습이라는 것은 결국 코스트를 최소화하는 W를 찾는 과정이다. W를 찾기 위해서는 경사 하강법(Gradient decent)을 사용한다. 이 수식은 와 같다. 이들 3가지 요소를 이용하면 선형회귀 문제를 풀 수 있다.

Binary Classification

Binary Classfication는 둘 중 하나를 정해진 카테고리로 분류하기 위해서 사용한다.
  • 이 메일이 Spam 인지 Ham 인지
  • Facebook feed가 관심있을 feed 인지, 그렇지 않은 feed 일지
  • 신용카드의 사용 패턴이 정상인지 아닌지
  • 주식을 팔 때인가 살 때인가.
등등 실제 현실에서 유용하게 사용 할 수 있는 툴을 만들 수 있다.

바이너리인 만큼 계산이 쉽도록 예측 결과를 0과 1로 나타낸다. 스팸메일인지에 대한 예측의 경우 Spam==1, Ham==0, 패이스북 feed를 노출할 것인지는 Show==1, Hide==0 등으로 단순하게 나타낸다.

선형회귀와 Binary Classification의 차이

공부한 시간에 따른 합격여부 정보를 가진 아래와 같은 데이터가 있다고 가정해 보자.

 간단한 classfication 예제

x 값은 공부한 시간이고, y 값은 합격 여부다. 값이 0이면 불합격, 1이면 합격이다. 우리는 여기에서 5시간 이상을 공부하면 합격 한다는 것을 알 수 있다. 언뜻 이 문제는 선형회귀모델로도 예측이 가능 할 것으로 보인다. 선형회귀모델로 풀어보자.

 선형회귀모델로 풀어보자

Cost 펑션

  • 선형적이지 않다. 선형 회귀 알고리즘의 cost 함수는 사용 할 수 없다.
  • Log를 이용 선형적으로 만든다.