Logistic (regression) classification

Recommanded Free YOUTUBE Lecture: <% selectedImage[1] %>

yundream
2016-11-04
2016-10-20
85641

선형회귀를 복습한다

선형회귀를 이해하면 Logistic classification을 더 쉽게 이해 할 수 있다. 그래서 복습한다. 복습해야 할 내용은 아래와 같다.

Hypothesis
Cost Function
Gradient decent

아래와 같은 데이터가 있다고 가정해보자.

x1(hours)	x2 (attendance)	y(score)
10	5	90
9	5	80
3	2	50
2	4	60
11	1	40

예측(Hypothesis)는 선형함수 $H(X)=WX$ 로 나타낼 수 있다. 코스트(Cost Function)는 학습 데이터와 예측에서의 차이를 계산하기 위한 함수다. 함수는 $cost(W)=\frac{1}{m}\sum(WX-y)^2$ 와 같다. 학습이라는 것은 결국 코스트를 최소화하는 W를 찾는 과정이다. W를 찾기 위해서는 경사 하강법(Gradient decent)을 사용한다. 이 수식은 $W:=W-\alpha\frac{\partial}{\partial{W}}cost(W)$ 와 같다. 이들 3가지 요소를 이용하면 선형회귀 문제를 풀 수 있다.

Binary Classification

Binary Classfication는 둘 중 하나를 정해진 카테고리로 분류하기 위해서 사용한다.

이 메일이 Spam 인지 Ham 인지
Facebook feed가 관심있을 feed 인지, 그렇지 않은 feed 일지
신용카드의 사용 패턴이 정상인지 아닌지
주식을 팔 때인가 살 때인가.

등등 실제 현실에서 유용하게 사용 할 수 있는 툴을 만들 수 있다.

바이너리인 만큼 계산이 쉽도록 예측 결과를 0과 1로 나타낸다. 스팸메일인지에 대한 예측의 경우 Spam==1, Ham==0, 패이스북 feed를 노출할 것인지는 Show==1, Hide==0 등으로 단순하게 나타낸다.

선형회귀와 Binary Classification의 차이

공부한 시간에 따른 합격여부 정보를 가진 아래와 같은 데이터가 있다고 가정해 보자.

x 값은 공부한 시간이고, y 값은 합격 여부다. 값이 0이면 불합격, 1이면 합격이다. 우리는 여기에서 5시간 이상을 공부하면 합격 한다는 것을 알 수 있다. 언뜻 이 문제는 선형회귀모델로도 예측이 가능 할 것으로 보인다. 선형회귀모델로 풀어보자.

Cost 펑션

선형적이지 않다. 선형 회귀 알고리즘의 cost 함수는 사용 할 수 없다.
Log를 이용 선형적으로 만든다.

Search For:

BY TAGS

선형회귀를 복습한다

Binary Classification

선형회귀와 Binary Classification의 차이

Cost 펑션

Recent Posts

Archive Posts

Tags

About

Get in Touch

Categories

Search For:

BY TAGS

Logistic (regression) classification

선형회귀를 복습한다

Binary Classification

선형회귀와 Binary Classification의 차이

Cost 펑션

Recent Posts

Archive Posts

Tags

About

Get in Touch

Categories

Subscribe