메뉴

문서정보

Features and Labels

이전까지의 내용을 바탕으로 주가 데이터에 대한 회귀를 수행 할 것이다. 지금까지의 코드는 아래와 같다.
import pandas as pd
import quandl

df = quandl.get("WIKI/GOOGL")
df['HL_PCT'] = (df['Adj. High'] - df['Adj. Low']) / df['Adj. Close'] * 100.0
df['PCT_change'] = (df['Adj. Close'] - df['Adj. Open']) / df['Adj. Open'] * 100.0
df = df[['Adj. Close', 'HL_PCT', 'PCT_change', 'Adj. Volume']]
print(df.head())
이제 우리는 포착한 데이터로 부터 중요한 데이터를 결정하고, 데이터 조작을 통해서 새로운 가치있는 데이터를 만들어서 회귀(regression)방식의 머신러닝을 테스트할 준비를 마쳤다. 작업을 위해서 몇 개의 패키지를 추가로 import 했다.
import quandl, math
import numpy as np
import pandas as pd
from sklearn import preprocessing, svm
from sklearn.model_selection import cross_validate
from sklearn.linear_model import LinearRegression
우리는 numpy모듈을 이용해서 데이터를 Scikit-learn이 원하는 형태인 numpy 배열로 변환할 것이다. scikit-learn은 2007년 구글 썸머 코드에서 구현됐으며, 파이선으로 구현된 가장 유명한 머신러닝 오픈소스 라이브러리다. preprocessing과 cross_validation은 코드에서 다룰 것이다. preprocessing는 기계학습에 앞서서 데이터를 정리하고(cleaning), 스케일링(scaling)을 위해서 사용하는 모듈이다. cross_validate는 테스트 단계에서 데이터를 검증하기 위해서 사용한다. 마지막으로 Scikit-learn에서 제공하는 선형회귀(LinearRegression)알고리즘과 svm(Support Vector Machine)을 가져와서 기계학습 알고리즘의 결과를 출력한다.

...... 계속 « Regression - Intro and Data 목차