JAY
Project of Toyota Corolla Dataset ( 1 )
"Simple is the Best"


“경제성의 원리”라고도 불리우는 오컴의면도날과 같이 통계학적 모델링도 마찬가지이다. 어떤 현상을 설명할 때 불필요한 가정을 해서는 안 된다는 것. 고로 똑같은 성능을 내는 모델이라면, 단순하면 단순할수록 좋다. 이 원칙에 의거해 ( 분석자마다 원칙은 다를 수 있다. 적어도 나는 이러한 원칙을 항상 마음에 새기고 있을 뿐이다. ) 분석을 하기 전 고려해야할 사항들은 아래와 같을 것이다.


WORKFLOW OF REGRESSION

DEFINE DATASET
DEFINE FEATURES
EXPLORE FEATURES

회귀분석 모형에 사용할 변수를 찾아가는 과정.
주로 시각화 + Descriptive statistics(기술통계)를 통해 갖고있는 데이터 분포 및 특징(평균, 최빈값, 중앙값, 분산, 최대값, 최소값 등)을 파악한다. 이를 통해 모형을 설명 할 변수들의 중요도를 대략적으로 파악 할 수 있다. 또한 수많은 변수들 중에서 회귀모형에 사용 할 초기 변수들을 선택하는데 어느정도 기준을 세울 수 있다.

FEATURE SELECTION ( STEP-WISE METHODS )
OUTLIERS AND INFLUENTIAL OBSERVATIONS

이상치 ( Outlier ) 는 데이터 분포에서 극단에 있는 Data point 를 말한다. 이상치가 있고, 없고에 따라 분포의 특성 ( 평균 ) 이 급격하게 움직이는데, 이러한 Data point 는 내가 갖고있는 데이터의 대표값에 나쁜 영향 ( Influential 이 강함 ) 을 주는 것이다. 반면에 대표값에 별다른 영향을 주지 않는다면 ( Inlfuence 가 약함 ) 해당 Data point 를 그대로 사용해도 무방하다.

DIAGNOSIS OF MODELS AND ASSUMPTIONS
  1. 선형성 검토 : 독립변수에 대한 잔차를 통해 선형여부를 판단 ( 를 대수변환, 지수변환 등 )
  2. 등분산성 검토 : 에 대한 잔차를 통해 등분산성 판단 ( 를 대수변환, 제곱근변환 등 )
  3. 독립성 검토 : 오차항들은 서로 독립
CHECK AN IMPROVED MODEL
DIAGNOSIS OF MULTICOLLINEARITY

독립변수 ( ) 들 간에 서로 상관성이 높을 경우 Multicollinearity ( 다중공선성 ) 이 발생한다. 머신러닝 문제에서 Overfitting 과 비슷한 개념. 이 경우, 모델에 학습되지 않은 범위의 데이터가 들어올 경우 굉장히 불안정한 예측값 ( ) 을 내놓는다. 모델링의 목적인 Generalization 에 위배.

FIND A FINAL REGRESSION MODEL