회귀 분석의 표준 가정

회귀 분석에는 표준 가정들이 필요하다.
보통 4대 가정, 5대 가정, 6대 가정 이러는데 사실 정확한 표준은 없다.
일반적으로 여겨지는 assumption set이 있기는 하나 필자가 글을 쓰는 시점(2020. 12.)에서도 Wiki에서조차 해당 set에 대한 의견이 분분하다.
이에 필자 나름의 생각으로 표준 가정을 정리해보았다.

우선 회귀 모델은 다음과 같은 형태를 가정한다.

Y_i = f(X_i; \beta) + \epsilon_i

회귀는 f(X_i; \beta)Y_i에 최대한 근접하게 만드는 것이다.
선형회귀에서는 f\beta_0 + \beta_1 X_i을 사용한다.
한편, X_i는 population(모집단)의 independent variable(독립변수)이며 Y_i는 동일한 집단의 dependent variable(종속변수)이다.
\epsilon_i은 error(오차)이다.
이 글의 population을 sample(표본집단)로 바꾼다면 error는 residual(잔차)로 대치된다.

Independence of Error (오차 독립성)

Error의 독립성은 두 가지가 충족되어야 한다.

첫번째로는 error와 독립변수 간에 상관관계가 없어야한다.
상관관계가 있다는 것은 아직 error중 독립변수로 설명할 수 있는 변량이 존재한다는 것이다.
이는 변수가 weak exogeneity(약외생성)을 가져야한다는 논의로부터 도출된다.

두번째로는 error 간에 상관관계가 없어야한다.
두 확률변수 X, Y 사이에 상관관계가 없다는 것은 cov(X, Y)=E[XY]-E[X]E[Y]=0을 의미하므로
곧 error의 covariance matrix가 diagonal matrix라는 것을 의미한다.
한편, error 간에 상관관계가 있다는 것은 error에 대한 모델 정의가 필요하다는 것을 의미한다.
예를 들어 에러에서 자기상관(Autocorrelation)이 존재하는 경우를 들 수 있다.

Zero Mean Error (오차 평균이 0)

Error의 (조건부) 기댓값이 0이다.

E(\epsilon_i|X_i)=0

Error의 (조건부) 기댓값이 0이라는 것은 곧 종속변수의 (조건부) 기댓값이 E[f(X_i; \beta)]라는 것을 의미한다.

Homoscedasticity (등분산성)

Scedasticity는 error의 분산을 의미한다.
다시말해 homoscedasticity는 error의 분산이 일정한 것(등분산)을 의미한다.
만약 error가 정규분포를 따른다면 error는 당연히 homoscedastic이다.
(참고로 scedasticity의 어원이 그리스어기 때문에 skedasticity와 혼용한다 [Wiki])

여기까지가 필자가 생각하는 회귀 분석의 표준 가정이다. (선형회귀분석의 표준 가정이 아니라는 것에 주의)

+ GMT 성립 조건

한편, GMT(Gauss-Markov Theorem)가 성립(OLS가 BLUE)하기 위해서는 아래의 두 가정이 더 필요하다.
참고로 GMT에서는 독립변수를 확률변수가 아닌 주어진 값(given value)으로 가정한다.
또한, error에 대한 normality(정규성) 가정은 필요하지 않다.
오로지 uncorrelated error with mean zero and homoscedastic with finite variance만을 필요로 한다.

Linear Relationship (선형성)

모든 종속변수와 독립변수는 선형관계를 가져야 한다.
다시말해 위의 회귀 모델의 f\beta_0 + \beta_1 X_i로 표현된다.
이 가정은 애초부터 회귀 분석이 선형모델을 기반으로 이루어진다는 것을 말하며
이 때문에 비선형모델에서는 GMT(Gauss-Markov Theorem)가 깨지게 된다.
(다시말해 비선형모델에 대해서는 R^2와 p-value가 의미를 가지지 않게된다)

No Multicollinearity (다중공선성)

모델이 다중공선성을 가진다는 것은 한 독립변수가 다른 독립변수와 선형관계인 것을 말한다.
이 경우 입력의 조그만 변화에도 큰 error가 발생할 수 있다.
그렇기 때문에 GMT에서는 다중공선성이 없을 것을 가정한다.
이 가정 또한 변수가 weak exogeneity(약외생성)을 가져야한다는 논의로부터 도출된다.
한편, 다중공선성은 편향된 결과를 제공한다기보다 표준오차를 더 크게 만드는 역할을 한다. [Wiki]

흔히들 선형 회귀의 가정LINE이라고 정리한다.
Linearity (선형성)
Independence (독립성)
Normality (정규성)
Equal Variance (등분산성)

그런데 만약 암기한다면 필자는 단순히 오차의 평균, 분산, 독립다중공선성으로 외울 듯 싶다.
이 경우 오차의 평균, 분산, 독립만으로 회귀의 기본 가정이 충족되고, 다중공선성은 GMT를 충족하기위해 추가로 필요한 조건이 된다.
한편, 선형성은 선형 회귀의 자명한 가정이기때문에 따로 기억할 필요가 없다.

참고로 일반적으로 선형 회귀의 가정이라 일컬어지는 오차의 정규성은 굳이 가정될 필요가 없다.
물론 오차의 정규성을 가정하면 당연히 GMT에 의해 OLS(Ordinary Least Square, 최소자승)가 BLUE(Best Linear Unbiased Estimator, 최량선형불편추정량)가 된다.
하지만 굳이 오차의 정규성을 가정하지 않아도 오차가 homoscedatic with finite variance (등분산) 하면 여전히 GMT가 성립한다.

좀 지저분하게 정리된 감은 있지만 이 정의가 보다 확실한 듯 싶다.
사실 field에서 위의 가정을 모두 만족할 정도의 data가 모여본 적이 단 한 번도 없기에 (하나라도 만족하면 다행이다)
별로 중요하게 생각해본 적은 없다.
특히 필자는 CS전공이기 때문에 이런 것들을 일일이 생각하면서 문제를 해결하진 않는다.
보통 다루는 데이터들이 거의 비선형모델을 사용해야하는 복잡한 형태(시계열, 이미지, 텍스트 등)를 하고 있기 때문이다.
이런 경우에는 데이터를 통계적으로 보다 고도로 전처리하는데 시간을 들이기보다는 도메인 지식을 사용해 데이터를 전처리하고 고차원에서 더 잘 선형분리될 수 있도록 해주는 것(training)이 더 중요하다.

댓글 남기기