확률통계를 공부하며 중요하게 느낀 점들 (작성중)

학부시절 확률통계를 공부했을 땐 정말 이게 뭔가 싶었다.
대부분이 고등학교때 배웠던 내용들이고 거기에 더 나간 내용들도 그다지 깊지 않았다.
오히려 확률통계 책을 덮었을 때서야 확률통계를 더 깊게 알게된 것 같다.

CS는 특정 도메인을 빼고는 생각보다 수학이 많이 필요하지는 않다.
솔루션 개발에 미적이니 확통이니 그런게 필요할 일이 흔하진 않다는 이야기이다.
그러다보니 필자가 다녔던 대학에서는 CS 학부과정에서 수학을 점점 덜 가르치기 시작했다. (놀랍게도 말이다)

필자의 대학에서 CS 교과과정으로 있던 수학강의는 미분적분, 확률통계, 공업수학, 이산수학, 선형대수의 5가지인데
미적은 Taylor를, 확률통계는 multiple random variable을, 공업수학은 Fourier, 선형대수는 matrix decomposition을 가르쳤다.
(이산수학때는 무슨 의미있는 내용을 가르쳤는지 기억에도 없다. 자료구조와 같은 다른 과목에서 수학과 관련된 부분만 떼어다 가르쳤던걸로 기억하는데 기억에 없는 걸 보면 중요한 걸 배운 기억은 없다)
심지어 최근에는 Fourier조차도 가르치지 않는다.
(Laplace는 둘째치고 Fourier조차 모르는 공대생이라니 말도 되지 않는다고 생각한다)
언젠가는 내가 생각하는 각 수학과정에 대한 주관적인 핵심가치를 정리해볼 생각이다.

문제는 이런 질문들이다.
예를 들자면, 내가 만든 회귀모델을 어떻게 평가할 것인가?
residual이 IID 가정을 만족하지 않으면 어떻게 되는가?
joint pdf를 알고있을 때 각 random variable의 합의 pdf는 어떻게 되는가?
주어진 데이터에 대해 어떤 분포를 가정해야 하는가?

위의 질문들은 통계적 요소가 강한 질문들이다.
그것도 수리통계나 계량경제를 배우는게 아니라면 대답하기 난감할 것이다.
게다가 CS에서 다루는 머신러닝 테크닉들에서는 위의 질문이 나올 일이 적다.
그럼에도 불구하고 고전적인 통계기반 머신러닝 테크닉을 사용하고자 한다면 언젠가는 한번 맞닥뜨릴 문제이다.
그렇기 때문에 확률통계를 공부하면서 적어도 다음의 토픽들은 잘 숙지하고 있어야한다고 생각한다.
(적어도 필자는 잘 몰랐으므로 대학 수준에서의 확률통계를 처음 공부하는 사람들은 이 정도는 알고있으면 좋을 듯 하다)

  1. CLT
  2. LLN
  3. Frequentist와 Bayesian
  4. Bayes Theorem과 MLE, MAP
  5. GMT
  6. R^2와 p-value (특히 nonlinear에서의)
  7. Joint Probability와 MGF

중심극한정리 (CLT)

첫 번째로 중요한 것은 CLT가 무엇인지 이해하는 것이며
두 번째로 중요한 것은 CLT를 오해하여 잘못된 곳에 사용하지 않는 것이다.

CLT란?: TBA

CLT의 잘못된 적용: TBA

큰 수의 법칙 (LLN)

CLT와 더불어 통계에서 가장 중요하게 여겨지는 법칙이다.
이 또한 CLT처럼 사용에 유의해야 한다.

LLN이란?: TBA

LLN의 잘못된 적용: TBA

Frequentist와 Bayesian

통계학을 양분하는 Frequentist와 Bayesian의 이론을 이해할 필요가 있다.

Frequentist는: TBA

Bayesian은: TBA

Bayes Theorem과 MLE, MAP

Bayesian에서부터 이어지는 내용이다.

MLE와 MAP는 파라미터를 추정하기 위한 대표적인 두 방법이다.

MLE란: TBA

MAP란: TBA

Gauss-Markov Theorem (GMT)

다음 주제와 이어지는 내용이다.
선형 모델에서 왜 R^2와 p-value가 유효한지를 알려주는 정리이다.
선형 모델에서 OLS(Ordinary Least Square)로 추정된 파라미터는 GMT에 의해 BLUE(Best Linear Unbiased Estimator)이다.
이에 대한 증명은 굳이 이곳에서 할 이유가 없으니 다른 블로그들을 참고하도록 하자.

어쨋거나 GMT덕분에 회귀분석의 몇 가지 가정을 만족하는 데이터셋의 경우 OLS보다 더 좋은 추정방법은 없다는 것이 증명된다.
이것이 EDA(Exploratory Data Analysis)를 하는 이유 중 하나이다. (괜히 트리나 신경망같은 복잡한 모델을 쓸 이유가 없기 때문)

R^2와 p-value (특히 nonlinear에서의)

글을 쓰게된 가장 큰 이유가 이 토픽때문이다.
생각보다 많은 곳에서 (심지어 최근 SCI 논문에서도) 비선형모델에 대해 R^2와 p-value를 제시한다.
하지만 결론부터 말하자면 비선형모델에 대해서는 R^2와 P-value가 의미를 가지지 않는다.
애초에 R^2는 GMT에 의해 SST = SSR + SSE라는 식이 성립하기 때문에 의미를 가지게 되는 것인데, GMT는 선형모델에만 적용되는 정리이기 때문에 SST가 SSR + SSE가 아닌 비선형모델에서는 의미를 가지지 못한다. (이를 Monte-Carlo approach로 증명한 연구도 존재한다)

R^2 = \frac{SSE}{SST}, 0 \leq R^2 \leq 1

한편, p-value는 null hypothesis에서 검정 통계량(극단값)의 유의 확률을 말하는 것인데
nonlinear model은 non-trivial(not closed-form)이기 때문에 null hypothesis를 특정하기가 어렵다.
단순히 생각하면 수많은 local optimum 중 어떤 것이 global optimum인지 알 수가 없는 데에서 기인하는 것이다.

Joint Probability와 Moment Generating Function (MGF)

MGF가 무엇인지, 왜 MGF를 사용하는지를 이해하여야 한다.

TBA

댓글 남기기