Impurity 지표 – 엔트로피와 지니계수

생각보다 자주 잊어 Impurity의 대표 지표인 엔트로피와 지니계수의 계산 방법을 정리해본다. 엔트로피 엔트로피(Entropy)란 Shannon 박사의 정보이론에서 비롯된 정보량 개념으로 데이터를 불확실성으로 표현하는 방법이다.확률변수 X의 분포가 특정 값에만 몰려있으면 데이터의 불확실성(엔트로피)이 낮지만, 분포가 전체적으로 고르게 분포하는 경우에는 데이터의 불확실성(엔트로피)이 크다고 할… Read moreImpurity 지표 – 엔트로피와 지니계수