결정 계수 (R²)

통계학에서 결정 계수 \(\rm R^2\)는 통계모델을 설명하는 데이터 집합의 변동성에 비례한다.

데이터 집합 \(y_i\)가 예측치 \(\hat y_i\)로 근사될 때 변동성은 제곱합의 차이로 측정된다.

\(\begin{align}{\rm SS}_{tot}=\sum_{i=1}^{nexp}\left(y_i-\bar y\right)^2\end{align}\) : 전체 제곱합 ⇒ 데이터 전체의 편차

\(\begin{align}{\rm SS}_{reg}=\sum_{i=1}^{nexp}\left(\hat y_i-\bar y\right)^2\end{align}\) : 회귀 제곱합 ⇒ 평균 주위 회귀값의 편차

\(\begin{align}{\rm SS}_{err}=\sum_{i=1}^{nexp}\left(y_i-\hat y_i\right)^2\end{align}\) : 잔차 제곱합 ⇒ 회귀선 주위의 편차

여기서 \(\begin{align}\bar y=\frac{1}{nexp}\sum_{i=1}^{nexp}y_i\end{align}\)

위의 결과 \(\rm R^2\)는 다음과 같다.

\({\rm R}^2=1-\dfrac{{\rm SS}_{err}}{{\rm SS}_{tot}}=\dfrac{{\rm SS}_{reg}}{{\rm SS}_{tot}},\ {\rm SS}_{tot}={\rm SS}_{reg}+{\rm SS}_{err}\)

실험점수(nexp)가 증가하면 근사모델의 정확도와 무관하게 \(\rm R^2\) 값이 증가하므로 이를 보완하고자 실험점수로 정규화한 \({\rm R}^2_{adj.}\)를 사용한다.

\({\rm R}^2_{adj.}=1-\left(1-{\rm R}^2\right)\dfrac{nexp-1}{nexp-(nsat-1)-1}\)

nsat : 포화점수

댓글

이 블로그의 인기 게시물

전단응력 (Shear Stress)

절대압력과 계기압력

표면장력 공식