상관분석 (Correlation Analysis)
상관분석(Correlation Analysis)
두 변수 간의 선형관계를 규명하는 통계적인 분석 방법으로 상관분석은 두 변수 간의 선형관계 여부를 추론하는 가설검정이다.
- 대립가성(\(H_1\)) : 두 변수는 상관관계가 있다. (r≠0)
대립가설의 형태가 'r이 0 이 아니다'이므로 양측검정이다.
상관계수(Correlation Coefficient)
두 변수 간 선형관계의 방향과 강도를 나타낸다. (-1≤r≤1)
피어슨 상관계수
두 양적 변수 간의 선형관계 척도로서 n 개의 데이터 \((X_1,\,Y_1),\,(X_2,\,Y_2),\cdot\cdot\cdot,\,(X_n,\,Y_n)\)이 주어지는 경우 상관계수는 다음과 같이 정의 한다.
\(r=\dfrac{\sum_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{\sqrt{\sum_{i=1}^n(X_i-\overline X)^2}\sqrt{\sum_{i=1}^n(Y_i-\overline Y)^2}}\)
스피어만 순위 상관계수
두 순위 변수 간의 선형관계 척도로서 \(d_i\)를 \(X_i\) 순위와 \(Y_i\) 순위의 차이라고 할 때 순위 상관계수는 다음과 같이 정의한다. (순위 : 관측치를 크기의 순서대로 정렬했을 때의 Rank)
\(\rho=1-\dfrac{6\sum_{i=1}^nd_i^2}{n(n^2-1)}=\dfrac{\sum_{i=1}^n(S_i-\overline S)(R_i-\overline R)}{\sqrt{\sum_{i=1}^n(S_i-\overline S)^2}\sqrt{\sum_{i=1}^n(R_i-\overline R)^2}}\)
여기서 \(S_i:X_i\)의 순위, \(R_i:Y_i\)의 순위, \(d_i=S_i-R_i\)
위의 식에서 알 수 있듯이 스피어만 상관계수는 각 변수 순위 간의 피어슨 상관계수와 같다.
피어슨 상관계수의 검정통계량
검정에 사용되는 확률분포로 t-분포를 사용한다.
\(t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}\ \sim t(n-2)\)
스피어만 순위 상관계수의 검정통계량
검정에 사용되는 확률분포로 표준정규분포를 사용한다.
\(Z=\rho\sqrt{n-1}\ \sim N(0,\,1)\)
상관계수 해석 시 유의점
● 음의 부호 : 한 변수의 값이 커지면/작아지면, 다른 변수도 작아진다/커진다.
● 상관계수는 선형관계를 나타내는 척도이다.
[예제] 아래의 데이터에 대한 상관계수를 구하고 남편과 아내의 키는 상관관계가 있는지 판정하라. 단, 유의수준 5%에서 검정한다.
남편 | 아내 |
186 | 175 |
180 | 168 |
160 | 154 |
186 | 166 |
163 | 162 |
172 | 152 |
192 | 179 |
170 | 163 |
174 | 172 |
191 | 170 |
182 | 170 |
178 | 147 |
181 | 165 |
168 | 162 |
162 | 154 |
188 | 166 |
1) 상관계수 계산
남편의 키를 \(X_i\), 아내의 키를 \(Y_i\)로 놓으면 각각의 평균은
상관계수는 공식에 대입하여 구하면 다음과 같다. (실제로는 엑셀의 CORREL 함수를 사용하면 편리하다.)
\(\begin{split}r&=\frac{\sum_{i=1}^16(X_i-177.063)(Y_i-164.063)}{\sqrt{\sum_{i=1}^{16}(X_i-177.063)^2}\sqrt{\sum_{i=1}^{16}(Y_i-164.063)^2}}\\&=\frac{(186-177.063)(175-164.063)+\cdot\cdot\cdot+(188-177.063)(166-164.063)}{\sqrt{(186-177.063)^2+\cdot\cdot\cdot+(188-177.063)^2}\sqrt{(175-164.063)^2+\cdot\cdot\cdot+(166-164.063)^2}}\\&=0.648\end{split}\)
양의 부호이고 아래 산포도를 참조하면 아내의 키가 크면 남편의 키도 큰 경향이 있다.
산포도 |
2) 가설설정
- 대립가설 \((H_1)\) : 남편과 아내의 키는 상관관계가 있다. (r≠0)
3) 검정통계량 계산
상관계수와 표본 수를 대입하여 t-검정통계치를 구한다. (유의수준의 검정통계치는 엑셀 TINV 함수로 구한다 : t(0.05)=TINV(0.05, 16-2)=2.145)
\(t=\dfrac{0.648\sqrt{16-2}}{\sqrt{1-0.648^2}}=3.180>t(0.05)=2.145\)
검정통계치(3.180)가 유의수준 α=0.05의 검정통계치(2.145) 보다 크므로 귀무가설을 기각한다. 즉, 남편과 아내의 키는 상관관계가 있으며 본인의 키에 따라 배우자의 키를 선호하는 경향이 있다.
댓글
댓글 쓰기