상관분석 (Correlation Analysis)

상관분석(Correlation Analysis)

두 변수 간의 선형관계를 규명하는 통계적인 분석 방법으로 상관분석은 두 변수 간의 선형관계 여부를 추론하는 가설검정이다.

- 귀무가설(\(H_0\)) : 두 변수는 상관관계가 없다. (r=0)
- 대립가성(\(H_1\)) : 두 변수는 상관관계가 있다. (r≠0)

대립가설의 형태가 'r이 0 이 아니다'이므로 양측검정이다.

상관계수(Correlation Coefficient)

두 변수 간 선형관계의 방향과 강도를 나타낸다. (-1≤r≤1)

피어슨 상관계수

두 양적 변수 간의 선형관계 척도로서 n 개의 데이터 \((X_1,\,Y_1),\,(X_2,\,Y_2),\cdot\cdot\cdot,\,(X_n,\,Y_n)\)이 주어지는 경우 상관계수는 다음과 같이 정의 한다.

\(r=\dfrac{\sum_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{\sqrt{\sum_{i=1}^n(X_i-\overline X)^2}\sqrt{\sum_{i=1}^n(Y_i-\overline Y)^2}}\)

스피어만 순위 상관계수

두 순위 변수 간의 선형관계 척도로서 \(d_i\)를 \(X_i\) 순위와 \(Y_i\) 순위의 차이라고 할 때 순위 상관계수는 다음과 같이 정의한다. (순위 : 관측치를 크기의 순서대로 정렬했을 때의 Rank)

\(\rho=1-\dfrac{6\sum_{i=1}^nd_i^2}{n(n^2-1)}=\dfrac{\sum_{i=1}^n(S_i-\overline S)(R_i-\overline R)}{\sqrt{\sum_{i=1}^n(S_i-\overline S)^2}\sqrt{\sum_{i=1}^n(R_i-\overline R)^2}}\)

여기서 \(S_i:X_i\)의 순위, \(R_i:Y_i\)의 순위, \(d_i=S_i-R_i\)

위의 식에서 알 수 있듯이 스피어만 상관계수는 각 변수 순위 간의 피어슨 상관계수와 같다.

피어슨 상관계수의 검정통계량

검정에 사용되는 확률분포로 t-분포를 사용한다.

\(t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}\ \sim t(n-2)\)

스피어만 순위 상관계수의 검정통계량

검정에 사용되는 확률분포로 표준정규분포를 사용한다.

\(Z=\rho\sqrt{n-1}\ \sim N(0,\,1)\)

상관계수 해석 시 유의점

● 양의 부호 : 한 변수의 값이 커지면/작아지면, 다른 변수도 커진다/작아진다.
● 음의 부호 : 한 변수의 값이 커지면/작아지면, 다른 변수도 작아진다/커진다.
● 상관계수는 선형관계를 나타내는 척도이다.

● 상관계수는 이상치에 영향을 받는다.

● 데이터의 개수가 많아지면 상관계수의 값의 크기는 무조건 커진다.

● 상관계수의 유의성은 상관계수의 크기로 판단하는 것이 아니라, 검정결과의 유의확률에 의해 판정한다.

● 변수의 관측값이 충분한 연속성을 보이지 않을 경우 상관계수의 크기와 상관관계의 유의성은 비례하는 것이 아니다.

[예제] 아래의 데이터에 대한 상관계수를 구하고 남편과 아내의 키는 상관관계가 있는지 판정하라. 단, 유의수준 5%에서 검정한다.

남편	아내
186	175
180	168
160	154
186	166
163	162
172	152
192	179
170	163
174	172
191	170
182	170
178	147
181	165
168	162
162	154
188	166

1) 상관계수 계산

남편의 키를 \(X_i\), 아내의 키를 \(Y_i\)로 놓으면 각각의 평균은

\(\overline X={1\over16}\sum_{i=1}^{16}(X_i)={1\over16}(186+180+\cdot\cdot\cdot+188)=177.063\)

\(\overline Y={1\over16}\sum_{i=1}^{16}(Y_i)={1\over16}(175+168+\cdot\cdot\cdot+166)=164.063\)

상관계수는 공식에 대입하여 구하면 다음과 같다. (실제로는 엑셀의 CORREL 함수를 사용하면 편리하다.)

\(\begin{split}r&=\frac{\sum_{i=1}^16(X_i-177.063)(Y_i-164.063)}{\sqrt{\sum_{i=1}^{16}(X_i-177.063)^2}\sqrt{\sum_{i=1}^{16}(Y_i-164.063)^2}}\\&=\frac{(186-177.063)(175-164.063)+\cdot\cdot\cdot+(188-177.063)(166-164.063)}{\sqrt{(186-177.063)^2+\cdot\cdot\cdot+(188-177.063)^2}\sqrt{(175-164.063)^2+\cdot\cdot\cdot+(166-164.063)^2}}\\&=0.648\end{split}\)

양의 부호이고 아래 산포도를 참조하면 아내의 키가 크면 남편의 키도 큰 경향이 있다.

산포도

2) 가설설정

- 귀무가설 \((H_0)\) : 남편과 아내의 키는 상관관계가 없다. (r=0)
- 대립가설 \((H_1)\) : 남편과 아내의 키는 상관관계가 있다. (r≠0)

3) 검정통계량 계산

상관계수와 표본 수를 대입하여 t-검정통계치를 구한다. (유의수준의 검정통계치는 엑셀 TINV 함수로 구한다 : t(0.05)=TINV(0.05, 16-2)=2.145)

\(t=\dfrac{0.648\sqrt{16-2}}{\sqrt{1-0.648^2}}=3.180>t(0.05)=2.145\)

검정통계치(3.180)가 유의수준 α=0.05의 검정통계치(2.145) 보다 크므로 귀무가설을 기각한다. 즉, 남편과 아내의 키는 상관관계가 있으며 본인의 키에 따라 배우자의 키를 선호하는 경향이 있다.

이 블로그 검색

기계공학 (Mechanical Engineering)

상관분석 (Correlation Analysis)

댓글

댓글 쓰기

이 블로그의 인기 게시물

전단응력 (Shear Stress)

표면장력 공식

굽힘모멘트 적분에 의한 보의 처짐 (Deflections by Bending-Moment Integration)