기술 통계 (Descriptive Statistics)

기술통계에서 데이터를 요약하는 방법으로는 중심척도, 산포척도 등의 기술통계량을 사용하여 값으로 요약하는 방법과 히스토그램, 상자그림, 버블도 등 도식적으로 요약하는 방법이 있다.

◆ 기술통계량 (Descriptive Statistics)

중심척도 -산술평균 (Arithmetic Mean)

\(\begin{align}\overline X={1\over n}\sum_{i=1}^nx_i\end{align}\)

상가평균이라고도 하며 주어진 데이터의 합을 데이터의 개수로 나눈 것이다. 평균에서 모든 편차의 합은 영이다.

\(\begin{align}\sum_{i=1}^n\left(x_i-\overline X\right)=0\end{align}\)

계산상의 편리함으로 널리 사용되지만 극단적인 값의 영향을 많이 받는다. 따라서 크기 순으로 정렬한 데이터의 양 끝 일부를 제외한 나머지 데이터로 계산한 절사평균이 쓰이기도 한다.

엑셀 함수 : average(number1, [number2], ...), ※ 절사 평균 : trimmean(array, percent)

중심척도 -기하 평균 (Geometric Mean)

\(\begin{align}G=\sqrt[n]{x_1\times x_2\times\cdot\cdot\cdot\times x_n}\end{align}\)

주어진 데이터를 모두 곱하고 데이터의 개수만큼 제곱근을 취한 것이다. 인구변동률, 물가변동률 같은 변화율이나 평균을 구할 때 사용한다. 상승평균이라고도 한다.

엑셀 함수 : geomean(number1, [number2], ...)

중심척도 -조화 평균 (Harmonic Mean)

\(\begin{align}H=\frac{n}{\begin{align}\sum_{i=1}^n{1\over x_i}\end{align}}\end{align}\)

주어진 데이터의 역수의 산술평균한 값에 역수를 취한 것이다. 속도와 같은 시간적으로 계속하여 변하는 변량에 사용한다.

엑셀 함수 : harmean(number1, [number2], ...)

중심척도 -중앙값 (Medoan)

주어진 데이터를 크기 순으로 배열하였을 때 중앙에 위치한 수치이다. 극단적인 값의 영향을 받지 않으므로 분포의 모양이 비대칭일 경우 중앙값을 사용하는 것이 산술평균이나 최빈값 보다 자료의 대표성을 높일 수 있다. 산술평균과 최빈값 사이에 위치하며 분포가 대칭인 경우 산술평균과 일치한다.

엑셀 함수 : median(number1, [number2], ...)

중심척도 -최빈값 (Mode)

주어진 데이터 중 출현빈도가 가장 높은 값이다. 중앙값과 같이 극단적인 값의 영향을 받지 않으며 경우에 따라 하나도 없거나 2개 이상 존재할 수도 있다.

엑셀 함수 : mode(number1, [number2], ...)

산포척도 -범위 (Range)

주어진 데이터 중 최대값과 최소값의 차이이다. 가장 간단한 산포도이며 적은 표본을 취급할 때 편리하다. 극단적인 최대값 또는 최소값에 크게 영향을 받는다.

엑셀 함수 : max(array) - min(array)

산포척도 -4분위 범위 (Interquartile Range)

주어진 데이터를 크기 순서로 나열했을 때 제 3사분위수와 제1사분위수 간의 차이이다. 극단적인 값에 영향을 받지 않으며 대표값이 중앙값일 때 사용되는 산포척도이다. 1사분위수(First Quartile)는 주어진 데이터를 크기 순으로 나열하였을 때 누적 백분율이 25%에 해당하는 값이며 3사분위수(Third Quartile)는 75%에 해당하는 값이다.

엑셀 함수 : quartile.exc(array, 3) - quartile.exc(array, 1)

[예제] 아래와 같은 12개의 데이터에서 1사분위수, 3사분위수를 각각 구하여라.

1 23
2 46
3 56
4 77
5 84
6 100
7 115
8 123
9 132
10 159
11 162
12 178

<풀이> 1사분위수를 구하기 위해 먼저 누적 백분율 25%에 해당하는 순위를 계산한다. 이어서 해당 순위의 값을 선형보간으로 구한다.

\(\begin{split}&(n+1)\times0.25=13\times0.25=3.25\\&1\rm사분위수=56+(77-56)\times0.25=61.25\end{split}\)

3사분위수도 같은 방법으로 구하면 된다.

\(\begin{split}&(n+1)\times0.75=13\times0.75=9.75\\&3\rm사분위수=132+(159-132)\times0.75=152.25\end{split}\)

산포척도 -분산 (Variance)

\(V=\dfrac{\begin{align}\sum_{i=1}^n\left(x_i-\overline X\right)^2\end{align}}{n}\)

편차 제곱의 평균으로 분산이 영이면 모든 데이터가 평균에 집중되어 있고, 분산이 클 수록 평균에서 멀리 떨어져 있다는 것을 의미한다.

엑셀 함수 : varp(number1, [number2], ...)

산포척도 -표준편차 (Standard Deviation)

\(S=\sqrt{\dfrac{\begin{align}\sum_{i=1}^n\left(x_i-\overline X\right)^2\end{align}}{n}}\)

분산에 제곱근을 취한 것으로서 원 데이터와 같은 단위를 갖는다. 분산과 마찬가지로  표준편차가 영이면 모든 데이터가 평균에 집중되어 있고, 표준편차가 클 수록 평균에서 멀리 떨어져 있다는 것을 의미한다.

엑셀 함수 : stdevp(number1, [number2], ...)

산포척도 -변동계수 (Coefficient of Variance)

\(CV=\dfrac{S}{\overline X}\)

\({\rm 여기서}\ S{\rm는\ 표준편차, }\ \overline X{\rm 는\ 평균이다.}\)

상대적인 분포의 산포척도로서, 표준편차는 평균값이 큰 데이터 쪽이 커지는 경향이 있으므로, 서로 다른 평균값을 가지는 데이터를 비교할 때는 표준편차를 평균값으로 나누어 그 차이를 조정한다.

엑셀 함수 : stdevp(array)/average(array)

왜도 (Skewness)

데이터 분포의 중심위치가 어느 쪽으로 얼마나 기울어져 있는 지의 비대칭 정도를 나타내는 측도이다.

왜도=0 : 대칭분포
왜도>0 : 좌경분포 (외쪽으로 치우침)
왜도<0 : 우경분포 (오른쪽으로 치우침)
왜도의 절대값이 클 수록 비대칭의 정도는 커진다.

엑셀 함수 : skew(number1, [number2], ...)

좌경분포 우경분포 대칭분포 쌍봉우리분포
●최빈값<중앙값<산술평균
●왜도>0
●산술평균<중앙값<최빈값
●왜도<0
●산술평균=중앙값=최빈값
●왜도=0
●산술평균=중앙값
●최빈값 : 2개

첨도 (Kurtosis)

데이터 분포의 모양이 얼마나 중심에 집중되어 있는 지를 나타내는 측도이다.

첨도=3 : 표준정규분포 (중첨)
첨도>3 : 표준정규분포보다 높고 뽀족함 (급첨)
첨도<3 : 표준정규분포보다 낮고 완만함 (완첨)

◆ 그래프 (Graph)

아래와 같은 11개의 데이터를 가지고 각각의 그래프를 그려본다.

No1234567891011
데이터135111682783462119
데이터286577163884850365210473

산포도 (Scatter Plot)

두 변수 간의 관계를 표현한 2차원 그래프로서 종속변수(관측치)를 y축, 독립변수(인자)를 x축에 표시한다.

 

히스토그램 (Histogram)

데이터가 가질 수 있는 값의 범위를 균등하게 나누고, 해당 값 또는 구간에 해당되는 빈도수를 막대의 높이로 표현한다. 데이터의 산포를 한눈에 알 수 있다. 막대의 면적이 해당구간이 나올 비율을 의미하며, 최빈값에서 가장 높고, 중앙값은 막대의 면적을 양분한다.

상자그림 (Box Plot)

사분위수, 최대 및 최소값 등을 요약하여 보여주는 그림이다. 최대 또는 최소값이 1 또는 3사분위수로부터 사분위 범위의 1.5배를 초과하는 거리에 있으면 특이점으로 본다.

줄기-잎 그림 (Stem and Leaf Plot)

관측치 값을 첫번째 자리를 줄기, 두번째 자리를 잎으로 하여 그림 도표이다. 히스토그램과 동일한 표현이며 데이터의 산포를 알 수 있다. 다만 막대 안에 숫자를 표현함으로서 더 많은 정보를 제공한다. 줄기의 개수는 데이터의 관측치에 따라서 결정한다.

Stem-and-Leaf of 데이터1 N=11
Leaf Unit=1.0

5 0 34688
3 1 169
2 2 17
1 3 5

점도표 (Dot Plot)

직선 좌표에 관측치 빈도수를 점으로 누적시켜 표현한다. 데이터의 산포를 시각적으로 판단할 수 있으며 이상치를 진단한다.



댓글

이 블로그의 인기 게시물

전단응력 (Shear Stress)

표면장력 공식

엑셀 상자그림(Box Plot) 그리기