본문 바로가기

정보기술의 샘터........о♡/통계학·사회조사분석사

통계학 상식

1. 귀무가설을 쓰는 이유

 

귀무가설 (null hypotheses) 은 ‘모집단에서 독립변수와 결과변수 간에 관련이 없다’ 고 기술하는 명제를 말하는데, 이는 관련성이 없다는 명제로 시작함으로써 서로 무관하다는 전제하에서 관찰된 현상(수집된 자료)이 우연에 의해 나타날 개연성을 계량화할 수 있다.

반면에 대립가설 (alternative hypotheses) 은 ‘모집단의 독립변수와 결과변수 간에 관련이 있다’ 라고 기술하는 명제를 말하는데, 이 가설은 귀무가설처럼 ‘무(null)’ 의 상태를 전제로 하지 않기 때문에 가설의 검정을 직접 수행하기는 불가능하며 다만 귀무가설이 기각되면 관찰된 결과가 귀무상태가 아닌, 그 반대되는 입장을 지지하게 되므로 받아 들여지게 되는 반증적인 과정을 거치게 된다. 따라서 통계학에서는 계량화가 불가능한 대립가설은 이용하지 않고 귀무가설만을 이용하는 것이다.

 

 

2. 단측검정? 양측검정?

 

대립가설은 양측 대립가설(two-tailed alternative hypothesis)과 단측 대립가설(one-tailed alternative hypothesis)로 구분되는데, 가설검정에서 양측 대립가설을 이용하는 경우를 양측 검정(two-tailed test)이라 하고 단측 대립가설을 설정하는 경우를 단측 검정(one-tailed test)이라 한다.

 

단측 대립가설은 독립변수와 결과변수와의 관련성을 검정하고자 설정된 대립가설에서 그 방향이 미리 결정되어 있는 경우를 말한다. 기존 수술방법의 invasive 정도라든가 기존 치료법에 의한 독성 부작용은 어쩔수 없는 것이지만 새로 개발된 대부분의 수술법이나 치료법은 ‘기존의 방법에 비해 부작용이 적은 방법임에는 틀림이 없으며 다만 그 정도가 통계적으로 유효한가?’ 에 관심이 있을 때 연구자는 ‘단측 대립가설’을 설정하게 된다. 예를 들면,【기존의 고혈압 치료법인 약물요법에 비해 약물요법과 생활습관요법 (운동과 식이조절)을 병용하는 치료법의 효과가 좋다】는 가설이 이에 해당한다.

 

반면에 양측 대립가설은 ‘독립변수와 종속변수간에 관련성이 (혹은 차이가) 존재하는지?’ 에 대해서만 관심을 가지며 그 방향은 언급하지 않는 가설을 말한다. 아래의 예제에서 보는 바와 같이 양측가설에서는 두 군간 차이의 존재여부에만 관심을 갖고 있다.【기존의 고혈압 치료법인 약물요법과 여기에 생활습관요법(운동과 식이조절)을 병용하는 새로운 치료법 간에는 치료효과에 차이가 없다】가 예가 될 수 있다.

 

물론 단측가설은 양측가설보다 통계적 검정을 평가하는데 더 적은 수의 표본수를 요하는 통계적인 장점을 가지고 있다. 하지만 그렇다고 해서 단측가설이 항상 적당한 것은 아니다. 학자에 따라서는 임상시험에서는 단측가설을 이용할 수 없다고 주장하는 경우도 있다. 그러나 단측가설은 특정 방향의 관련성 혹은 차이가 명확하다거나 생물학적으로 의미가 있을 때는 적합하게 사용될 수 있다. 그 한 예로 ‘어떤 약물이 위약보다 부작용이 많다’ 는 명제는 이미 명백한 사실로 ‘그 약물이 위약보다 부작용이 적을 가능성’ 은 따로 검정할 필요가 없다. 기존의 연구에서 ‘cholestyramine 이 혈중 콜레스테롤을 낮추는 것’ 이 명백히 밝혀진 경우에도 단측가설을 설정할 수 있다. 그러나 많은 임상역학자들은 보다 안전하고 완전한 연구결과를 위해서는 “치료효과의 차이가 특정방향으로 나타날 것이 확연히 예측되는 아주 특수한 경우를 제외하고는 대부분의 임상연구에 있어서 양측가설을 설정할 것” 을 권장하고 있다.

 

3. 유의수준의 크기는 연구자 마음
 
 가설검정법은 먼저 ‘두 군간에 차이가 없다’ 귀무가설을 세우고 수집된 자료가 이 귀무가설을 지지하는지 아니면 귀무가설에 반대되는 입장을 지지하는지를 확률적으로 계산하여 ‘두 군간에 차이가 있음’ 증명하는 반증적 방법이다. 그 결과는 소‘위 ‘p-값’으로 요약되어 표현되는데 이는 귀무가설이 사실인 경우 연구결과로 관찰된 소견이 우연에 의해 얻어질 확률을 의미한다.

만약 p-값이 미리 정한 통계적 유의수준 α 보다 작으면 귀무가설은 기각되어 ‘모집단에서의 유의한 차이를 인정하는 대립가설’을 지지하게 된다. 그러나 p-값이 α 보다 큰 경우는 귀무가설을 채택하여 ‘통계적으로 유의하지 않은 결과’ 라 판정하게 되는데 그렇다고 해서 ‘유의하지 않은 차이가 곧 모집단에서 차이가 없음’을 의미하지는 않는다. 이는 단지 ‘표본에서 관찰된 차이가 우연에 의해 일어날 수 있는 차이에 비해 확률적으로 작다‘는 것을 의미할 뿐이다.

예를 들어 새로운 간염 치료제의 치료효과가 2배 높았고 그 통계적 유의성이 p = 0.09 이었다고 하자. 이것은 모집단에서 이 새로운 치료방법이 기존의 치료법에 비해 차이가 없다고 하더라도 표본에서 임의로 발생되는 무작위 오류에 의해 그러한 차이가 발견될 확률이 9%라는 뜻이다. 만약 연구자가 유의수준을 0.05 로 잡았다면 표본에서의 차이가 ’통계적으로 의미없다‘ 고 결론지었을 것이다. 그러나 유의수준에 대한 연구자의 마음을 움직여 ’그 결과는 통계적으로 유의하였다 (p < 0.10)‘ 라고 보고할 수도 있다. 이러한 경우에는 ’비록 차이가 있을 수 있음을 암시하고 있긴 하지만 연구의 결과는 통계적 유의수준에 미치지는 못하였다 (p = 0.09).‘ 라고 기술하는 것이 보다 좋다. 다시 말해서 ’통계적 유의성 (statistical significance)‘ 이란 ’all or none' 원칙으로 명제를 판정하려는 것임을 명심해야 한다.

 

4. p-값에 대한 오해
 
 신생아 호흡부전을 예방할 목적으로 산전관리중 스테로이드 약물을 투여하는 임상시험에서 A군 (임신중독증 있는 산모군) 에서는 약물 투여군 21.2%에서 신생아 호흡부전이 발생하여 약물 비투여군 27.3%에 비해 차이가 없었던데 비해 (p = 0.57), B군 (임신중독증 없는 정상 산모군) 에서는 약물 투여군 7.9%에서 신생아 호흡부전이 발생하여 약물 비투여군 14.1%에 비해 차이가 있었고 통계적으로도 유의하였다 하자 (p = 0.021).

이 결과를 해석하는 과정에서 혹자는 A군과 B군 간에 p-값이 너무 크게 차이가 나기 때문에 “스테로이드 약물 투여의 효과가 A/B 두 군간에 차이가 있었다” 라고 단정을 내리는 것은 명백한 잘못이다.

왜냐하면 (p = 0.57)의 의미는 A군의 ‘약물투여군/비투여군간에 차이가 있다는 증거를 확률적으로 발견하지 못했을 뿐’이지, ‘약물투여군/비투여군간에 차이가 없다’는 뜻은 아니기 때문이다.

B군의 (p = 0.021)에 대한 해석도 마찬가지이다.

즉, p-값의 크기는 서로 동일선상에서 일반적인 숫자처럼 크기로 비교할 수 없는 것이다. 조금 복잡한 얘기지만 p-값은 일반적 개념의 숫자의 크기 (예: 평균치의 차이)와 더불어 추정상의 불확실성 (예: 표준오차)에 의해 동시에 영향을 받기 때문이다.

주) “스테로이드 약물 투여의 효과가 A/B 두 군간에 차이가 있었다” 라는 주장을 하고 싶으면 이에 대한 적절한 다른 검정을 시도해야 하는데, 나중에 ‘[factorial design] 혹은 [interaction] 에 대한 오해’ 부분에서 설명하기로 하겠다.

 

5. 구간추정법으로 제시하는 것이 좋다

 

통계학적 검정법은

1) ‘all or none’ 의 정성적 판정을 하게 되는 가설검정법 (hypothesis test) 과

2) 정량적으로 분석하는 구간추정법 (interval estimation) 의 두가지로 대별된다.

근래의 통계학에서는 ‘차이가 있다 혹은 차이가 없다’로 해석되는 정성적 가설검정법 보다 ‘차이가 있되 어느 방향으로 얼마나 차이가 있음’ 을 알 수 있어 연구결과를 보다 폭넓게 해석할 수 있는 구간추정법을 선호하고 있다.

왜냐하면 가설검정법의 결과는 ‘p-value’ 로 제시하게 되고, 구간추정법의 결과는 소위 ‘95% 신뢰구간 (confidence intervals)’ 으로 제시하게 되는데, 구간추정법의 결과를 해석할 때는 가설검정법의 결과도 동시에 해석할 수 있지만, 그 반대의 경우는 불가능하기 때문이다. 역학적 연구결과인 환자-대조군연구, 코호트 연구, 임상시험에서는 그 결과를 상대위험도로 제시하는데, RR = 2.0 (1.5-2.4) 로 제시함으로써 ① 신뢰구간에 ‘1’ 이 포함되지 않아 p<0.05 라는 의미를 내포하는 것으로 해석할 수도 있을 뿐만 아니라, ② 이들 두 변수간의 관련성의 정도는 ‘2.0배’ 이고, ③ 신뢰구간의 폭이 그리 넓지 않고 양의 방향으로 작용하고 �음을 알 수 있기 때문에 특히 선호된다.

따라서 연구결과를 표로 기술할 때 ‘p-value’ 도 제시하고 ‘95% 신뢰구간’ 하는 것은 불필요한 일이다.

 

6. 표준편차를 제시할 때는 꼭 표본수를

 

논문에 연구대상의 특성이나 연구결과로서 ‘혈당의 ① 평균치(mean)가 얼마고, ② 표준편차(SD, standard deviation)가 얼마’라고 표로 제시하는 경우를 흔히 보는데, 이 때 그런 평균값을 가진 ③ ‘대상의 수(N)가 몇 명’이었는지를 제시를 안하면 이 값들은 마무런 의미가 없어진다.

즉, [N, mean, SD]를 동시에 제시하라고 뜻인데 그 이유는 뭘까?

연구대상의 특성을 독자에게 보여주는 가장 좋은 방법은 100명의 대상으로부터 측정한 혈당치 100개를 논문에 일일이 나열해 주는 것이다. 그러면 독자는 ‘최소치와 최대치, 가장 높은 빈도를 보인 혈당치, 퍼져 있는 정도, 뿐만 아니라 혈당치가 110 mg/dl 이상인 사람은 100명 중 몇 명이나 되는지?’ 등 모든 것을 직접 파악할 수 있다. 그러나 논문에 [N, mean, SD] 단 세가지 수치만 제시하게 되면 100명을 나열할 필요없이 단 한 줄로 지면을 아끼면서 100명을 나열한 결과와 똑같은 모든 목적을 이룰 수가 있다 (사실은 통계학적으로 표현하면 혈당치가 특정 분포(정규)를 따르는 경우에 한해서만 가능함).

논문에 ‘N’을 제시 안하면 그 평균과 표준편차는 10명을 관찰해서 나온 결과인지 1,000명을 관찰해서 나온 결과인지 알 수가 없다. 10명과 1,000명에 대한 표준편차의 의미는 실로 엄청나게 다르다

 

7. 표준편차냐? 표준오차냐?

 

논문에 보면 [N=100, mean=110, SD=20] 이라는 표현도 있고, [N=100, mean=110, SE=2] 라는 표현도 있다. 전자는 표준편차(SD, standard deviation)로, 그리고 후자는 표준오차(SE, standard error)로 표시한 것이다.

무엇이 맞는 표현인가? 둘 다 맞는 표현이다. 단, [N, mean, SD]의 세가지를 모두 제시한다는 조건에서는. 그럼 그 의미도 같은가? 그렇지 않다. SE = SD / √N 의 관계에 있지만, SD와 SE 사이에는 실로 엄청난 차이가 있다.

복잡한 통계이론이 그 속에 숨어 있지만, 한마디로 설명하면 ① SD로 표현한 [N=100, mean=110, SD=20] 에 대해서는 그 연구에서 관찰한 100명에서는 ‘평균이 110이고 그 분포의 퍼진 정도가 (좀 애매하지만) 20 정도 된다’는 뜻이지 그 이상도 아니고 그 이하도 아니다. 즉, 이 결과로는 100명 이상이 되는 보다 더 큰 대상(모집단)으로 연구결과를 확대-해석(일반화)할 수 없음은 물론 가설검정이나 신뢰구간 추정과 같은 통계학적 추론도 절대 불가능하다는 뜻이다. 그러나 ② [N=100, mean=110, SE=2] 형태로 표시하기만 하면 이 모든 문제가 해결된다.

사실 ‘SD로 표현하느냐?’, ‘SE로 표현하느냐?’가 중요한 것이 아니다. 보다 중요한 것은 어느 것으로 표현하더라도 반드시 ‘N (표본수)’을 논문에 표시하는 것이다.

 

8. 모든 통계분석법에는 가정이 있음을 잊지 말아야

 

평균치를 계산해 보니까 큰 차이가 보이는데? 그림을 그려 보니까 서로 잘 correlate 되어 있는데? 생존곡선간에 차이도 꽤 벌어져 있는데? 이상하게 통계분석을 해보면 p-value 가 의미 없다고 나온다.

물론 ① 표본수가 작아서 유의한 수준에 도달하지 못할 수도 있고, ② 잘못된 통계법을 적용해서 그럴 수도 있으나, 이런 두가지 경우는 표본을 크게 하던지 아니면 분석법을 바꾸면 해결된다. 이렇게 해도 안 걸리는 경우는 무엇일까? ③ 적용한 통계분석법이 가지는 가정에 위배되는 자료를 가지고 해결하려고 노력하고 있을 수도 있다.

안 풀리는 잘못된 수학공식을 가지고 끙끙대면서 문제를 풀고 있는 격이다. 모든 통계학적 분석법에는 가정이 있다고 생각하면 된다 (물론 가설도 있다). 특히, 모집단에 대한 가정을 전제로 한 분석법인 모수적 검정법은 더욱 그렇다. 일일이 다 설명할 수는 없지만, t-test, X2-test, 분산분석, 상관-회귀분석, 생존분석, 로짓분석 등등등. 심지어는 모수에 관한 가정을 전제로 하지 않는 방법인 비모수검정법에도 (일부에는) 가정은 있다.

 

사실은 표본수가 일정 수준 이상으로 크면 (일률적으로 말하기는 어렵지만 대충 30 혹은 50 이상이 되면) 웬만한 통계학적 가정은 무시해도 근사적으로 접근이 된다. 특히 평균치 검정이나, 분산분석, 상관-회귀분석의 경우에는 더욱 그렇다. 다만, 반복 측정(repeated)된 자료나 짝지은(matched, paired) 자료 처럼 분석을 아예 잘못하는 경우를 제외하고는 말이다.

 

9. 어떤 경우에 비모수 검정법을?

 

표본이 추출된 모집단에 대한 가정을 전제로 한 방법을 모수적(parametric) 검정법이라 하며, t-test, 분산분석법, Pearson's correlation, regression 등등이 여기에 속한다. 반면에 모수에 관한 가정을 전제로 하지 않은채 모집단의 형태에 관계없이 주어진 자료에서 직접 그 확률을 계산함으로써 통계학적 판정을 내리게 되는 분석법을 비모수적(nonparametric) 혹은 분포무관(distribution-free) 검정법이라 하여 의학분야에서도 많이 사용하고 있다.

모수적 검정법 대신 비모수적 검정법을 사용하게 되는 경우는 ① 종속변수가 명칭척도나 순위척도일때, ② 변수의 척도에 관계없이 표본의 수가 작은 경우 (모집단에 관한 어떠한 분포도 가정을 할 수가 없기 때문), ③ 연구자료가 특정 분포(예, 정규분포)를 따르지 않음이 명백할 때, 그리고 ④ 본격적인 모수적 검정법을 사용하기 전에 예비분석으로 사용하게 된다. 비모수적 검정법은 모수적 검정법에 비해 검정력-효율성이 낮으므로 가능하다면 모수적 검정법을 적용함이 권장된다.

모수적 검정법으로 t-test를 적용한 결과 유의성이 없어서 비모수 검정법으로 Wilcoxon rank sum test를 했더니 유의하였다고 하자. 이는 분석한 자료가 위의 네가지 이유 중 하나 혹은 그 이상의 문제를 내포하고 있었기 때문이라고 해석하면 된다. 논문에는 그러한 두가지 결과를 혹은 그 분석과정을 모두 기술해 주어야 독자가 오해가 없다.

 

10. X2-분석법의 허실

 

2x2 table 이나 RxC table로 요약되는 범주형 자료를 분석할 때 애용되는 X2-검정법은 계산이 간편하고 그 적용범위가 넓어서 매우 유용하게 사용되고 있는 아주 좋은 통계적 분석방법이다. 그러나 X2-값은 ① 전체 관찰대상의 수가 클수록, ② 줄 (row) 의 수와 칸 (column) 의 수가 많으면 많을수록 (자유도가 클수록), ③ 두 변수간의 관련성이 강하면 강할수록, 그리고 ④ 특정 칸의 기대값이 매우 작을 경우에 커지는 성질이 있다.

역설적으로 말하면 어떤 통계학적 검정에서 유의성을 보장받기 위해서는 표본의 수를 무작정 늘리기만 하면 된다. ①에서 지적한 문제점 즉, 표본의 수에 의해 영향을 받는 X2-검정법의 단점을 보완하는 방법으로는 따로 고안된 방법(Phi 검정법 / Cramer's V 검정법)이 있으므로 관심 있는 독자들은 전문서적을 참조하기 바란다. ②의 문제점인 자유도에 의한 영향은 부록에 있는 X2-table을 보면 알 수 있듯이 자유도에 따른 확률을 이용함으로써 해결할 수 있다. ④에서 지적한 문제의 한 예로 기대값이 0.023 인데 관측치는 1 인 경우의 X2-값=41.5 가 되는 모순을 들 수 있다. 이러한 문제는 결국 통계학적 추론상 불안정성(unstability)을 야기시키는 것으로 결국은 직접확률법이란 방법으로 해결하게 된다.

 

11. Yates' correction 꼭 해야 하나?

 

신경외과학회지에서 원고 심사의뢰가 온 적이 있다. 저자는 어떤 2x2 table을 X2-test로 분석 했더니 X2=4.86, p=0.028 이어서 통계적으로 유의한 결과라 논문에 기술하였단다. 그런데 심사위원 한 분께서 이 자료는 2x2 table이기 때문에 반드시 [Yates의 연속성 보정]을 한 X2-test로 분석을 해야 한다고 주장하면서 그 결과에 의하면 X2=2.86, p=0.091 이어서 유의수준 0.05에서 통계적 유의성이 상실되기 때문에 차이가 없다고 판정했는데, 도대체 어떤 분의 말이 맞는 것인지 물어온 것이다.

정답은 ‘Yates' correction은 해도 되고 안해도 되기 때문에 두 분이 다 맞다’이었다.

이 방법은 특히 2x2 table 처럼 극단적인 범주형 자료를 연속적인 X2-분포에 걸어 볼 때 보다 합리적인 이유가 있다는 주장 때문에 개발된 방법이다. 연속성을 보정하면 일반적으로 통상적인 X2-값 보다 작아지는 경향이 있어 통계적 유의성이 없어지기 쉽다. 따라서 연구자들은 이 보정을 적용하기를 꺼려한다. 이 방법은 2x2 table의 경우와 같이 표본의 수가 매우 작을 때 적용되는데, 아직 통계학자들 간에는 ‘특히 2x2 table 의 경우에 연속성을 보정해야 하는가?’에 대해 의견의 일치를 보이고 있지 않음을 유념하기 바란다.

이런 논쟁을 해결하는 가정 좋은 방법은 직접확률법(Fisher's exact test)으로 접근하는 것이다.

 

12. 통계학은 왜 복잡한 분야인가

 

고혈당이 뇌손상에 미치는 영향을 보기위하여 실험동물을 정상 혈당군 10마리 고혈당군 10마리로 나누어 전뇌허혈을 시킨 후 lipid peroxidation 의 산물인 malodialdehyde 의 양을 측정한 결과 정상 혈당군에서는 14.0±3.70 이었고 고혈당군에서는 13.4±2.25 이었다 하자. 두 군간의 차이를 인정할 수 있겠는가? 연구목적으로 측정한 수치의 분포에 관한 정보만 알면 통계학적 판단이 가능하다는 사실을 우리는 알고 있다. 그렇다면 정상 혈당군의 14.0 과 고혈당군의 13.4 의 차이 0.6 은 과연 대단히 큰 차이라고 인정할 수 있겠는가? 앞서 설명한 대로 이 경우에도 조건을 서로 달리한 두 군간 측정치의 차이에 관한 분포만 알면 판단이 가능하다. 그러나 그러한 자료를 얻기 위해선 대단히 많은 노력과 시간이 필요하므로 현실적으로는 거의 불가능하다. 이런 경우에는 할 수 없이 어떤 다른 분포의 힘을 빌어서 판단을 내릴 수 밖에 없는데, 그 분포는 대개 이론적으로 유도된 분포들로서 정규분포, t-분포, chi-square 분포, 이항분포, F-분포 등이 그 예이다. 통계학에서의 주된 관심은 바로 이런 이론적 분포를 이용한 추측통계학적 접근법에 있으며, 그 유도과정이나 통계학적 추론의 원리가 매우 복잡한 것으로 인식되어 있기 때문에 일반인들은 통계학을 대단히 어려운 분야라는 인상을 받게 된다. 그러나 그런 이론적 분포의 정의를 몰라도 통계학적 접근의 지침과 그 결과해석을 제대로 할 수만 있으면 통계학적 분석이 전혀 불가능한 것은 아니다. 컴퓨터의 기계공학적 구조를 이해하지 못한다 해서 컴퓨터 사용을 포기하는 우매한 사람은 없을 것이기 때문이다.

 

13. 참고범위란?

 

수집된 자료가 정규분포를 따른다 할 때, 그 자료의 표준편차(standard deviation, SD)에 2를 곱한 값, 다시 말해서 평균값으로부터 표준편차의 -1.96배에 해당하는 점과 1.96배 이하가 되는 점 사이의 (정규곡선 아래) 면적은 전체 면적의 95%에 해당된다.

확장기 혈압(diastolic blood pressure)을 72명의 공무원을 대상으로 측정하였더니 평균은 88mmHg 이었고 표준편차는 4.5mmHg이었다 하자. 이 값의 [평균값 ± 1.96배 표준편차]는 다음과 같이 계산된다. 상한값 : 88 + (1.96 × 4.5) = 96.8mmHg; 하한값 : 88 - (1.96 × 4.5) = 79.2mmHg. 따라서 우리는 72명으로 구성된 전체 대상에서 확장기 혈압이 79 보다 낮거나 97 보다 높은 사람은 전체의 20분지 1 즉, 5%에 해당된다는 사실을 알 수 있다. 여기서 말하는 95% 구간(limits)을 흔히 참고범위(reference range)라 한다. 의학분야에서는 어떤 검사항목의 95% 구간을 흔히 정상역 혹은 정상 범위(normal range)라 하여 이 기준을 넘는 경우는 비정상(abnormal)으로 간주한다. 어떤 질병의 정상구간을 설정하기 위해서는 그 질병을 가지지 않은 정상인으로 구성된 표본을 먼저 모은 다음, 전체 대상의 상위 2.5% 그리고 하위 2.5%를 위치하는 점을 정상역으로 간주하는 방법이 흔히 사용된다. 이를 경험적 판단에 의한 정상역(empirical normal range)이라 부른다.

 

14. 신뢰구간이란?

 

모집단으로부터 표본을 여러 번에 걸쳐 추출하면 여러 개의 평균값을 얻게 된다. 이렇게 구한 표본 평균값들은 하나의 분포를 구성하게 되는데, 이들 표본 평균값들로 이루어지는 분포의 표준편차를 는 분포의 표준편차를 표준오차(standard error, SE)라 한다. 이 경우에도 표본 평균값들의 95%는 [평균 ± 2배 표준오차]의 범위 내에 있게 될 것이고, 이 표본 평균값들로 이루어지는 분포의 평균값은 실제로는 모집단의 모 평균값에 매우 근접된 값이 된다. 따라서 표본 평균값의 표준오차를 잘 이용하면 우리가 알려고 하는 진정한 의미의 모 평균값과 표본 평균값과의 차이를 확률의 개념에 근거하여 표현할 수 있다.

공무원을 대상으로 측정한 혈압 자료에서 대상 수는 72명이었으며 표준편차는 4.5mmHg이었으므로 표준오차는 0.53mmHg가 된다. 따라서 표본 평균값의 1.96배 표준오차에 해당하는 구간은 다음과 같이 표현된다. 88 + (1.96 × 0.53) = 89.04mmHg; 88 - (1.96 × 0.53) = 86.96mmHg. 이런 식으로 계산한 구간이 바로 95% 신뢰구간(confidence intervals, 95% CI) 인데, 학술논문에서도 자주 볼 수 있으며 가장 자주 이용하는 통계량의 하나이다.

‘이 구간 내에 모 평균값이 위치하지 않을 확률은 5% 밖에 되지 않는다’고 일반적으로 표현한다. 표준오차의 3배에 해당하는 구간은 86.41에서 89.59 사이가 되며, 우리는 이를 ‘99.73% 신뢰구간’이라 부른다. 이와 같이 신뢰구간이란 우리가 직접 구한 표본으로부터 모집단(모 평균치)에 관한 어떤 (통계학적) 추론을 행하는데 있어 없어서는 안될 중요한 것이다.

 

15. 참고범위와 신뢰구간의 차이?

 

참고범위(reference range)와 신뢰구간(confidence interval)의 차이는 표준편차(SD)와 표준오차(SE)의 차이와 동일하기 때문에 표준편차와 표준오차의 개념을 구분하여 이해한다면 쉽게 이해할 수 있다. 표준편차란 표본에서 측정한 실측자료의 퍼져있는 정도(산포도)를 표시하는 통계량의 하나로, 각 표본 측정치에 관한 정보를 제공해줄 뿐이다. 따라서 표준편차를 가지고는 모집단에 관해서 어떤 추론도 할 수가 없다. 참고범위도 표본에 속한 측정치들이 정규분포를 따르는 경우 평균과 표준편차만을 가지고 표본 전체의 속성을 속속들이 파악하는데 이용될 수 있을 뿐이다. 반면에 표준오차를 이용하면 우리는 비로소 표본에서 관찰한 결과로부터 모집단에 관한 추론을 할 수 있게 되는데, 신뢰구간은 그러한 통계적 추론방법의 하나이다. ‘모 평균값이 무엇이다’라고는 확정적으로 해답을 얻을 수는 없지만, ‘모 평균값이 어떤 범위(신뢰구간)내에 있을 확률이 95%이다’라고 말할 수는 있다는 뜻이다.

 

16. 귀무가설과 제1종 오류
 
 공무원과 군인의 혈압을 비교하는 과정에서 두 표본 평균값이 같은 모 집단에서 나온 값이라는 가설(hypothesis)을 검정하고자 하였다. 여기서 “Ho: 공무원 혈압의 표본 평균값이 추출된 모집단과 군인의 표본 평균값이 추출된 모집단 사이에는 차이가 없다”라는 가설을 귀무가설(歸無假說, null hypothesis, Ho)이라 부른다.

여기서 “차이가 없다(no difference)”라는 말의 의미를 이해하여야 한다. 추출된 표본에서 관찰되는 평균값들은 사실은 같게 나타나는 일은 없고 항상 다르게 나타나게 마련인데, 이런 현상을 통계학에서는 우연(chance)에 의해 나타난 차이일 수 있다고 말한다. 따라서 우리는 표본에서 어떤 값들이 관찰되었을 때 통계학적으로는 의미(significance)가 없는 차이를 지칭해주는 어떤 구간(limits)을 정해 놓게 되는데, 표본 평균값 차이의 표준오차의 2배를 기준으로 잡는 것이 통상적인 방법이다. 만약 어떤 값이 이 구간을 벗어나 있을 경우 우리는 ‘그 값은 다른 모집단에서 추출된 값이며, 따라서 그 귀무가설이 맞을 가능성은 20분지 1 정도이다’, 라고 판정하게 된다.

표본에서 구한 평균값의 차이가 이 구간을 벗어나는 경우 우리는 다음과 같은 두 가지 해석 중에서 하나를 선택하여야 한다. ⅰ) ‘아주 일어나기 힘든 일이 일어났거나’, 아니면 ⅱ) ‘귀무가설이 틀렸거나’. 이해를 쉽게 하기 위해서 이런 상황을 생각해 보자. 동전을 5번 던졌더니 5번 모두 한쪽 면이 나왔다 하자. ⅰ) 운이 좋았던 건가? 그게 아니라면 ⅱ) 동전이 찌그러진 불량품이기 때문이었을 것이다. 만약 이 결과가 우연히 생긴 것이라고 생각하고 싶지 않다면, 여러분은 ‘동전은 불량품이 아니다’라는 사실을 인정하지 않으려고 할 것이다. 이것이 바로 귀무가설을 기각하고자 판정하는 과정이며, 통계적 검정 과정(hypothesis testing)은 바로 이와 같다.

‘귀무가설은 사실(true)’ 이어서 맞는데 ‘그 가설은 사실이 아니다(false)’고 잘못 판정하여 가설을 기각(reject)하게 되는 경우를 제1종 오류(type I error)라 한다. 일반적으로 통계적 가설검정에서 판정 결과가 ‘통계적으로 유의(significant)하다’라고 판정하는 기준을 통계적 유의수준(significance level) 이라 하는데 이 때 사용하는 기준이 바로 제1종 오류이며, 일반적으로 α(error)라고 표시한다.

통계적 검정에서는 사실은 ‘귀무가설이 맞다(likely)'를 증명하려고 노력하는 것이 아니라 ‘귀무가설이 맞지 않다(unlikely)’라는 사실을 입증하려고 노력하는 것이다. 따라서 어떤 값이 미리 정한 구간을 벗어나게 되어 '유의한 차이(significant difference)'가 있다고 판정할 때 ‘귀무가설이 옳지 않다(unlikely)’고 판정하게 된다. 반대로 어떤 값이 미리 정한 구간 이내에 있어 '유의한 차이가 없다(non-significant difference)'고 판정할 때 ‘귀무가설이 옳다(likely)’고 판정하게 된다.

표준오차의 2배(정확히는 1.96배)에 해당하는 구간을 일반적으로 유의수준(α)=0.05 라 하여 가장 일반적으로 이용되고 있다. 하지만 연구자의 의도에 따라서는 제1종 오류를 더 줄여 보다 엄밀하게 판정할 수 있으며, 그렇게 하기 위해서는 표준오차의 2.58배로 구간을 늘려 유의수준을 α=0.01로 줄여야 한다. 유의수준은 연구자 마음대로 정할 수 있다.

 

17. 대립가설과 제2종 오류
 
 두 집단을 비교한 결과 통계적으로 유의하지 않은 결과를 얻었을 때 명심하여야 하는 것은 ‘non-significant 결과가 두 표본이 같은 집단에서 추출된 것을 증명하였음을 의미하는 것은 아니다' 라는 사실이다. 다시 말해서 '통계적으로 유의하지 않다'라는 결과는 단순히 ’그 표본들이 같은 모집단으로부터 나오지 않았다는 사실을 증명하는데 실패하였음‘을 의미할 뿐이다.

연구를 계획할 때 ‘두 집단 사이에 어느 정도의 차이가 나타날까?’를 미리 생각해 두는 것이 필요하다. 예를 들어, 임상시험을 통해 어떤 치료법의 효과를 판정하려 할 때 ’새로운 치료법이 기존의 치료법에 의한 회복률을 10% 정도는 향상시켜야 의미가 있다‘라고 미리 기준을 정해 놓는 것이 좋다는 뜻이다. 이를 보통 연구가설(study population)이라 하는데, 통계검정을 통해 증명하고자 하는 차이 같은 것이다. 이런 연구가설을 귀무가설에 대비되는 용어로 대립가설(對立假說, alternative hypothesis, H1)이라 부른다.

그리고 ’사실은 두 집단 간에 차이가 있는데 귀무가설을 기각하지 못하여 차이가 없다‘고 잘못 판정하게 되는 오류를 제 2종 오류(type Ⅱ error)라 하는데 보통 β로 표시한다. (1 - β)를 연구의 검정력(power of a study)이라 부르는데, ’귀무가설이 틀려 사실은 두 집단 간에 차이가 있을 때 귀무가설을 기각하여 차이가 있다’고 판정하는 능력을 의미한다. 제 2종 오류가 발생하는 가장 흔한 경우는 표본의 크기가 작을 때이다. 연구가 수행되고 결과가 분석되는 과정에서는 연구가설과 대립가설이 가설검정의 결과로 제시되어야 하며, 모수와 신뢰구간을 추정한 방법도 제시되어야 한다.

 

18. 구간추정법과 가설검정법
 
 서로 다른 두 표본집단이 있다 할 때 ⅰ) ‘이 두 집단이 같은 모집단으로부터 추출된 집단인지?’ 아니면 ⅱ) ‘서로 다른 모집단으로부터 각각 따로 나온 집단인지?’ 알고자 한다.

다음과 같은 두 가지 방법으로 이 문제를 해결할 수 있는데, 첫 번째 기술한 방법을 모수추정법(estimation)이라 하고, 두 번째 방법을 가설검정법(hypothesis testing)이라 한다.

① 두 집단(표본)의 평균값을 계산한다.
② 그 평균값의 95% 신뢰구간을 계산한다.
③ 이 구간이 0을 포함하면 두 표본이 같은 모집단을 가질 가능성이 크며,
④ 이 구간이 0을 포함하지 않으면 두 표본이 같은 모집단에서 나올 가능성이 적다고 판정한다.

또 다른 방법 하나인 가설검정법은 다음과 같다.

① 귀무가설이 사실이라 할 때 표본에서 측정한 값이 관찰될 확률을 P-value로 구한다.
② 이 P-값이 유의수준(보통 5%)보다 작으면 결과(차이)는 유의하다고 판정하고, 귀무가설을 기각한다.
③ 이 P-값이 유의수준(보통 5%)보다 크면 결과(차이)는 유의하지 않다고 판정하고, 귀무가설을 채택한다.

모수추정법과 가설검정법의 두 가지 통계분석법은 서로 상호 보완이다. 어떤 통계값의 95% 신뢰구간이 0을 포함한다면 이 경우의 P 값은 2.5% 이며, 이 확률은 관찰된 통계값이 어떤 값보다 같거나 클 확률을 의미하므로 단측 확률(one sided P value)이라 한다. 이에 반해서 95% 신뢰구간은 양측 확률(two sided P value)을 표시하는데, 그 이유는 상한값(upper limit) 이상 2.5% 면적과 하한값(lower limit) 이하 2.5% 면적을 합한 값이기 때문이다. 통상적으로는 단측으로 구한 확률에 2를 곱하면 양측 검정 결과로서의 P 값을 구할 수 있다.

 

19. 두 표본 평균값에 대한 가설검정
 
 ‘공무원과 군인의 혈압 평균값에 차이가 있는지?’ 알기 위해서는 우선 ‘Ho: 두 집단 간에 혈압에 차이가 없다’라는 귀무가설을 설정하여야 한다. 그 다음의 문제는 '과연 표준오차의 몇 배에 해당하는 구간을 정할 것인가?'하는 것인데, 평균값의 차이는 앞에서 계산한대로 9mmHg 이고 그 표준오차는 0.81mmHg 이었으므로 그 답은 [ 9 / 0.81 = 11.1 ] 이다. 추정치를 표준오차로 나눈 값이 (표준화) 정규분포를 따른다면 “Z = 11.1” 가 되며, 정규분포 표에서 찾아보면 이 Z-값은 표준편차의 3.291배 보다 더 큰 값이 되어 확률은 0.001(혹은 1000분지 1)이 된다. 따라서 ‘이러한 차이가 우연히 발생할 가능성은 매우 낮다’고 인정되며, 따라서 ‘이 두 값이 같은 모집단으로부터 나왔다’는 귀무가설은 옳지 않다(unlikely)고 판정한다. 이러한 확률을 보통 “P value"라고 표현하는데, 이 경우에는 ”P << 0.001"라 표기하면 된다.

 

20. P 값의 크기는 무슨 뜻인가?
 
 P 값은 직접 측정한 결과가 귀무가설 하에서 귀무가설이 맞을 때 관찰될 확률을 의미한다. 이 값이 통상적으로 0.05 보다 작으면(P < 0.05) 관찰결과가 우연히 발생할 가능성이 매우 낮아 귀무가설을 기각하면서 ‘이 두 값이 같은 모집단으로부터 나왔다’는 귀무가설은 옳지 않다고 판정하며, 이 값이 0.05 보다 크면 (P > 0.05) 관찰결과가 우연히 발생할 가능성이 매우 높아 귀무가설을 채택하면서 ‘이 두 값이 같은 모집단으로부터 나왔다’는 귀무가설을 관찰자료가 지지한다고 판정한다. P 값은 귀무가설이 사실일 확률을 의미하는 것은 아니다. P 값은 연구관찰 자료가 귀무가설을 지지하지 않고 반대하는 정도를 의미한다. ‘P < 0.05’의 경우 ‘통계적으로 유의하였다(significant)’라 표현하며, ‘P < 0.01’의 경우에는 ‘통계적으로 매우 유의하였다(highly significant)’라 표현하는 것을 보면 그 의미를 알 수 있다. 그러나 주의하여야 할 것은 어떤 약제 A는 가설검정 결과 P = 0.05 이었던데 비해 약제 B는 P = 0.01 이어서 B 약제의 효과가 더 크다는 해석은 매우 잘못된 것이다. P 값의 크기에 따라 통계적으로 더 의미가 있다고 표현할 수는 없는 것이다. P 값은 서로 비교할 수 없다.

 

21. 잘못 이해한 용어 - 분률과 비율
 
 '우리나라에는 위암이 많은데 남자의 비율이 70%를 넘는다' 혹은 '시험성적 A+ 이상을 받은 학생의 비율이 5% 이내이어야 한다‘는 표현에서 비율은 모두 잘못 사용된 것이다. 분률이 맞는 표현이다. 分率은 proportion의 해석으로 “분자를 분모로 나눈 값이되 분자에 속한 모든 사건(대상)이 분모에 포함되는 경우”로 정의되어 흔히 사용하는 백분율(100을 기준으로 표시하는 %)이 대표적인 예가 된다. 의학 분야에서 사용되는 유병률(prevalence), 생존률(survival rate, rate는 잘못된 표현이나 관용적으로 사용하고 있음)은 분율에 해당한다.

比率은 rate의 번역이며, 일상적 상식에는 어울리지 않는 다소 어려운 개념의 학술적 용어이다. 비율은 어떤 사건이 시간 경과에 따라 발생할 때 특정 순간(time at t)에 가지는 그 사건의 발생 속도(instantaneous velocity, 벡타)로 산출하며, 그 사건의 발생양상이 직선인 경우에는 기울기, 곡선인 경우에는 특정 시점의 미분값이 된다. 의학 분야에서 사용되는 발생률(incidence rate), 사망률(death rate), 생존분석의 hazard rate은 비율이 적당한 표현이다.

한편, '위암 환자 중 남자의 비율이 0.7이다'와 같이 전체 대상 중 상호배반적(mutually exclusive)인 두 사건의 빈도를 분모-분자의 형태로 표현하는 경우를 흔히 보는데, 이를 比(ratio)라 한다. 분률이나 비율처럼 분모-분자의 형태를 취하지만 개념은 전혀 다름에 유의하여야 한다. 성비(sex ratio)가 가장 대표적인 예이며, 유사한 개념으로 간혹 대응비(odds)가 사용되기도 한다.

이들 세 가지 지표는 모두 분자-분모의 형태를 취하고 있어 모양은 비슷하지만 정의나 개념이 원천적으로 다르다. 이를 구분하여 설명하는 이유는 단순히 잘못 표현한다는 문제 때문이 아니라 세 가지 지표가 각각 다른 통계학적 이론 분포를 따른다는데 그 중요성이 있다. 즉, 통계학적 분석법이 서로 전혀 다르다는 뜻이다.

 

22. 잘못 이해한 용어 - 발생률, 유병률, 상대빈도
 
 어느 의사가 희귀질환인 유전질환 환자를 일년에 15 case를 진찰하고 ‘발생률’을 계산하자고 통계상담실에 부탁하였다. 상담 결과는 ‘발생률을 계산할 수 없다’이다.

발생률은 incidence rate의 번역이며, 본인이 관찰한 15명이 원래 속해 있었던 어떤 (모)집단을 관찰 개시 일에 모두 진찰하여 그 질병이 없음(disease-free)을 확인 한 후에 한 명도 빠지지 말고 최소한 1개월 혹은 1년이란 기간동안 그 병이 새로 생기는지(발생, incidence)를 확인하여 그 기간동안 발생된 환자(15명)를 모든 대상의 관찰기간의 합(분모)로 나누어 줄 때만 발생률 산정이 가능한 비율(rate)에 속하는 지표이다. 발생률이란 특정 인구집단(관찰대상)에서 그 사건이 생기는 발생의 속도를 표현하는 다분히 학술적인 개념의 지표로 사실은 측정하기가 매우 어렵다. ‘우리나라에는 질병통계가 없다’는 표현을 역학자를 통해 자주 듣지만, 그 내용의 대부분은 발생률이 없다는 뜻이다. 대상을 선정한 후 수 년 이상 추적․관찰하는 코호트 연구에서만 발생률은 계산할 수 있다.

유병률(prevalence)는 분률(proportion)에 해당하는 지표로 발생률처럼 disease-free 집단을 사전에 선정할 필요도 없고 일정 기간을 기다려 관찰할 필요도 없다는 점에서 발생률보다는 계산이 용이하다. 하지만 유병률도 본인이 관찰한 15명이 원래 속해 있었던 (모)집단에 대해서는 모두 파악하고 있어야만 가능하다. 즉, 특정 시점(혹은 기간)에 관찰하였더니 100명중 유전질환을 가진 환자가 15명이었다 할 때 100명당 15명(15%)가 유병률이 된다.

유병률과 혼동되는 지표의 하나가 상대빈도(relative frequency)인데, 위의 예에서 원래 속해 있었던 (모)집단에 대해서는 모두 파악할 수 없는 경우에는 이 지표(분률)를 사용할 수밖에 없다. 즉, 병원에서 유전질환으로 확진된 15명은 그 병원에 내원한 모든 환자 100명 중 15%를 점유하고 있다는 의미로 해석된다. 중앙암등록사업의 결과 위암이 차지하는 분률도 우리나라 암 환자 전체에 대한 분모를 모른다고 할 수밖에 없는 상황이라면 상대빈도로 제시하여야 하며, 분모를 파악하고 있다면 유병률 혹은 발생률의 형태로 제시되는 것이다.

이 세 가지 지표도 모두 기본적으로 따르는 이론분포의 종류가 다르기 때문에 통계적 추론을 할 경우에는 분석법이 다름을 명심하여야 한다.

 

23. 잘못 이해한 용어 - 사망률과 치명률
 
 ‘전남 어느 지역에 콜레라가 발생하여 사망률이 10%에 달하였다’는 신문기사를 읽은 적이 있다. 실로 이는 엄청난 재해가 된다. 왜냐하면 사망률은 death rate 혹은 mortality rate를 번역한 것으로 발생률과 같이 비율(rate)에 속하기 때문에 그대로 해석하면 ‘일정한 기간 동안에 관찰대상이 되는 지역 주민(분모)중 10%가 죽었다’는 뜻이기 때문이다.

이 경우의 올바른 표현은 치명률일 것이다. 치명률(치사률)은 (case) fatality rate를 번역한 것으로 ‘어떤 질병에 걸린 사람 중 사망하는 사람의 분률(proportion)’을 의미하는 것으로 사망률과는 죽은 사람의 수에서 엄청난 차이가 있음을 이해하여야 한다.

 

24. 유효 표본수는 통계학 전공자가 해결하는 것이 아니다.
 
 환자-대조군 연구나 임상시험 심지어는 실험실적 연구를 수행하는 경우에도 연구계획 단계에서 표본 수를 미리 산출하여 통계적 유의성이 보장되는 유효 표본수(effective sample size)를 사전에 제시하게 되어 있다. 가끔 이런 상담의뢰를 받게 되는데, 이 문제는 물론 통계학적으로 해결해야 한다. 즉, 그 연구를 통해 자료가 수집되었을 때 이용할 통계적 분석방법(예: t-test)은 사전에 결정할 수 있다. 유효 표본수는 이 공식에 포함되어 있는 'n'을 거꾸로 풀어내기만 하면 된다. 아주 쉬운 일이다.

그러나 실제는 다음과 같은 과정을 거쳐 산출한다. ① 귀무가설과 대립가설을 정의하고 단측 가설 혹은 양측가설을 정한다. ② 가설상의 독립변수와 종속변수의 척도를 기초로 하여 적절한 통계학적 검정법을 선택한다. ③ 예상되는 차이의 크기를 정한다. 필요하면 측정의 신뢰도도 고려한다. ④ α-error 와 β-error 혹은 power 를 결정한다. ⑤ 주어진 공식을 이용하여 필요한 표본수를 산출한다. 가능하다면 적절한 표를 이용할 수도 있다.

이 과정을 잘 보면 통계학 전공자가 할 일은 적용할 통계방법에 따라 공식을 제공해 주는 일 외에 별로 할 일이 없다. ‘예상되는 차이의 크기’나 ‘측정의 신뢰도’ 그리고 ‘α-error 와 β-error’는 연구자가 결정할 사항이기 때문이다.

 

25. 순위변수에 대한 부적절한 분석

 

‘연령에 따른 B형 간염 발생률의 변화’, ‘암세포 분화도에 따른 치료결과 (예후)’, ‘대장암의 위험요인으로서 고지방식 섭취정도’ 의 예에서 볼 수 있듯이, 이들 연구가설의 독립변수는 원래의 척도가 순위 혹은 연속적인 변수이지만 실제의 분석과정에서는 이들 연속적인 변수를 범주형 변수로 변환하여 분석하게 된다. 즉, ‘연령 1세의 변화에 대한 혈압의 변동량’ 라는 가설보다 ‘30대 연령군에 비해 50대 연령군에서의 혈압의 차이’가 생물학적 측면에서는 물론 일반적으로 이해가 더 쉽기 때문에 범주형 자료의 분석이 애용된다.

독립변수가 순위변수인 범주형 자료에서는 [독립변수에 폭로되는 양이 변동함에 따라 그 결과로 야기되는 종속변수의 양도 변함] 이라는 가설을 검정하게 된다. 이러한 순위자료의 분석론을 소위 「순위변수의 양-반응관계(dose-response relationship)분석」 이라 하는데, 어떤 두 사상간에 이러한 「양-반응관계」 가 관찰되면 이들 두 변수는 서로 인과적 관계에 있을 가능성이 매우 높기 때문에 질병의 원인을 추구하는 의학연구에서 특히 중요함에도 불구하고 순위변수에 대한 통계학적 분석론은 일반적으로 잘 이해되지 못하고 있다.

연속변수를 범주형 자료로 변환시키면 대개의 경우는 그 척도가 순위변수로 변한다. 한편, 연속적 변수를 극단적으로 범주화하여 이분성 자료 (예: 2x2 분할표) 로 만들면 통계적인 안정성은 좋아질지 몰라도 독립변수와 종속변수간의 관계를 폭넓게 보지 못하는 단점이 있다. 따라서 비율이나 분률과 같은 범주형 자료들은 two-by-k table 형태로 분석하는 것이 바람직하다.

 

26. 순위변수에 대한 경향분석법으로 새로운 가설을

 

 독립변수가 2개 이상의 범주로 구성된 순위변수인 경우에는 ‘독립변수의 양이 증가함에 따라 종속변수의 양이 변하는 소위 양-반응관계’를 평가하는 분석이 중요하다. 여기에는 다음과 같은 세가지 분석법이 권장된다.

① [H0: Ω1 = Ω2 = … = Ωi = 1]와 같이 ‘각 백신 투여수준에 따른 관련도 지표는 모두 동시에 0 으로 같다’는 가설을 검정하는 방법(global test for homogeneity of k proportion)

② [H0: β = 0]의 가설 즉, ‘각 백신 투여수준에 따르는 관련도 지표로 이루어지는 직선의 기울기는 0’임을 증명하는 검정법(score test for trend)

③ 독립변수가 순위척도인 경우에는 [백신의 희석률이 감소하면 할수록 백신의 예방효과는 커진다] 는 소위 ‘양-반응 관계’에 대한 검정에서 선형로짓모델을 이용한 경향분석법(likelihood ratio test for trend)

순위변수에 대한 경향분석법을 이용하면 일반적으로 통계적 유의성이 잘 확보되는 경향이 있는데, 그 이유는 자유도가 항상 ‘1’이기 때문이다. 경향분석법으로 새로운 가설을 증명한 좋은 예를 많이 볼 수 있다.

 

 

출처 : http://plaza.snu.ac.kr/~statis/