본문 바로가기

정보기술의 샘터........о♡/통계학·사회조사분석사

구조방정식을 이용한 CFA(확인적 요인분석)

 

구조방정식 모형에서 확인적 요인분석 혹은 확증적 요인분석 등으로 불리는 CFA에 대해서 몇가지 잘못알기 쉬운 부분을 정리해본다.

확인적 요인분석이란 우선 SPSS등을 이용해서 수행할 수 있는 탐색적 요인분석하고는 다르다. 왜 다르냐에 대해서 이래저래 말이 많지만, 여기는 수리통계전문가를 위한 블로그가 아니기 때문에 상식적으로 납득이 가는 수준에서만 정리해보자

우선 탐색적 요인분석이란 말 그대로 탐색적이라는 의미에서 이해해야 한다. 탐색적이라는 말은 실행 이전에 한번 탬색을 해본다는 의미로 이해하면 가장 좋다. 즉, 연구모형의 이론적 배경이 설정되기 전에 설문항목 중 다항목 측정치들이 각 문항간에 있어 얼마나 차별적인지 혹은 다른 연구자들이 이걸 사용해도 나와 비슷한 경향을 나타낼 확률이 높은지 등에 대해서 보여주는 것이다. 이는 연구자가 보고자 하는 가설의 검증과는 무관한 것으로 자료 자체의 경향성과 특히 연구자의 설문문항에 대한 일관성 등과 관련이 깊은 것이다. 그렇기 때문에 탐색적요인분석은 이론적 배경이나 연구모형의 설정 없이도, 그냥 설문문항 자체만으로 진행이 가능하며, 이 과정을 통해 문제가 있는 측정문항의 경우 제외할 수 있는 통계적 근거를 갖는데 그 목적이 있다.

그러나 확인적요인분석(CFA)의 개념은 약간 다르다. 통상적으로 통계를 조금이라도 돌려본 사람이라면 탐색적요인분석 이후에 확인적 요인분석을 실시하는 경우가 대부분이라는 점에서 이 둘의 순서에 대해서는 자연스럽게 알 수 있을 것이다. 그렇다면 확인적 요인분석은 왜 실행되어야 하는지에 대해서 이해할 필요가 있다. 이 역시 제목을 상식적으로 이해하는 것이 가장 좋다고 보는데, 확인적이라는 말 자체에 이미 답이 있다고 볼 수 있다. 확인적이라는 말은 목적물에 대한 확인을 의미하는데, CFA를 수행하는 것은 바로 연구자가 설정한 연구이론의 배경과 이를 통한 연구모형에 있어 나의 설문측정 문항이 얼마나 일관적으로 의미가 있는지에 대해서 확인을 하는 과정이다. 즉, 탐색적 요인분석이 이론과 연구모형의 유무에 상관없이 설문문항 자체를 기준으로 진행된다면, 확인적 요인분석은 반듯이 이론에 기반한 연구모형을 중심으로 실험되는 것이다. 실제로 AMOS등을 이용해서 구조방정식을 해본 사람은 알겠지만 확인적 요인분석을 위해서는 모형과 같은 비주얼을 기반으로 테스트를 하고 있음을 알 수 있다.
다시 정리하면 확인적 요인분석은 탐색적 분석을 걸쳐 걸러진 문항이 나의 연구모형에 있어 얼마나 이론적 연결관계에 충실한지에 대한 실험이다. 이 과정을 거치게 되면, 연구모형에 적합하지 않은 문항의 제거가 가능한 통계적 배경을 확보하게 되는 것이다.

다음으로 확인적 요인분석을 실시할 때 착각하기 쉬운 사항에 대해서 살펴보도록 하자, 우선 요인분석의 대상이 되는 잠재변수에 대해서는 각 측정항목이 3개 이상일 경우에만 실시하도록 해야 한다. 이는 측정항목이 3개미만일 경우 그러니까 2개나 1개인 경우 행렬을 이용한 구조방정식을 풀어가다 보면 유의수준을 결정하는데 역할을 하는 자유도가 음(-)이 나오게 된다. 즉, 그 유의수준에 대해서 알 길이 없는 것이다. 실제로 AMOS등을 가지고 실험을 해보면 측정변수 두개를 가진 하나의 잠재변수만에 대해 돌리게 되면 모델 설명부분에 자유도가 음(-)인 것을 확인할 수 있다. 그렇기 때문에 다항목 측정치 중에서 3개 미만은 제외한 상태에서 구조방정식 모형을 실행해야 한다. 그렇지 않을 경우 다른 잠재변인들과 맞물려 한 항목 정도의 음(-) 자유도는 영향을 안주는 것처럼 나올 수도 있지만, 이는 엄밀히 말하면 애초에 잘못된 항목을 집어놓은 통계 결과라고 할 수 있기 때문에 문제가 있다고 할 수 있다.

다음 수순으로 외생변수와 내생변수를 각각 돌리는 것 혹은 한번에 돌리는 것 등에 대한 차이에서는 이견이 있기는 하지만 따로 돌리는 것도 무방하다고 본다. 그러나 여기서 더 나가 모든 잠재변인을 각각 돌리는 경우에는 방법적으로 편의적인 경우라고 보는 시각이 다수이다. 따라서 가능하면 한번에 돌리는 것이 좋지만 너무 맣은 경우 내/외생 변수군으로 나누어 돌리는 수준까지만 고려하는 것이 일반적이라고 하겠다.