요인분석의 개념
요인분석(Factor Analysis)은 많은 변수들의 상호 관련성을 소수의 요인(factor)으로 추출하여 전체변수들의 공통요인을 찾아내 각 변수가 받는 영향의 정도와 그 집단의 특성을 규명하는 통계분석방법이다. 즉, 실제결과를 초래하게 되는 요인을 찾아냄으로써 목표로 하는 명제를 설명하는 다변량 통계분석방법이다.
요인분석의 목적
요인분석의 목적은 여러 개의 변수들에 내재된 정보를 이용하여 보다 적은 수의 요인으로 압축, 요약하는 데 있다. 일반적인 요인분석의 목적은 다음과 같다.
첫째, 변수들을 축소한다. 여러개의 관련있는 변수들이 하나의 요인으로 묶여짐으로써 많은 변수들이 적은 수의 요인으로 줄어들게 된다.
둘째, 불필요한 변수들을 제거한다. 요인에 포함되지 않거나 포함되더라도 중요도가 낮은 변수를 찾을 수 있으므로 불필요한 변수가 제거된다.
셋째, 변수들의 특성을 파악한다. 관련된 변수들이 묶여져 요인을 이루고 이들 요인들은 상호 독립적인 특성을 가지게 되므로 변수들의 특성을 알 수 있다.
넷째, 측정항목의 타당성(validity)을 평가할 수 있다. 하나의 특성을 측정하기 위해 관측된 변수들은 하나의 요인으로 묶여진다. 따라서, 이같은 특성을 이용하여 묶여지지 않은 변수는 다른 특성을 가진다고 판단한다. 이것으로 그 특성의 측정항목이 타당한가를 평가할 수 있다. 끝으로 요인분석을 통하여 얻어지는 요인점수를 이용하여 회귀분석, 판별분석 및 군집분석 등에 적용할 수 있다.
요인분석의 원리
첫째, 모든 변수들에 대한 상관행렬을 구한다.
둘째, 각각의 요인을 추출한다.
셋째, 보다 나은 해석을 위해 요인들을 회전한다.
넷째, 각 응답자에 대한 요인들의 점수를 산출한다
요인분석의 주요용어 해설
요인 : 서로 상관계수가 높은 변수들끼리 모아서 작은 수의 변수집단으로 구분한 것이다.
요인적재량 : 각 변수와 요인간의 상관관계의 정도를 나타낸다. 그러므로 각 변수들의 요인적재치가 자장 높은 요인에 속하게 된다. 요인적재치가 어느 정도 커야 하는가에 대한 일반적인 기준은 보통 0.3 이상이면 유의하다고 보지만 보수적인 기준은
0.4 이상이다. 그리고
0.5이상인 경우는 매우 높은 유의성을 가진 것으로 본다. 적재치의 유의성은 표본의 수, 변수의 수 및 요인의 수 등에 따라 변동된다. 즉 변수들과 요인 사이의 상관계수로서, 요인적재량의 제곱은 해당변수가 요인에 의하여 설명되는 분산의 비율을 나타낸다.
요인행렬 : 요인들은 변수들의 계수(혹은 적재치)를 곱한 합으로 표현되며 이 계수 혹은 적재치의 행렬을 가리킨다. 행은 변수에 열은 요인에 대응하는 적재치이다. 직교회전이므로 요인간 상관관계는 '0'이 된다. 즉 각 요인들에 대한 모든 변수들의 요인적재량의 행렬이다.
공분산비 : 요인분석에서 공통요인들에 의해 설명되어지는 변수의 분산비율을 말한다. 변수에 대한 모든 요인적재치를 제곱하여 합한 것이 공통성이다. 요인적재치의 제곱은 결정계수가 되므로 공통성은 결국 추출된 요인들에 의해 설명되는 특정 변수의 분산이 된다. 따라서 여러 요인에 의하여 설명될 수 있는 한 변수의 분산 양을 백분율로 나타낸 것으로, 추출된 요인들이 각각의 변수를 어느정도 설명하는지를 측정하며 이를 통해 요인분석의 적합성 여부를 판단한다.
고유값 : 각각의 요인으로 설명할 수 있는 변수들의 분산의 총합으로 각 요인별로 모든 변수의 요인적재량을 제곱하여 더한 값이다. 즉 변수의 정보(분산)가 어떤 요인에 의해 어느 정도 표현되는지를 나타내주는 비율이다. 먼저 추출된 요인의 고유값은 항상 다음에 추출되는 요인의 고유값보다 크다.
구조행렬 : 요인패턴행렬은 요인들이 직교인 경우이나 직교가 아닌 경우에도 해당된다. 행은 변수에 열은 요인에 대응하는 적재치이다.
요인분석의 연구상황 및 분석법
아래와 같은 스트레스에 영향을 미치는 요인에 대한 설문사항을 가정하여 요인분석을 수행하는 예를 보도록 하자.
◇◇기업에서 사원들이 스트레스에 영향을 미치는 요인들이 어떠한 것인지 알고자 한다. 따라서, ◇◇기업의 근무환경에 관련된 문항을 내용으로 하는 리커트(Liert)5점 척도를 이용하여 측정항목들을 개발하였다. 그리고 설문지 배포, 자료수집 및 분석과정을 거쳐 이들 측정항목들이 몇 개의 개념으로 구성되어 있는가를 파악하기 위한 개념타당성을 검정하고자 한다. 구체적인 측정항목들의 설문내용은 다음과 같으며 수집된 자료를 이용하여 요인분석을 실행하자.
※다음 각 항목은 스트레스에 영향을 미치는 요인들입니다 귀하의 스트레스에 미치는 영향의 정도를 각 항목별로 평가하여 체크하여 주십시오. | |||||
질문항목 |
전혀그렇지않다 ① |
그렇지 않은편이다② |
그저그렇다③ |
약간그렇다④ |
매우그렇다⑤ |
1. 복잡한 사무실구조 2. 타부서와의 업무협조가 잘 안되는 경우 3. 귀하의 직무상 발전적 기회없음으로 4. 부서내의 소외감 5. 기업의 비능률적인 조직구조 6. 기업의 경직도 분위기 7. 경제적 능력부족 8. 책임감 결여 9. 불안정한 가정분위기 10. 리더쉽 부족 |
∨
∨ |
∨
∨
|
∨
∨
|
∨
∨
|
∨
∨ |
⇒ 위의 설문내용들의 변수명은 편의상 설문1, 설문2, ···설문10으로 정의하여 자료에 입력하였다. |
※ 위의 설문에 의한 수집된 자료의 사례수가 258명으로 가정하여 요인분석을 실시한 결과이다.
|
Initial (초기) |
Extraction ( 추출) |
설문1 |
1.000 |
.217 |
설문2 |
1.000 |
.383 |
설문3 |
1.000 |
.435 |
설문4 |
1.000 |
.347 |
설문5 |
1.000 |
.581 |
설문6 |
1.000 |
.510 |
설문7 |
1.000 |
.360 |
설문8 |
1.000 |
.716 |
설문9 |
1.000 |
.622 |
설문10 |
1.000 |
.449 |
Extraction Method: Principal Component Analysis. (추출방법 : 주성분분석) |
공통성(communalities)에 관한 내용으로 각 변수의 초기값(initial)과 주성분 분석에 의한 각 변수의 추출값(extraction)이 제시되어 있다. 한편 각 변수의 공통성은 추출된 요인에 의해 설명되는 비율을 나타낸다.
예를 들면. 설문1의 공통성이 .217이므로 이들 2요인으로는 20%가 설명되고 나머지 80%는 설명되지 않는다. 그러므로, 공통성이 낮은 변수는 요인분석에서 제외함이 좋다. 일반적으로 공통성이 .4 이하이면 낮다고 판정한다. 위의 표에 있어 낮은 공통성을 보이고 있으나 그대로 사용하기로 한다.
|
Initial Eigenvalues 초기고유값 |
Extraction Sums of Squared Loadings 추출 제곱합 적재값 |
Rotation Sums of Squared Loadings 회전 제곱합 적재값 | ||||||
Component 성분 |
Total 전체 |
% of Variance % 분산 |
Cumulative % %누적 |
Total 전체 |
% of Variance %분산 |
Cumulative % %누적 |
Total 전체 |
% of Variance %분산 |
Cumulative % %누적 |
1 |
2.829 |
28.290 |
28.290 |
2.829 |
28.290 |
28.290 |
2.392 |
23.925 |
23.925 |
2 |
1.791 |
17.912 |
46.203 |
1.791 |
17.912 |
46.203 |
2.228 |
22.278 |
46.203 |
3 |
.975 |
9.754 |
55.957 |
|
|
|
|
|
|
4 |
.931 |
9.308 |
65.265 |
|
|
|
|
|
|
5 |
.769 |
7.686 |
72.951 |
|
|
|
|
|
|
6 |
.737 |
7.370 |
80.321 |
|
|
|
|
|
|
7 |
.595 |
5.947 |
86.268 |
|
|
|
|
|
|
8 |
.556 |
5.557 |
91.825 |
|
|
|
|
|
|
9 |
.435 |
4.353 |
96.178 |
|
|
|
|
|
|
10 |
.382 |
3.822 |
100.000 |
|
|
|
|
|
|
Extraction Method: Principal Component Analysis. (추출방법 : 주성분 분석) |
추출된 2성분(요인)의 고유치는 각각 2.829, 1.791로서 이것은 요인추출 기준으로 지정한 고유치 1이상인 요인만 추출된 것을 알 수 있다. 고유치는 그 요인이 설명하는 분산의 양을 나타내므로 이 값이 큰 요인이 중요한 요인이 된다. 이 2요인은 각각 사회생활에 의한 스트레스 요인1은 28.290%, 요인 2는 17.912%를 설명함으로써 전체(누적)46.203%를 설명하고 있다. 물론, 요인 1이 가장 높은 설명을 하고 있다. 요인을 더 많이 추출하였다면 그 설명력은 46.203%보다 더욱 높아질 것이지만 요인의 수가 많아진다는 단점이 있다. 따라서, 요인은 가능한 한 적으면서 설명력을 높이는 것이 중요한 것이다. 참고로, 각 요인의 고유치는 각 변수들의 적재치를 제곱하여 합한 값을 의미한다.
Component Matrix(a)(성분행렬)
|
Component | |
1 |
2 | |
설문6 |
.670 |
-.245 |
설문5 |
.659 |
-.382 |
설문8 |
.618 |
.578 |
설문7 |
.600 |
3.371E-04 |
설문4 |
.562 |
.177 |
설문3 |
.497 |
-.434 |
설문10 |
.479 |
.469 |
설문1 |
.370 |
-.282 |
설문9 |
.342 |
.711 |
설문2 |
.396 |
-.476 |
Extraction Method: Principal Component Analysis. (요인추출 방법 : 주성분 분석) | ||
a 2 components extracted. ((a) 추출된 2성분) |
지정한 요인추출 방법으로 2요인이 선정되었다. 결과에 의하면, 설문1의 적재치는 요인 1, 2의 각각에 대하여 .670 , -.245만큼 영향을 미친다는 것이다. 즉, 설문1은 성분(factor) 1과 더 밀접한 관련성이 있다는 것이다. 이들을 수식으로 나타내면 다음과 같다.
|
Component(성분) | |
1 |
2 | |
설문5 |
.750 |
.137 |
설문6 |
.669 |
.248 |
설문3 |
.660 |
-8.081E-03 |
설문2 |
.610 |
-.106 |
설문1 |
.465 |
2.548E-02 |
설문7 |
.457 |
.390 |
설문8 |
9.489E-02 |
.841 |
설문9 |
-.200 |
.763 |
설문10 |
6.064E-02 |
.667 |
설문4 |
.313 |
.499 |
Extraction Method: Principal Component Analysis. (요인추출 방법 : 주성분 분석) Rotation Method: Varimax with Kaiser Normalization. (회전 방법 : Kaiser 정규화가 있는 베이멕스) | ||
a Rotation converged in 3 iterations. (3 반복계산에서 요인회전이 수렴되었습니다.) |
베리멕스법에 의한 3차례의 반복계산 후에 얻어진 회전 결과가 제시되어 있다. 이 방법에 의해 10개의 변수는 2개의 요인으로 묶여졌음을 알 수 있다. 각 요인에 속한 변수의 공통점을 찾아 각 요인명을 집단적 과 개인적이라 주어질 수 있다.
'정보기술의 샘터........о♡ > 통계학·사회조사분석사' 카테고리의 다른 글
SAS와 SPSS의 대체 소프트웨어 (0) | 2008.10.31 |
---|---|
[스크랩] ANOVA분석의 사용목적과 해석 (0) | 2008.10.26 |
다중회귀분석과 다중공선성의 문제 (0) | 2008.10.04 |
[스크랩] 더미변수를 이용한 회귀분석.. (0) | 2008.09.30 |
2008년 사회조사분석사 필답형 할당표본추출 문제 (0) | 2008.09.28 |