본문 바로가기

정보기술의 샘터........о♡/통계학·사회조사분석사

요인분석

요인분석의 개념

 

요인분석(Factor Analysis)은 많은 변수들의 상호 관련성을 소수의 요인(factor)으로 추출하여 전체변수들의 공통요인을 찾아내 각 변수가 받는 영향의 정도와 그 집단의 특성을 규명하는 통계분석방법이다. 즉, 실제결과를 초래하게 되는 요인을 찾아냄으로써 목표로 하는 명제를 설명하는 다변량 통계분석방법이다.

 

요인분석의 목적

 

요인분석의 목적은 여러 개의 변수들에 내재된 정보를 이용하여 보다 적은 수의 요인으로 압축, 요약하는 데 있다. 일반적인 요인분석의 목적은 다음과 같다.

첫째, 변수들을 축소한다. 여러개의 관련있는 변수들이 하나의 요인으로 묶여짐으로써 많은 변수들이 적은 수의 요인으로 줄어들게 된다.

둘째, 불필요한 변수들을 제거한다. 요인에 포함되지 않거나 포함되더라도 중요도가 낮은 변수를 찾을 수 있으므로 불필요한 변수가 제거된다.

셋째, 변수들의 특성을 파악한다. 관련된 변수들이 묶여져 요인을 이루고 이들 요인들은 상호 독립적인 특성을 가지게 되므로 변수들의 특성을 알 수 있다.

넷째, 측정항목의 타당성(validity)을 평가할 수 있다. 하나의 특성을 측정하기 위해 관측된 변수들은 하나의 요인으로 묶여진다. 따라서, 이같은 특성을 이용하여 묶여지지 않은 변수는 다른 특성을 가진다고 판단한다. 이것으로 그 특성의 측정항목이 타당한가를 평가할 수 있다. 끝으로 요인분석을 통하여 얻어지는 요인점수를 이용하여 회귀분석, 판별분석 및 군집분석 등에 적용할 수 있다.

 

요인분석의 원리

 

첫째, 모든 변수들에 대한 상관행렬을 구한다.

둘째, 각각의 요인을 추출한다.

셋째, 보다 나은 해석을 위해 요인들을 회전한다.

넷째, 각 응답자에 대한 요인들의 점수를 산출한다

 

 요인분석의 주요용어 해설

 

 

 

요인 : 서로 상관계수가 높은 변수들끼리 모아서 작은 수의 변수집단으로 구분한 것이다.

 

요인적재량 : 각 변수와 요인간의 상관관계의 정도를 나타낸다. 그러므로 각 변수들의 요인적재치가 자장 높은 요인에 속하게 된다. 요인적재치가 어느 정도 커야 하는가에 대한 일반적인 기준은 보통 0.3 이상이면 유의하다고 보지만 보수적인 기준은 0.4 이상이다. 그리고 0.5이상인 경우는 매우 높은 유의성을 가진 것으로 본다. 적재치의 유의성은 표본의 수, 변수의 수 및 요인의 수 등에 따라 변동된다. 즉 변수들과 요인 사이의 상관계수로서, 요인적재량의 제곱은 해당변수가 요인에 의하여 설명되는 분산의 비율을 나타낸다.

 

요인행렬 : 요인들은 변수들의 계수(혹은 적재치)를 곱한 합으로 표현되며 이 계수 혹은 적재치의 행렬을 가리킨다. 행은 변수에 열은 요인에 대응하는 적재치이다. 직교회전이므로 요인간 상관관계는 '0'이 된다. 즉 각 요인들에 대한 모든 변수들의 요인적재량의 행렬이다.

 

공분산비 :  요인분석에서 공통요인들에 의해 설명되어지는 변수의 분산비율을 말한다. 변수에 대한 모든 요인적재치를 제곱하여 합한 것이 공통성이다. 요인적재치의 제곱은 결정계수가 되므로 공통성은 결국 추출된 요인들에 의해 설명되는 특정 변수의 분산이 된다. 따라서 여러 요인에 의하여 설명될 수 있는 한 변수의 분산 양을 백분율로 나타낸 것으로, 추출된 요인들이 각각의 변수를 어느정도 설명하는지를 측정하며 이를 통해 요인분석의 적합성 여부를 판단한다.

 

고유값 : 각각의 요인으로 설명할 수 있는 변수들의 분산의 총합으로 각 요인별로 모든 변수의 요인적재량을 제곱하여 더한 값이다. 즉 변수의 정보(분산)가 어떤 요인에 의해 어느 정도 표현되는지를 나타내주는 비율이다. 먼저 추출된 요인의 고유값은 항상 다음에 추출되는 요인의 고유값보다 크다.

 

구조행렬 : 요인패턴행렬은 요인들이 직교인 경우이나 직교가 아닌 경우에도 해당된다. 행은 변수에 열은 요인에 대응하는 적재치이다.

 

 요인분석의 연구상황 및 분석법

 

아래와 같은 스트레스에 영향을 미치는 요인에 대한 설문사항을 가정하여 요인분석을 수행하는 예를 보도록 하자.

 

  ◇◇기업에서 사원들이 스트레스에 영향을 미치는 요인들이 어떠한 것인지 알고자 한다. 따라서, ◇◇기업의 근무환경에 관련된 문항을 내용으로 하는 리커트(Liert)5점 척도를 이용하여 측정항목들을 개발하였다. 그리고 설문지 배포, 자료수집 및 분석과정을 거쳐 이들 측정항목들이 몇 개의 개념으로 구성되어 있는가를 파악하기 위한 개념타당성을 검정하고자 한다. 구체적인 측정항목들의 설문내용은 다음과 같으며 수집된 자료를 이용하여 요인분석을 실행하자.

 

※다음 각 항목은 스트레스에 영향을 미치는 요인들입니다

귀하의 스트레스에 미치는 영향의 정도를 각 항목별로 평가하여 체크하여 주십시오.

질문항목

전혀그렇지않다

그렇지 않은편이다②

그저그렇다③

약간그렇다④

매우그렇다⑤

1. 복잡한 사무실구조

2. 타부서와의 업무협조가 잘 안되는 경우

3. 귀하의 직무상 발전적 기회없음으로

4. 부서내의 소외감

5. 기업의 비능률적인 조직구조

6. 기업의 경직도 분위기

7. 경제적 능력부족

8. 책임감 결여

9. 불안정한 가정분위기

10. 리더쉽 부족

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

⇒ 위의 설문내용들의 변수명은 편의상 설문1, 설문2, ···설문10으로 정의하여 자료에 입력하였다.

               ※ 위의 설문에 의한 수집된 자료의 사례수가 258명으로 가정하여 요인분석을 실시한 결과이다.

 

-->Communalities (공통성)

 

Initial (초기)

Extraction ( 추출)

설문1

1.000

.217

설문2

1.000

.383

설문3

1.000

.435

설문4

1.000

.347

설문5

1.000

.581

설문6

1.000

.510

설문7

1.000

.360

설문8

1.000

.716

설문9

1.000

.622

설문10

1.000

.449

Extraction Method: Principal Component Analysis. (추출방법 : 주성분분석)

공통성(communalities)에 관한 내용으로 각 변수의 초기값(initial)과 주성분 분석에 의한 각 변수의 추출값(extraction)이 제시되어 있다. 한편 각 변수의 공통성은 추출된 요인에 의해 설명되는 비율을 나타낸다.

예를 들면. 설문1의 공통성이 .217이므로 이들 2요인으로는 20%가 설명되고 나머지 80%는 설명되지 않는다. 그러므로, 공통성이 낮은 변수는 요인분석에서 제외함이 좋다. 일반적으로 공통성이 .4 이하이면 낮다고 판정한다. 위의 표에 있어 낮은 공통성을 보이고 있으나 그대로 사용하기로 한다.

  

-->Total Variance Explained (설명된 총분산)

 

Initial Eigenvalues

초기고유값

Extraction Sums of Squared Loadings

추출 제곱합 적재값

Rotation Sums of Squared Loadings

회전 제곱합 적재값

Component

성분

Total

전체

% of Variance

% 분산

Cumulative %

%누적

Total

전체

% of Variance

%분산

Cumulative % %누적

Total

전체

% of Variance

%분산

Cumulative %

%누적

1

2.829

28.290

28.290

2.829

28.290

28.290

2.392

23.925

23.925

2

1.791

17.912

46.203

1.791

17.912

46.203

2.228

22.278

46.203

3

.975

9.754

55.957

 

 

 

 

 

 

4

.931

9.308

65.265

 

 

 

 

 

 

5

.769

7.686

72.951

 

 

 

 

 

 

6

.737

7.370

80.321

 

 

 

 

 

 

7

.595

5.947

86.268

 

 

 

 

 

 

8

.556

5.557

91.825

 

 

 

 

 

 

9

.435

4.353

96.178

 

 

 

 

 

 

10

.382

3.822

100.000

 

 

 

 

 

 

Extraction Method: Principal Component Analysis. (추출방법 : 주성분 분석)

추출된 2성분(요인)의 고유치는 각각 2.829, 1.791로서 이것은 요인추출 기준으로 지정한 고유치 1이상인 요인만 추출된 것을 알 수 있다. 고유치는 그 요인이 설명하는 분산의 양을 나타내므로 이 값이 큰 요인이 중요한 요인이 된다. 이 2요인은 각각 사회생활에 의한 스트레스 요인1은 28.290%, 요인 2는 17.912%를 설명함으로써 전체(누적)46.203%를 설명하고 있다. 물론, 요인 1이 가장 높은 설명을 하고 있다. 요인을 더 많이 추출하였다면 그 설명력은 46.203%보다 더욱 높아질 것이지만 요인의 수가 많아진다는 단점이 있다. 따라서, 요인은 가능한 한 적으면서 설명력을 높이는 것이 중요한 것이다. 참고로, 각 요인의 고유치는 각 변수들의 적재치를 제곱하여 합한 값을 의미한다.

Component Matrix(a)(성분행렬)

 

Component

1

2

설문6

.670

-.245

설문5

.659

-.382

설문8

.618

.578

설문7

.600

3.371E-04

설문4

.562

.177

설문3

.497

-.434

설문10

.479

.469

설문1

.370

-.282

설문9

.342

.711

설문2

.396

-.476

Extraction Method: Principal Component Analysis. (요인추출 방법 : 주성분 분석)

a 2 components extracted. ((a) 추출된 2성분)

지정한 요인추출 방법으로 2요인이 선정되었다. 결과에 의하면, 설문1의 적재치는 요인 1, 2의 각각에 대하여 .670 , -.245만큼 영향을 미친다는 것이다. 즉, 설문1은 성분(factor) 1과 더 밀접한 관련성이 있다는 것이다. 이들을 수식으로 나타내면 다음과 같다.

 

-->Rotated Component Matrix(a) (회전된 성분행렬)

 

Component(성분)

1

2

설문5

.750

.137

설문6

.669

.248

설문3

.660

-8.081E-03

설문2

.610

-.106

설문1

.465

2.548E-02

설문7

.457

.390

설문8

9.489E-02

.841

설문9

-.200

.763

설문10

6.064E-02

.667

설문4

.313

.499

Extraction Method: Principal Component Analysis. (요인추출 방법 : 주성분 분석)

 Rotation Method: Varimax with Kaiser Normalization.

(회전 방법 : Kaiser 정규화가 있는 베이멕스)

a Rotation converged in 3 iterations. (3 반복계산에서 요인회전이 수렴되었습니다.)

베리멕스법에 의한 3차례의 반복계산 후에 얻어진 회전 결과가 제시되어 있다. 이 방법에 의해 10개의 변수는 2개의 요인으로 묶여졌음을 알 수 있다. 각 요인에 속한 변수의 공통점을 찾아 각 요인명을 집단적 과 개인적이라 주어질 수 있다.

 

http://www.rsinfo.co.kr/staticmethod/factor.htm