본문 바로가기

정보기술의 샘터........о♡/통계학·사회조사분석사

다중회귀분석과 다중공선성의 문제

다중회귀분석이 좋다고 하고, 또 많이 쓰이는 것은 단순회귀분석에 비하여 정보의 변별력이
높기 때문이다. 즉, 회귀분석은 결국 인과관계의 설명과 종속변수가 취할 값의 예측이라는
효용을 갖는데, 이점에서 다중회귀분석이 훨씬 앞선다.
이는 대부분의 다른 통계기법보다도 훨씬 많이 사용되는 이유가 되기도 한다.
구체적으로 이야기를 해 보자.

우선 어떤 사실에(종속변수) 영향을 미치는 원인변수들 각각의 영향력의 크기를 파악할 수
있으므로, 현상을 설명하는 설명력이 크다.
 
각 수준의 정부가 공통적으로 고민하는 세출의 증가문제만 해도, 이에 영향을 미치는
원인변수들이 무엇이고 어떤 요인이 더 영향력이 큰 원인인 줄을 안다면, 적절하게 세출통제를
할 수 있을 것이다. 세출증가의 가능한 원인변수로는 노령인구, 공무원수, 관할구역면적, 등등
많은 것을 들 수 있는데, 이들 자료를 구하여 다중귀분석을 하여 보면 무엇을 잘 관리하고,
무엇을 통제하여야 할지 알 수 있게 된다.
 
둘째는 예측의 정확성이 크다는 것이다. 현실세계를 축약하는 변수들을 선정하게 되므로 보다
더 사실적이기 때문에 단순회귀분석보다 예측력이 클 수밖에 없을 것이다.
 
2000년도에 우리나라 인구는 얼마나 될까? 내년도의 경제성장률은 얼마나 될까? 고속도로에
순찰차를 증차시키면, 교통사고가 줄어들까? 어느 도시에서 발생하는 내년도의 쓰레기양은
얼마나 될까? 이런 질문들은 행정의 실무자가 알고 싶어하는 중요한 문제들인데,
다중회귀분석으로 어느 기법보다 예측이 정확하게 되는 것이다.

그런데 이렇게 쓰임이 다양하다 보니, 무분별하게 사용되는 사례도 많이 발견된다.
다중회귀분석을 사용하기 위해서는 단순회귀분석에서 다룬 회귀분석의 기본가정을 따라야
하는 것 이외에도 지켜져야 할 가치가 있다고 믿어진다.

그것은 다중회귀분석을 할 경우 여러 독립변수들간에 서로 높은 상관관계가 있는
다중공선성(multicollinearity)이 없어야 한다.
조금 어렵게 들리지만, 다중공선성이란 다중회귀분석에 채택된 독립변수들간에 높은 상관관계가
나타나는 현상을 가리키는 말이다. 즉, 독립변수들간의 상관계수가 0.8이상을 보이면, 이들은 서로
같은 영향을 종속변수에 준다는 뜻이다.
다중공선성이 나타나면, 결정계수는 커지나 독립변수들의 회귀계수는 의미가 없어지므로
주의하여야 한다. 그러므로 다중회귀분석을 하기 전에 반드시 상관관계분석을 해 보아야 한다.
 
예를들어, 세출증가의 원인을 찾는다고 하자. 세출증가는 인구요인이 중요하기 때문에 그 독립변수로 노령인구수와 복지수혜자수를 들었다고 하자. 이들 독립변수들의 상관관계를 구해보면 아주
높게 나올 것이다. 대개 노령자가 복지수혜를 받는 일이 많다는 것은 누구나 안다. 이렇게 되면
다중회귀분석의 설계자는 둘 중 한 변수를 버려야 하는 것이다.
이들 변수 모두를 꼭 회귀분석에 사용하고 싶으면, Z-score로 혼합척도를 만들어 사용하면 된다.
또, 이 경우는 아니지만, 표본의 크기를 증가시키는 경우에 다중공선성이 감소하는 경향이
있으므로 표본의 크기는 충분한 것이 좋다.
ex. 다중공선성 문제 발생 
 
(A성향) 1. 적극적                    B성향) 1. 자기희생적  
            2. .사교적                              2. 협조적
            3. 활발
            4. 주도적
            
   
A성향이 높은 사람은 각각의 문항에 점수가 낮아도 B 성향의 사람보다 점수가 높다

=> 상관관계가 높은 것끼리 너무 많으면 다중공선성 문제 발생

 

출처 http://blog.empas.com/rusihwa/14191555