본문 바로가기

정보기술의 샘터........о♡/통계학·사회조사분석사

사회현상의 S곡선을 파악하는 로지스틱 회귀분석

사회현상의 S곡선을 파악하는 로지스틱 회귀분석

 

 

‘할리우드 액션’ 일부러 넘어져 상대편에게 반칙을 유도하는 농구선수의 기술입니다. 이 반칙기술을 제일 싫어하는 선수가 전 프로농구 스타 강동희입니다.

농구 9단의 경지에 이른 강동희 선수에게 ‘깡통’ ‘코트의 무법자’ ‘유비’라는 별명이 있습니다.

할리우드 액션을 제일 싫어하는 강동희 선수에게 어울리는 별명은 ‘유비’인 것 같지만 실은 ‘코트의 무법자’라는 별명을 가장 좋아합니다.

 

‘할리우드 액션’과 ‘코트의 무법자’는 서로 잘 어울리지 않는 것 같지만, 치열한 프로 농구경기에서는 서로 잘 어울리는 관계일지도 모릅니다.

 

사회에는 수많은 관계가 존재합니다. 사회현상에는 독립변수 1단위가 증감함에 따라 종속변수의 증감량이 일정한 선형성 관계(Linear Relationship)가 있고, 독립변수 1단위가 증감할 때 종속변수가 초기에는 완만하게 변하다가 어느 시점이 지나면 가속화되다가 다시 어느 시점이 지나면 다시 완만하게 변하는 비선형적 관계가 있습니다.

 

일반적으로 통계분석에서는 선형적 관계를 가정하고 분석을 진행합니다.

 

그러나 사회현상에는 복잡한 비선형적 관계가 무수히 존재합니다. 가령 소득수준이 증가함에 따라 자동차를 무조건적으로 구입하는 것이 아니라 초기에는 자동차 구입 비율이 증가하지 않다가 일정시간이 지나면 증가하다가 다시 일정시간이 지나면 구입비율이 줄어드는 현상이 존재합니다.

 

이러한 비선형적 사회현상을 분석하는 통계분석이 바로 로지스틱 회귀분석(Logistic Regression Analysis)입니다.     

 

로지스틱 회귀분석은 변수값이 두 개밖에 없는 종속변수와 독립변수 사이의 관계를 분석하는 통계기법입니다. 계산논리를 살펴보면 종속변수를 자연로그(Natural Log))로 전환하여 다음과 같은 공식으로 표현합니다.

 

                        

                        로지스틱 회귀분석공식

 

                 YK= ln{p/(1-p)}     

                 ln{p/(1-p)}= a + bXk

  

   ◉ p  = 확률

   ◉ Yk = 종속변수

   ◉ Xk = 독립변수

   ◉ ln{p/(1-p)}: 자연로그로 전환시킨 종속변수 공식

   ◉ a : 상수

   ◉ b : 기울기


위의 로지스틱 회귀분식 공식에서 종속변수 Yk에 0이나 1이 사용되지 않고,0이나 1을 기초로 확률을 계산하고, 이 확률을 가지고 자연로그 수치를 계산하한 종속변수를 최종적으로 사용합니다.


로지스틱 회귀분석과 단순회귀 분석의 차이점 

로지스틱 회귀분석과 단순회귀 분석의 차이점을 살펴보면 선형에 대한 가정의 차이입니다. 단순회귀분석은 아래 그림처럼 독립변수 1단위가 증감함에 따라 종속변수의 증감량이 일정한 선형성 관계(Linear Relationship)이고, 로지스틱 회귀분석은 독립변수 1단위가 증감할 때 종속변수가 초기에는 완만하게 변하다가 어느 시점이 지나면 가속화되다가 다시 어느 시점이 지나면 다시 완만하게 변하는 비선형적 관계가 있습니다. 이를 아래의 그림처럼 표현하면 완만한 S자 곡선을 형성하고 있습니다. 흔히 종속변수가 이원적 성향을 가진 종속변수일 경우 단순회귀 분석보다 로지스틱 회귀분석을 사용합니다.  


 

로지스틱 회귀분석의 가설검정  

 

로지스틱 회귀분석의 가설검정 방법은 두 가지가 있습니다. 하나는 로지스틱 회귀분석 자체가 성립할 수 있는 지 분산분석표(Anova)에 있는 F값을 가지고 검정합니다. 다른 하나는 독립변수가 종속변수를 설명할 수 있는지의 여부를 로지스티 회귀분석식에 나오는 t값을 가지고 가설검정을 실시합니다.

 

F값으로 가설검정을 한 결과 통계적으로 유의미 한다는 것은 종속변수와 독립변수를 비선형적 로지스틱 회귀분석 관계로 설명할 수 있다는 의미입니다.

 

  t값의 가설검정은 개별 독립변수와 종속변수 사이의 상관관계를 분석하여 상수와 기울기가 통계적으로 유의미 한다는 결론을 도출할 수 있습니다. 상수가 통계적으로 유의미하다는 것은 독립변수의 값이 0일 경우 기울기 하나만으로 종속변수를 설명할 수 있다는 의미이며, 기울기가 유의미하다는 것은 독립변수가 증감함에 따라 종속변수도 그 증감에 따라 변화한다는 의미입니다.

   

딘순회귀분석과 로지스틱 회귀분석을 사용할 때

통계분석을 사용할 때는 조사담당자의 가치판단이 중요합니다. 단순 회귀분석과 로지스틱 회귀분석을 사용할 때는 두 분석을 동시에 분석한 후 적합도(R제곱값)가 높은 분석 방법을 선택합니다. 적합도가 높다는 것은 그만큼 사회현상을 더욱 더 잘 설명할 수 있다는 뜻입니다. 

 


다중 로지스틱 회귀분석

로지스틱 회귀분석에서 독립변수를 여러개 사용하는 것을 다중 로지스틱 회귀분석이라고 말합니다. 다중 로지스틱 회귀분석는 두 개이상의 독립변수가 종속변수를 설명할 수 있는지를 밝혀주고, 두 독립변수중 종속변수를 더욱 더 잘 설명해주는 독립변수를 선별해줍니다. 공식으로 표현하면 로지스틱 회귀분석 공식과 같으나 다만 독립변수가 2개 이상 추가된 것이 다릅니다.


 

                         다중로지스틱 회귀분석공식

   

    YK= ln{p/(1-p)}     

    ln{p/(1-p)}= a + bXk₁+CXk₂ +…+nXn

  

   ◉ p  = 확률

   ◉ a : 각 독립변수로 영향을 받지 않는 상태의 현재값

   ◉ Yk = 종속변수

   ◉ Xk₁… nXn = 상호관련성이 없는 독립변수

   ◉ ln{p/(1-p)}: 자연로그로 전환시킨 종속변수 공식

   ◉ b, c…n : 개별 독립변수가 1단위 증감할 때 변하는 종속변수값