# 다중공선성 ( variance inflation factor )
회귀분석에서 사용된 모형의 일부 설명변수(독립변수)가 다른 독립변수와의 상관정도가 높아
데이터 분석시 부정적인 영향을 미치는 현상을 말한다.
두 독립변수들끼기 서로에게 영향을 주고 있다면,
둘 중 하나의 영향력을 검증할때 다른 하나의 영향력을 완전히 통제할 수 없게 된다.
예: 학업성취도, 일평균음주량, 혈중 알코올 농도
↑
종속변수
음주가 학업성취도에 미치는 영향을 알아보려고 회귀분석을 하려고한다.
일평균 음주량과 혈중 알코올 농도는 서로 아주 강한 상관정도를 보인다.
실제로 x1 과 x2 의 값이 증가 또는 감소 할수록 y 값이 증가 또는
감소할 것인데 이중 하나는 굉장히 불안정한 계수값을 보이게 된다.
공선성은 두 개의 독립변수들 간의 관계를 의미하는데
예를 들어 두 개의 독립변수들 간의 상관관계 계수가 1이면 완전한 공선성을 보인다고 하고,
계수가 0 이면 전혀 공선성이 없음을 의미한다.
특히 3개 이상의 변수들간의 관계를 다중 공선성이라한다.
한 독립변수가 종속변수에 대한 설명력이 높더라도 (다중) 공선성이 높으면 설명력이 낮은것처럼 나타난다.
다중공선성을 알아보기 위한 가장 간단한 방법은 독립변수들간의 상관관계를 조사하는 것이다.
독립변수들 간의 높은 상관관계(일반적으로 0.9이상)는 공선성을 판단하는 지표다.
공선성을 보다 엄격하게 점검하려면 팽창계수(VIF)를 확인한다.
현업 기준
보통 : 10 이하
엄격 : 5 이하
느슨 : 15~20 이하
#다중공선성 확인 실습
install.packages("car")
library(car)
data(Boston,package="MASS")
Boston
model<-lm(medv~.,data=Boston)
- 저번과 동일하게 lm 함수로 회귀분석 모델을 만들어준다.
vif(model) # 다중공선성 확인
각각 변수별 다중공선성을 확인할 수 있는데, 이 때 만약 10 이상(보통)으로 잡는다면, 딱히 거를 변수는 없다 할 수 있다.
'나 취준생 > R' 카테고리의 다른 글
R 연관규칙 (0) | 2021.02.14 |
---|---|
R 신경망 (0) | 2021.02.05 |
R 회귀분석 - 1 (0) | 2021.02.01 |
R 규칙 기반 분류 (OneR/Ripper) (0) | 2021.02.01 |
R 의사결정트리 (0) | 2021.01.30 |