본문 바로가기

나 취준생/R

R 교차표, 카이제곱 검정

320x100

car<-read.csv("usedcars.csv")

car$conservation<-car$color %in% c("Black","Gray","Silver","White")

library(gmodels)

CrossTable(car$model,car$conservation)


차 색깔 중 보수적인 색[검은색, 회색, 은색, 흰색]으로 한정하고

중고차 모델들을 보았을 때, 보수적인 색이 더 많은지 교차표로 나타내보자.  



이렇게 교차표를 만들었을 때, TRUE가 더 많다는 것은 알 수 있지만

과연 이것으로 결론을 낼 수 있을까?

이것보다 차이가 조금 더 작다면? 그것도 차이가 있다고 할 수 있을까?

유의미한 차이의 기준은 무엇일까.


이럴 때 카이제곱 검정을 실행하면 된다.


귀무가설 : 두 변수[중고차,색깔]는 연관성이 없다.

대립가설 : 두 변수[중고차,색깔]는 연관성이 있다.


교차표

27 51 78

07 16 23

17 32 49

51 99 150


기대빈도표

150*51/150*78/150 150*99/150*78/150 

150*51/150*23/150 150*99/150*23/150 

150*51/150*49/150 150*99/150*49/150


26.52 51.48

7.82 15.18

16.66 32.34

카이제곱 값

( (27-26.52)^2/26.52) + ( (51-51.48)^2/51.48) + ( (7-7.82)^2/7.82) + ( (16-15.18)^2/15.18) + ( (17-16.66)^2/16.66) + ( (32-32.34)^2/32.34)


= 0.1539




카이제곱 값 : 0.1539, 자유도가 2일때 p-value는 0.9259이므로


유의확률 0.05보다 크므로 귀무가설을 기각할 수 없다.


아까 귀무가설은 [두 변수[중고차,색깔]는 연관성이 없다.] 였으므로


중고차와 색깔은 연관이 없고 관측된 차이는 단지 우연이라고 해석될 수 있다.


이를 R 코드로 확인하는 건 매우 간단하다.


아까 실행했던 R 코드의 CrossTable 함수 안에 chisq=TRUE 조건을 추가하기만 하면 된다.


그럼 맨 밑줄에 카이제곱 값과 p-value까지 확인할 수 있다.




반응형

'나 취준생 > R' 카테고리의 다른 글

R 나이브 베이즈 알고리즘  (0) 2021.01.30
R knn 알고리즘  (0) 2021.01.25
R 팩터 (Factor)  (0) 2021.01.24
R 박스 플롯 그래프  (0) 2021.01.24
R 히스토그램 그래프  (0) 2021.01.24