car<-read.csv("usedcars.csv")
car$conservation<-car$color %in% c("Black","Gray","Silver","White")
library(gmodels)
CrossTable(car$model,car$conservation)
차 색깔 중 보수적인 색[검은색, 회색, 은색, 흰색]으로 한정하고
중고차 모델들을 보았을 때, 보수적인 색이 더 많은지 교차표로 나타내보자.
이렇게 교차표를 만들었을 때, TRUE가 더 많다는 것은 알 수 있지만
과연 이것으로 결론을 낼 수 있을까?
이것보다 차이가 조금 더 작다면? 그것도 차이가 있다고 할 수 있을까?
유의미한 차이의 기준은 무엇일까.
이럴 때 카이제곱 검정을 실행하면 된다.
귀무가설 : 두 변수[중고차,색깔]는 연관성이 없다.
대립가설 : 두 변수[중고차,색깔]는 연관성이 있다.
교차표
27 51 78
07 16 23
17 32 49
51 99 150
기대빈도표
150*51/150*78/150 150*99/150*78/150
150*51/150*23/150 150*99/150*23/150
150*51/150*49/150 150*99/150*49/150
26.52 51.48
7.82 15.18
16.66 32.34
카이제곱 값
( (27-26.52)^2/26.52) + ( (51-51.48)^2/51.48) + ( (7-7.82)^2/7.82) + ( (16-15.18)^2/15.18) + ( (17-16.66)^2/16.66) + ( (32-32.34)^2/32.34)
= 0.1539
카이제곱 값 : 0.1539, 자유도가 2일때 p-value는 0.9259이므로
유의확률 0.05보다 크므로 귀무가설을 기각할 수 없다.
아까 귀무가설은 [두 변수[중고차,색깔]는 연관성이 없다.] 였으므로
중고차와 색깔은 연관이 없고 관측된 차이는 단지 우연이라고 해석될 수 있다.
이를 R 코드로 확인하는 건 매우 간단하다.
아까 실행했던 R 코드의 CrossTable 함수 안에 chisq=TRUE 조건을 추가하기만 하면 된다.
그럼 맨 밑줄에 카이제곱 값과 p-value까지 확인할 수 있다.
'나 취준생 > R' 카테고리의 다른 글
R 나이브 베이즈 알고리즘 (0) | 2021.01.30 |
---|---|
R knn 알고리즘 (0) | 2021.01.25 |
R 팩터 (Factor) (0) | 2021.01.24 |
R 박스 플롯 그래프 (0) | 2021.01.24 |
R 히스토그램 그래프 (0) | 2021.01.24 |