R/연습문제 풀이

[R] 교차 분할표 / 카이제곱 분포 / 독립성 검정

연정양 2023. 1. 17.

#1. 직업 유형에 따른 응답 정도에 차이가 있는가를 단계별로 검정

#1-1. 파일 가져오기
data <- read.csv("Response.csv")

#1-2. 코딩변경(변수 리코딩)
#job 컬럼
data$job2[data$job == 1] <- "학생"
data$job2[data$job == 2] <- "직장인"
data$job2[data$job == 3] <- "주부"

#response 컬럼
data$response2[data$response == 1] <- "무응답"
data$response2[data$response == 2] <- "낮음"
data$response2[data$response == 3] <- "높음"

#1-3. 교차 분할표 작성
table(data$job2, data$response2)

#1-4. 동질성 검정
chisq.test(data$job2, data$response2)

#1-5. 검정결과 해석
#귀무가설: 직업 유형에 따른 응답 정도의 차이가 없다
#대립가설: 직업 유형에 따른 응답 정도의 차이가 있다.
#x-squared = 58.208, p-value = 6.901e-12
#1) p-value가 0.05보다 작으므로 대립가설 채택
#2) 카이제곱 분포가 58.208 > 5.99로 대립가설 채택
#3) 결론: 직업 유형에 따른 응답 정도의 차이가 있다고 분석된다. 


#문제 2. 나이와 직위의 관련성을 단계별로 분석

#2-1. 파일 가져오기
data2 <- read.csv("cleanData.csv")

#2-2. 코딩 변경
X <- data2$position
Y <- data2$age3

#2-3. 산점도를 이용한 변수간의 관련성 보기
plot(X,Y)

#2-4. 독립성 검정
library(ggplot2)
library(gmodels)
CrossTable(X, Y, chisq = TRUE)

#2-5. 검정결과 해석
#귀무가설 : 나이와 직위는 독립적이다.
#대립가설 : 나이와 직위는 독립적이지 않다. 
# Chi^2 =  287.8957, p =  1.548058e-57 
#1) p-value가 0.05보다 작으므로 대립가설 채택 
#2) 카이제곱값이 287.8957 > 9.49 로 대립가설 채택 
#3) 결론: 나이와 직위는 독립적이지 않다. 



#문제 3. 교육수준과 흡연율 간의 관련성을 분석하기 위한
#        연구가설 수립하고, 단계별로 가설 검정(독립성 검정)

#귀무가설(H0) : 교육수준과 흡연율 간에 관련이 없다.
#대립가설(H1) : 교육수준과 흡연율 간에 관련이 있다. 

#3-1. 파일 가져오기
data3 <- read.csv("smoke2.csv")

#3-2. 코딩 변경
#education 컬럼
data3$education2[data3$education == 1] <- "대졸"
data3$education2[data3$education == 2] <- "고졸"
data3$education2[data3$education == 3] <- "중졸"

#smoking 컬럼
data3$smoking2[data3$smoking == 1] <- "과다흡연"
data3$smoking2[data3$smoking == 2] <- "보통흡연"
data3$smoking2[data3$smoking == 3] <- "비흡연"

#3-3. 교차분할표 작성
x <- data3$education2
y <- data3$smoking2
CrossTable(x, y, chisq = TRUE)

#3-4. 검정 결과 해석
#Chi^2 =  18.91092,  p =  0.0008182573
# 1) p-value가 0.05보다 크므로 교육수준과 흡연율 간에 관련 있음을 알 수 있다.
# 2) 카이제곱값이 18.91092 > 5.99로 카이제곱 분포표보다 크므로 대립가설 채택

** 카이제곱 분포표 

카이제곱분포표 보는 법 (tistory.com)

 

카이제곱분포표 보는 법

카이제곱분포는 t분포와 마찬가지로 확률을 구할 때 사용하는 분포가 아니라, 나중에 신뢰구간이랑 가설검정에서 사용하는 분포다. 그래서 카이제곱분포표는 “t분포표 보는 법”과 얼추 비슷

math100.tistory.com

 

댓글