T-TEST/ANOVA/CHI-SQUARE 통계적 분석과 해석
- t-test
목적 : 두 집단이 같은지 다른지를 비교하기 위하여 두 집단의 평균을 비교
방법 : 두 집단의 차이가 우연이 발생했을 확률은 얼마나 될까?
(예시) A대학 남학생 키 : 178.5, B대학 남학생 키 179.9
- 질문 1. 과연 1.4cm의 차이가 얼마나 커야 우연히 발생하지 않았다고 판단 가능할까?
- 질문2. 1.4cm의 차이는 과연 큰 것인가 작은 것인가?
- 답변) 우리는 이 1.4cm 가 얼마나 큰지 작은지 알 수 없다. 그러므로 이걸 결정할 비교 대상이 필요한데, 그게 표준편차(분산)이다.
- 표준편차를 구해보면 1.58이 나오는데, 이는 데이터가 평균값 3을 중심으로 1.58만큼 퍼져있다는 의미이다. 이 퍼짐은 중요한 퍼짐일까 아닐까?
- 답은 아니다. 우연히 랜덤하게 퍼져있는 정도이다.
- 또, A와 B의 평균적인 거리가 1.4라고도 할 수 있고, A와 B 데이터들의 표준편차를 X라고 했을 때, X(표준편차)가 1.4cm 보다 현저히 크다면 1.4cm에 큰 의미를 둘 수 없다. 즉 1.4cm의 차이가 우연히 발생했다는 것이다. 그러나 X(표준편차)가 1.4cm보다 현저히 작다면 1.4cm에 큰 의미를 둘 수 있다. 즉, 우연히 발생한 1.4cm가 아니라는 것이다.
- 결론)
- 두 집단의 평균의 차이 > 두 집단의 표준편차 => 차이가 우연히 발생하지 않았다.
- 두 집단의 평균의 차이 < 두 집단의 표준편차 => 차이가 우연히 발생했다.
- t-test는 평균값의 차이와 표준편차의 비율이 얼마나 큰지 혹은 작은지를 보고서 결정하는 통계적 과정이다.
- 결론적 답변 )
- t-test를 z-test로 바꿔서, 그 1.4cm가 정규분포의 유의수준(바깥쪽 0과 근접한 곳)에 있다면 이 1.4cm가 우연이 발생한 것이 아니다. 즉, 1.4cm가 우연히 발생했을 확률이 5% 미만이다.
- 표준편차 그 자체는 데이터가 평균값을 기준으로 평균적으로 퍼진 정도로 의미없는 편차인데, 두 집단의 평균값의 차이가 의미없는 편차인 표준편차만도 못하다면 당연히, 이 차이는 우연히 발생했다고 보는 것이다.
- t 분포의 n이 커질수록, t공식에 의해 t값이 커진다. 또한 n-1인 자유도는 n 값이 커질수록 증가한다. 때문에, 표본의 크기가 커질수록 t분포는 점차 표준정규분포와 유사하여, 표준정규분포를 사용할 수 있음을 의미한다.
- 1.4cm가 우연히 발생했을 확률이 5% 보다 작다. 즉 두 학생의 키는 통계적으로 유의하게 다르다. 그렇다면, 이 키가 다른 원인이 있다고 볼 수 있다.
- 종류 : one sample/ two sample/ paired t-test(before와 after비교)
2. ONE-WAY ANOVA test : 독립변수가 한 개인 것.
- 이는 t-test와 다르게 집단이 3개 이상일 때 사용한다.
- 종속변수 : 연속형(continous)변수만 가능
- 독립변수 : 이산형/ 범주형 (discrete/categorical)만 가능 -1개만 쓴다.
- (예시) 아이들에게 세 개의 영화를(폭력영화, 드라마,공익광고) 보여주고 아이들의 폭력성을 점수화 하여 영화가 아이들의 폭력성에 미치는 영향을 알아본다. 이 때, 세 개의 영화는 3개의 독립변수가 아니라 영화라는 하나의 독립변수에 (3가지의 레벨)이 존재한다.
- (비슷한 예) 신약을 감염자를 대상으로 신약 효과 측정 시 종속변수는 신약 복용 후 완치될 때 까지 걸린 날짜, 독립변수는 신약, 기존 독감약, 플라시보 이렇게 세 레벨임. 독립변수는 약의 종류로 1가지이다.
- ANOVA는 F-value 로 구한다.
- f-값은 두 개의 분산의 비율이다 => 두 개의 평균이 필요함(전체평균(3개의 평균)/그룹평균(세 레벨의 각자 평균))
- 분산도 당연히 두 가지 종류가 있다. 첫 번째 분산은 전체평균으로부터 각 그룹의 평균사이 분산 (Between Variance)이다. 이 between variance가 크다는 것은 전체 평균으로부터 각 그룹의 평균값이 멀리 떨어져 있다. 즉, 적어도 어떤 그룹 한 개는 다른 그룹과 평균이 다를 수 있다. 그렇다면 이 between variance가 얼마나 커야 통계적으로 큰 것이고 유의미한지를 알아봐야 한다. 그게 두 번째 분산인 그룹 내의 분산(within variance)이다. 이 그룹 내의 분산은 t-test의 분모의 표준편차와 같은 의미를 가지는 무의미한 변화의 정도를 말한다.
- 즉, between variance가 within variance보다 충분히 커야, 이 between variance가 통계적으로 크다고 할 수 있고, 이것은 적어도 어느 한 그룹의 평균값이 전체 평균값과는 다르다고 할 수 있다.
- F-value = between variance/within variance
- 통계적 가설 : 귀무가설= 모든 그룹의 평균이 같다. / 대립가설 : 적어도 한 그룹의 평균은 다르다.
- 만약 f값이 충분히 커서 유의하다면(p<0.05), between variance가 충분히 크다는 의미이다. 따라서, 적어도 한 그룹의 평균은 다르다는 것이지만, 그래서 어떤 그룹이, 몇 개의 그룹이 전체 평균과 다르다는 것을 알 수 있는 것인가? 이걸 one-way ANOVA로는 알 수 없기 때문에, ANOVA에서 유의하다는 결과가 나오면 자동으로 사후검정을 해야 한다.
2. TWO-WAY ANOVA test
독립변수가 두 개 인 것. -> 두 개의 main effect(주효과)가 있다.
상호작용(interaction) : 두 독립변수가 선형관계 (linear realtionship)에 있다는 것. 다시말해, 한 독립변수의 종속변수에 대한 영향관계가 다른 독립변수의 level(=group)에 따라 변할 경우, 이를 상호작용이 있다고 한다. 이게 중요한 이유는 기존에 원인을 알 수 없었던 종속변수의 결과에 대해 그 원인을 알 수 있는 바탕이 되기 때문이다.
- two-way ANOVA에는 독립변수 각 2개에 대한 F값 2개와, 이 두 개의 interaction에 대한 F값이 한 개 더, 총 3개가 있어야 한다. 3개의 Between Variance 가 필요하고, within variance는 한 개만 있으면 된다. 왜냐하면 within variance는 between variance가 충분히 큰 지를 알아보기 위한 역할뿐이기 때문이다. 그래서 총 4개의 variacne를 구하면 된다.
- 통계적 가설은 3개가 필요하다. 각각의 독립변수에 대한 2개의 가설과, interaction에 대한 통계적가설( 있을거다/ 없을거다) 한 개.
3. CHI SQUARE TEST
- T-TEST와 ANOVA의 경우와 달리 카이제곱 검정은 변수가 명목척도일때 사용
- 카이제곱 검정의 데이터의 값은 개수(COUNT)여야 한다.
- 목적 :
- 변수가 한 개 인 경우, 변수내 그룹간의 비율(proportion)이 같은지 다른지알아보기 위해서, (2개 그룹->binomial test, 3개 이상 ->카이제곱검정)
- 변수가 두 개인 경우, 변수 사이의 연관성(association)이 있는지 없는지. ex) 인종과 특정질병, 휴대폰 사용과 뇌암
- 1)One-way chi square test
- 한 개의 변수, 여러개의 범주 (즉 column이 한 개)를 가지고 테스트를 하는 건데, 귀무가설은 모든 범주의 빈도가 동일하다, 대립가설은 적어도 하나는 다르다. 이다.
- 원웨이 카이제곱이 유의하다는 것은 무언가 다르다 정도이다. 이건, 사전의 개대빈도와 다르다는 의미정도이다.
- 2)two-way chi square test
- 두 개의 명목척도 변수이고, 이 두 개의 척도는 2개 이상의 범주(category)를 가진다. contingency table이용한다.
- 귀무가설은 연관성이 없다(상호독립적이다), 대립가설은 연관성이 있다. 이때, 이 결과는 연관성의 이야기지 인과관계가 절대 아니다.
- 결과의 pvalue가 0.05보다 작아서 두 변수가 통계적 연관성이 있다는 결론이 나온다고 하더라도, 문제는 범주 간의 확률의 차이가 얼마나 큰지 알 수 없다. 차이가 있는데, 이게 어느 곳에서 발생하는 차이인지를 알 수 없다는 것이 한계점이다. 이를 해결하기 위해 신뢰구간CI를 이용하긴 하지만 쉽지 않다.
학습사이트 및 자료저작자 : 통통튜브, https://www.youtube.com/channel/UCnN2E8RCEuKi-WLBrd0Nu1A