본문 바로가기
카테고리 없음

SAS를 활용한 데이터분석 :: 범주형 자료분석

by 뜌뜌빵빵 2022. 6. 30.

안녕하세요~~~~똥손언니입니다~~~!! 오늘은 수업시간에 범주형 자료분석에 대해서 배우게 되었어요! 저는 지금 SAS Enterprise Guide(EG)를 통해 학습하고 있어서 EG로 어떻게 자료분석을 하는지 보여드릴게요!

이제 프로젝트를생성하고 라이브러리를 할당하는건 껌이죠?

자 그럼 먼저 데이터를 불러옵니다. 지금의 경우에는 데이터가 이미 라이브러리 안에 있기 때문에 라이브러리에서 해당 데이터를 더블클릭만 하게되면 프로젝트플로우에 테이블이 생기면서 이렇게 데이터가 열립니다  

지금 이 데이터는 요약된 데이터에요. 보시면 count라고 행이있죠? 데이터를 로우데이터로 쭉 나열한게 아니라 그 로우데이터를 한번 요약한거죠! 이럴 경우 count를 빈도수에 지정해주면서 Weight를 주어야해요! 

이제 여기서 범주형 분석을 시작해봅니다. 제가 오늘 분석하고싶은건

age와 beverage선호도 간에 연관이 있는가

 

EG의 좋은점이 바로 이거죠 코드를 다 입력하지않아도 이런식으로 선택선택 해주면 코드가 짜진다는것! 범주형자료분석은 입력데이터> 기술> 테이블분석을 열어주면 이런 창이 뜹니다. 

앞에서 말했듯이 빈도수에 count를 넣어주고, 테이블 변수(=테이블의 행과 열이 되는거죠)에 age 와 beverage를 넣어줍니다. 그냥 쉽게 드레그엔 드롭하면 각각의 값에 들어가요.

선택한 테이블 변수가 행으로갈지 열로갈지 지정해줍니다. 이때도 드레그앤드롭으로! 보통 행이 많은 변수를 행에 두는것이 보기가 쉽겠죠?

통계량을 어떤것을 볼지 선택해줍니다. 보통 가장 많이 보는것이 행백분율, 칼럼백분율, 셀빈도, 셀백분율 이렇게 네개에요!

테이블 통계량에서는 어떤 연관선 검정을 실시할시 선택해주는건데 카이제곱 검정을 선택해주고, 피셔의 정확성 검증을 같이 선택해줍니다. 

ㅇ위 내요으로 선택을 해주고 코드 미리보기를 하면 아래와 같은 코드가 만들어집니다. 그럼 그대로 실행!

PROC FREQ DATA = WORK.SORTTempTableSorted
ORDER=INTERNAL
;
WEIGHT count;
TABLES age * beverage /
NOCUM
CHISQ
FISHER
SCORES=TABLE
ALPHA=0.05;

RUN; QUIT;

실행을 해보면 아래와같은 결과나옵니다. 

그럼이제 결과를 분석 한 번 해볼까요?

여기서 제가 H0을 age와 beverage 선호도는 연관이 없다(=독립이다)라고 가정을 했는데 지금 결과에 카이제곱 값을 보면 0.4012가 나왔다. 신뢰수준이 0.05였으는데 0.4012는 0.05보다 크니까 내가 세운 가설은 유의하다고 볼 수 있겠죠?

결론적으로 age와 beverage선호도는 연관이 없다. 서로 독립이다.