티스토리 뷰

통계/SPSS

Data Labeling과 Cleaning

Book차장 2017. 11. 24. 05:00

며칠동안 감기몸살로 누워있느라 글을 쓰지 못 했더니 SPSS의 명령문 만들이 엑셀 매크로 VBA 글이 그냥 올라와버렸네요. SPSS 설명을 다 하고 올리려고 했었는데... 그래서 얼른 비공개로 돌리고 이 글을 써 봅니다~~

4차 산업혁명에서 핫하게 떠오른 빅데이터 공부를 하려면 무엇을 공부해야 하냐는 질문이 자주 눈에 띕니다. 툴이나 프로그래밍으로 얘기하자면 정말 간단하게 말해서 R, Python, Hadoop을 해야 한다고 하는데요. 사실 빅데이터라는 것은 툴을 잘 다루어서 되는 것이 아니라 데이터를 분석할 수 있는 능력이 있어야 하거든요. 그런면에서는 기본적으로 수학 및 Data와 통계에 대한 지식도 필요합니다. 하... 이렇게 쓰고 보니 갈길이 참 머네요. 하지만 천리길도 한걸음부터 아니겠어요? 한걸음 한걸을 걷다보면 천리길도 갑니다.  

오늘은 통계를 하는데 가장 기본인 Data LabelingCleaning에 대한 이야기를 SPSS에서 하려고 합니다.

1장   Data Labeling

Data Labeling은 그냥 숫자로만 표시된 Norminal Data(명명척도)에 이름을 붙여서 통계를 돌렸을 때 그 이름으로 보일 수 있도록 하는 것입니다. 예를 들어, 설문에서 성별을 구분하는 질문을 했다고 합시다. 여기에서 남자는 1, 여자는 2를 선택하게 하고 그 결과를 코딩할 경우, 통계 결과에서 남자가 1번인지 여자가 1번인지 숫자만 보고는 알 수 없습니다.(아래 그림 참고) 그래서 코딩 후 SPSSData를 불렀을 때 첫번째로 해야 할 작업이 각 번호가 의미하는 것을 Labeling 해주는 것입니다.

 

그럼 지금부터 Labeling 하는 방법을 알아보겠습니다. 아래 화면에서 보시면 아래쪽으로 탭이 2개가 보입니다. ‘데이터보기는 입력한 Data 각각이 보이는 탭이구요. ‘변수보기는 각 변수들의 속성이 보이는 탭입니다. Labeling을 하기 위해서는 변수보기를 선택합니다.

변수보기탭에서 Labeling을 위해서 사용할 열은 2개입니다. 첫번째는 열인데요. 앞서 설명한, 성별구분 같이 각 Data의 값을 넣는 열입니다. 두번째는 설명열입니다. 이건 각 척도를 설명해줄 수 있는 열로, 변수명에는 척도이름을 짧게 써서 잘 안 보일 경우 여기에 넣어서 참고할 수 있게 합니다.

 

1절.       Data Labeling 하기

그럼 열에 Data Labeling을 하는 방법을 설명하겠습니다. 저는 지금 성별에 1번 남자, 2번 여자로 붙일 예정이구요. ‘성별행에 열을 클릭하면 오른쪽으로 ‘…’ 버튼이 나타납니다. 이 버튼을 누르세요.

다음과 같이 변수값 설명 창이 나타나면, 기준값에 1, ‘Tab’키를 눌러서 이동하여 설명에 남자를 입력한 다음 엔터를 치면 아래 1=”남자라고 입력됩니다. 여자도 마찬가지로 넣고, 확인을 누르면 됩니다. 그럼 아래와 같이 입력이 된 걸 보실 수 있구요.

 

 

빈도분석을 해보면 아래와 같이 남자/여자로 Labeling이 되어 있는 것을 보실 수 있습니다.

 

 

2설명넣기

설명은 변수이름만으로 변수에 대한 인지가 부족할 수 있을 경우 사용합니다. 아래 그림처럼 여러문항의 변인인 경우에는 첫줄에만 표시해서 쓸 수 있습니다.

 

 

그냥 설명셀에 입력만 하면 되서 비교적 간단한 작업입니다~

 

2Data Cleaning

Data Cleaning은 통계에서 무척 중요한 부분입니다. Data에 잘못된 정보가 들어가 있는 경우 통계에서 심각한 오류를 낼 수 있기 때문입니다. Data가 잘못 들어가는 경우는 여러가지가 있습니다. 대표적인 것으로 응답자가 잘못 답했거나, 코딩하는 사람이 실수하는 경우인데요. 이런 조그만 실수로 어렵게 했던 연구를 망치지 않기 위해서라도 Cleaning은 필수겠지요? ‘EXCEL 통계자료분석이라는 책에 의하면 Data Cleaning이 제대로 되지 않은 자료는 돌이 섞인 밥을 짓는 것과 마찬가지라고 표현했습니다. 으아~ 상상만 해도 어떤 느낌인지 아시겠지요?

 

1절   Data의 타당성을 확인하는 방법

Data가 맞는지 확인하기 위해서는 보통 2가지 측면을 보는데요. 첫번째는 응답 범위를 벗어났는지, 두번째는 논리적으로 맞는 응답인지 입니다.

5점척도의 질문에서 6으로 답한 경우는 응답의 범위를 벗어난 것이겠지요? 이런 것을 찾아 결측치로 입력해야 합니다. 그리고 학번을 입력하라는 질문에 생년을 입력하는 경우는 응답의 범위를 벗어난 것일수도 있겠지만 논리적으로 맞지 않는 응답일수도 있을 것 같습니다.(제가 처음 실습할 때 다른 학우들은 학번을 입력했는데, 혼자서 생년을 입력하여 무척 창피했던 기억이 있습니다. ^^)

결측치를 찾을 때는 보통 빈도분석을 통해 눈으로 확인합니다. 노가다입니다…. 이거 하면서 생각한 건데, 엑셀로 옮겨가서 5점척도인경우 범위안에 드는지를 확인하는 방법이 나을 것 같습니다. 하지만이건 그냥 눈으로 확인하는데 더 빠를 것 같은 느낌에 그냥 했습니다~

빈도분석을 돌리면 다음 그림과 같이 결측값이 보입니다. 5점척도인데 9가 보이네요.

 

이런 경우, 결측값에 9를 입력해주면 되는데요. ‘을 입력했을 때와 마찬가지로 결측값 열의 셀을 클릭하면 ‘…’ 버튼이 나타나구요. 그걸 클릭하면 결측값을 입력할 수 있는 창이 나타납니다.

 

 

여기에 이산형 결측값 밑에 넣어야하는 결측값을 입력하고 확인 버튼을 누르면 됩니다.

이제 9가 결측값으로 들어간 거 보이시죠?

이렇게 하면 나중에 통계를 할 때 이 결측값을 고려하여 하기 때문에 보다 정확에 가까운 결과를 얻을 수 있습니다.

'통계 > SPSS' 카테고리의 다른 글

텍스트 파일을 SPSS 파일로 만들기 - DATA LIST  (0) 2017.11.20
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함