몇몇 분들이 지금 투표를 거쳐 수집될 지표의 신뢰성을 의심하고 계셔서 이야기를 시작해봅니다. 일단, 전수조사를 원하시는 분들에게는 그것이 너무나 어려운 일이란 것을 전해드리고 싶습니다. 국가에서도 전수조사라고 할 센세스는 대부분 5년에 한 번씩 국가사업으로 시행하며, 그와 흡사한 수치 수집인 총선과 대선도 긴 텀을 두고 진행됩니다. 그렇기에 전수조사를 할 여력이 있다는 것이 강력한 행정력을 의미하기도 하죠. 그렇기에 대부분의 조사에서는 표본 조사를 진행합니다.


한국 국민은 현재 약 5천만명이지만 한국 갤럽 조사에서는 대부분 1000명을 표본으로 뽑습니다. 중심극한정리에 따라 모집단이 대수일 경우 정규분포를 따른다는 가정 하에 신뢰도에 의미가 있는 것은 표본 수의 크기(또한 표본의 표준편차)이기 때문이죠. 듀게의 이용인원이 대수에 가까울수록 총원 수 대비 표본 수 비례가 커도 된다는 의미입니다. 대략적으로 말하자면 모집단의 평균이 가지런히 놓여 있을 것이기에, 표본집단의 수가 커질수록 모집단과 같은 형태로 가지런해질 것이란 가정이 가능하다는 거죠.


사실 제가 제일 처음 하려고 했던 것은, 이번 투표 결과를 검증하는 것이었습니다. 이런 식으로 진행하려고 했죠. 투표의 결과가 찬성 우세나 반대 우세가 어느 쪽으로 될 경우라도 그게 실제 모집단의 평균과 맞는지 0.05 유의수준 내에서 검증하려고 했습니다. 즉, 듀게 전체의 의견이 반대 수가 많은데 투표자 수가 부족하여 투표 수로는 찬성 수가 더 나와버린 가능성이 5% 이하가 되어야 한다는 거었죠. 그래서 영가설을 0.5로 두고, (즉 듀게 모집단의 찬성과 반대가 딱 5 : 5라고 가정하고) 그보다 크거나 적은게 맞는지 T-검정을 하려 했습니다. 그러나... 큰 결함이 있다는 것을 알게 됩니다.


이런 검증이 가능하려면 표본의 추출 방법이, "무작위 추출"이어야 한다는 겁니다. 즉, 투표하는 사람들이 듀게 총원에서 작위적이지 않은 방식으로 뽑혀야 된다는 겁니다. (애초에 결과가 명목 척도인데다 0과 1로 비교를 해야 한다는 문제점도 당연히 있습니다만...) 그리고 큰 충격을 받았습니다. 사실상 투표라는 것은 통계적으로 모집단을 대표하는지 검증하는게 불가능하다는 겁니다. (모집단 평균을 파악할만큼 뽑았을 때야 가능하지만 그건 통계보다는 산수라고 할 수 있겠죠.) 예컨대 듀게에서 통계적으로 유의미한 특정한 안건에 대한 의견 파악을 하려면 모집단에서 무작위 추출을 하여 대답을 듣는게 더 검증가능한 방법이라는 거죠. (참고로 이야기 해드리자면 듀게의 모집단을 2만명으로 잡았을 경우 신뢰수준 95% 신뢰구간 +-5%에 도달할 표본 수는 377명입니다.) (혹시나 해서 덧붙이는데 신뢰수준은 모집단의 평균에 대해 표본 집단의 평균을 믿을 수 있느냐의 문제이고 유의수준은 영가설의 1종 오류 가능성이기 때문에 서로 다릅니다. 즉, T-검증에는 377명이 필요조건이 아닙니다.) 


그래서 드리고 싶은 말씀은 이것입니다. 투표 과정이라는 시스템은 구성원들의 명분을 모으는 기계일 뿐입니다. 또한 거기서 정해지는 특정한 임계점이나 대표성을 부여하여 받아들일 수 있는가 하는 여부도 개인의 신뢰에 달려 있습니다. 투표자가 무작위적일수록 더 신뢰할 수 있는 결과가 된다는 것입니다. 그렇기 때문에 찬반 양쪽 다, 특정한 흐름에 얽매이지 않고 (투표 결과의 신뢰도를 높히고 싶으시다면) 투표를 최대한 참여해주셨으면 바랍니다. (써놓고 보니 논리적으로 너무 당연한 말이 되는군요...)

 

P.S. 작위적 표본추출을 통계학에서는 비확률적 표본추출이라고 하는데, 이 자료는 정녕 빈도조사 외에는 분석에 아무런 쓸모가 없다는 이야기인지 제 실력이 미천하여 잘 모르겠습니다. 아무리 찾아봐도 쓸모없는 추출로 분석을 하는 방법에 대해서는 이야기가 전혀 없고 말이죠. 통계를 잘 아시는 분들의 고견 부탁드립니다.

P.S.2 비확률적 표본추출이라고 하더라도 T-검증은 해볼 생각입니다. 무작위 추출로 [가정]했을 때 유의확률은 확인해놓고 싶거든요.

P.S.3 오독할 여지가 있는 제목을 수정하였습니다. 논점이 흐려지게 되었다면 죄송합니다.

XE Login