Fisher's hypothesis testing의 문학적 해석
http://www.djuna.kr/xe/index.php?mid=board&comment_srl=11425056&page=4&document_srl=11420672
밑에 잔인한오후님이 써 주셨듯이, 저도 학부 입학하자마자 통계학 입문을 들으면서 뭔가 가슴이 찡하는 그런 느낌이 있었거든요.
그러니깐 Fisher의 귀무가설을 기각하는 절차는, 칼 포퍼가 어디선가 얘기했다는 명제의 부정으로 밖에 존재할 수 없는 과학적 사실에 대한 얘기 같기도 하고.
즉, 미약한 존재인 인간이 세상의 진리에 대해서 알 수 있는 것은 쥐똥만큼도 없지만, 이런 저런 짓거리를 해서 요것만큼은 사실이 아니라는 것을 알아내는구나 하면서 아아 몽매하고 유한한 인간... 뭐 그런 느낌이 있었죠.
베이지안 인퍼런스를 먼저 학부생한테 가르치고 있었다면 전혀 다른 식으로 이해했으려나 싶네요. 아마 멀티버스 같은걸로..?
하지만 지금 보면 사실 어떤 인퍼런스도 '진리'를 알아내는 방법이라기보단,
다만 특수한 목적을 위해 편의상 개발한 불완전한 논리를 가진 argument일 뿐인데,
population parameter를 뭔가 '신'만이 알 수 있는 진리--그런 식으로 이해한 걸 보면,
사실 저의 일상생활엔 존재하지도 않았던 근세초기의 중세인간의 굴레에 멋대로 동조해서 그런 갈등을 느끼고 있었던 것 같기도 하네요.
제 식대로 말하자면, (가치판단의 결과로서?) [무의미와 유의미는 동등한 가치를 지닌다]가 되겠네요. 논문 쓰기의 여러 부분을 들었는데, 그 반증주의가 대응가설을 채택해야만 하는 상황으로 몰아가고 있고, 무의미함을 증명해서는 논문의 가치를 잘 인정받지 못한다는 이야기를 들었습니다. 제가 듣기로는 과학적 방법론이라면 귀무가설을 채택하는 것도 정보를 가지고 있으며, 어떻게 보면 대응가설에 대응하여 귀무가설을 검증한 것인데 외부의 압박으로 방향이 편향되고 있는게 아닐까 싶을 정도 였어요.
그리고 과학의 자의성을 이야기하면 꼭 엉터리로 미시물리학을 이해한 인문사회계열의 과학적 신뢰성 해체에서 편입시키려 하기에 하는 말이지만, 다른 대부분의 도구들 중에서 그나마 인류가 보편적으로 납득할 수 있는 결론을 제시하는 방법론이라고 생각합니다. 이후 글을 쓰겠지만, 요인분석과 군집/판별분석을 듣고나니 기하평균을 통한 검정과는 궤가 다른 접근법에 충격을 받아서 뭔가 새로운 방법론으로 나아가고 있지 않나 싶을 정도였습니다. 아, 군집분석은 차원만 증가했을 뿐 별로 다르지 않은 접근법일까요? 어쨌거나 종속과 독립을 나누지 않은 상태에서 자신의 중심점을 찾는 것이 충격이었습니다. 이게 고급에서만 가르치고 학부과정에서는 3학년애 이르러서야 배운다니 새로움에 대한 충격을 나중에 배치하는건 참 아쉽네요.
'무의미함의 증명'은 실제로 증명했다고 하기 보다는 to fail to reject the null hypothesis라고 하죠. 즉, negative finding이 아니라 다만 absence of evidence for rejection. 즉 one-sample t-test 테스트를 했을 때 p>alpha 가 나온다고 해도, 이게 mue = 0을 증명하는 것은 아니죠. 왜냐하면 mue = 0 ± epsilon이어도 거의 같은 p-value가 나올테니깐... 그래서 negative finding은 실재로는 finding이라고 하기 힘든거죠. 그래서 positive bias in publications가 생기는 것인데, 요즘 많이 쓰는 메타분석에는 이 bias도 추정해서 같이 고려하는 방법을 쓴다더군요. 실재로 논문에 쓸 때도 p>alpha에 대해서 보통은 not significant라고 쓰지 insignificant라고 쓰지 않죠. 문법적으로는 그렇게 쓰지 않을 이유가 없지만...
"즉 one-sample t-test 테스트를 했을 때 p>alpha 가 나온다고 해도, 이게 mue = 0을 증명하는 것은 아니죠. 왜냐하면 mue = 0 ± epsilon이어도 거의 같은 p-value가 나올테니깐"
우와 이런 내용은 처음 알았네요. 감사합니다...
이렇게 생각해보면 귀무가설이 얼마나 불리한 입장인지 아실 수 있을겁니다. 불쌍한 귀무가설...ㅠㅠㅠ
행인3_ 그렇군요. 연구로 귀무가설을 기각시키지 못하면, 귀무가설이 온전하다는게 증명되는 것조차 아니고 연구의 방법론이 무의미하다는 사실만 밝혀지는 거군요. 결국 값(혹은 점)을 확정하고 확률의 넓이를 구해서 귀무가설이 채택된다 하더라도, 귀무가설 자체의 검증은 아닐테니까요. 자세한 답변 해주셔서 감사합니다.
방법론이 무의미하다기 보다는... 그냥 현재 샘플이 충분한 증거가 되지 못한다고 할 수도 있구요. 아니면 실제로 큰 차이가 없기 때문에 샘플을 많이 모아 봤자 큰 차이를 발견하지 못하는 거죠. 이런 경우엔 true negative가 되는데, Fisher's hypothesis testing의 문제중에 또 하나가 이렇게 true negative를 확실하게 결정하는 기준도 없다는거죠. 그래서 Goodness-of-fit 같은 이름을 생각하게 됩니다. 이 경우는 귀무가설을 기각하지 못하는 것을 보이는게 목적이 되는데 (예를 들면 K-S test), p>0.95 쯤은 되어야 정말 귀무가설을 기각하면 안될 것 같은 느낌이 되죠. 이때는 p-value라고 안 부르고 goodness-of-fit이라고 부르는데, 영분포에서 같은 부분을 다르게 부르는 이름입니다. 이게 또 alpha level은 하도 5%를 많이 써서 p-value=0.06은 뭔가 골대맞고 나간 공 느낌이 들지만, goodness-of-fit=0.94는 구설수가 많았지만 어쨌든 대충 인사청문회를 통과한 느낌이 들죠. 즉, 애초에 5%니 0.1%니 같은 임의의 기준으로 유의미하다/유의미하지 않다 라고 나누는 것 자체가 무의미한 일이라는 얘기가 심리통계저널 어딘가에 실린걸 본 기억이 나네요. alpha를 5%로 할까 1%할까 쓸데없는 고민하지 말고 p-value나 착실하게 적어라 뭐 그런 얘기였죠.
말이 나왔으니 질문하나만 더 드리면 원글에서 베이지안 인퍼런스를 멀티버스라고 하신건 prior 가 다 다른 경우를 의미하신 건지요...
prior가 확률밀도함수로 존재하는 것 자체가 영가설frame에서 보면 멀티버스가 아닌가 생각했어요
그렇군요. 앞서 잔인한오후님 글에 달린 댓글도 흥미롭게 봤습니다. 듀게 통계학 모임(듀통?) 같은거 있으면 어떨까 하는 생각이 잠시...