이 글은 더 플랜에 나오는 k값(논란이 되고 있는 1과 1.5를 중점으로)이 의미하는게 무엇인가를 아주 원론적인 측면에서만, 문과생도(최대한) 이해하기 쉽게 설명하기 위한 글입니다.
작성자 본인이 문과가 아니라 이 중차대한 작업을 제대로 수행할 자격이 충분한지는 모르겠습니다만 가능한 한도에서 최대한 노력하겠습니다.
이 k라 불리는 통계학적 수치에 대한 해석은 안타깝게도 주관이 끼어들 여지가 다분하며 과게 내에서도 저와 해석이 갈리는 분들이 많습니다. 해당 쟁점도 짚어볼 생각입니다.
k의 정의
정의.k는 박근혜 표가 미분류표로 분리되는 확률과 문재인 표가 미분류표로 분리될 확률 간의 비율을 의미합니다.
예제.위 1번 정의가 어려우신 분들을 위해 예시로써 부연설명하자면
예제-1. k=1인 경우, 분류기는 문재인표 100개중 3개를 미분류표로 분리하며 박근혜표 100개중 3개를 미분류표로 분리했음을 의미합니다.
예제-2. k=1.5인 경우, 분류기는 문재인표 100개중 2개를 미분류표로 분리하며 박근혜표 100개 중 3개를 미분류표로 분리했음을 의미합니다.
위 정의에서 하나 더 정의해야할 용어가 보이는군요. "미분류표"가 무엇인지 정의해야합니다
미분류표는 다음 두 가지 경우에 의해 발생하는 표입니다
1.기기 자체의 부정확성으로 인해 이게 박근혜표인지 문재인표인지 무효표인지 가려내지 못한 표
2.(중요*) 도장 번짐, 표 찢어짐, 도장 선걸침 등으로 인해 기기로 판독할 수 없고 사람의 눈으로 판독해야만 하는 표. 이 표들은 무효표, 박근혜표, 문재인표를 모두 포함
선관위가 공개한 스펙에 따르면 2012 대선에 활용한 분류기는 1번 경우로 인해 미분류표가 발생할 확률이 0.1퍼센트 미만이라고 합니다.
이를 근거로 미분류표 3.6퍼센트는 너무 큰 게 아닌가?라는 주장이 보이는데 이는 2번경우로 발생하는 미분류표를 무시하는 처사입니다. 미분류표는 1번 2번 모두 합해서 전체
표의 3.6퍼센트가 미분류표로 분류되었습니다. 이는 다른 총선 대선과 비교하더라도 정상적인 수치입니다.
또한 선관위가 공개한 스펙이 맞다면, 3.6퍼센트라는 수치는 미분류표가 1번경우보다 2번경우로 인해 생겼을 확률이 압도적으로 높다는 증거이므로 후에 나오는 "미분류표"는 1번경우의 미분류표는 없고 2번경우의 미분류표가 거의 전부라고 가정합니다.
자 정의가 끝났으니 본론으로 넘어갑니다.
k값은 과연 어떤 조건에서 1이어야 하는가?
여기서 한가지 큰 쟁점이 발생하는데요
랜덤추출(임의추출)이 필요한가? vs 필요하지 않은가?
단언하자면 분류기는 애초에 미분류 표들을 랜덤추출하지 않습니다. 만약 미분류표가 1번 경우에 의해서만 발생한다면 미분류표는 랜덤추출에 가까운 성향을 보일 것입니다.
하지만 2번경우는 "도장/기표용지의 상태"라는 요소에 의해서 좌우되는, 말 그대로 랜덤하지 않고 일정한 기준에 의해서 추출되는 미분류표들입니다.
여기서 "미분류표는 랜덤추출이 아니므로 k는 1이 아니다"라는 논리를 즐겨쓰는 분들이 있는데요. 맞는 말이지만 k를 꽤나 무시하는 처사입니다...이걸로는 k가 1이 아니라 1.5라는걸 설명하기엔 많이 부족합니다...
사실 현실세계에서 랜덤추출은 어렵습니다 아니 불가능합니다. 최근 뉴스를 봐도 우리가 여론조사에서 유무선비율을 따지고 국번을 따지는 것도 국민이라는 표본에서 완전 랜덤한 샘플을 얻는게 불가능하기 때문에 그렇죠
k의 힘은 여기서 나옵니다. 이 싱기방기한 통계수치인 k는 랜덤추출이 아니더라도 1에 수렴할 수 있습니다! 이에 대한 증명은 통계학 원서에서 다루는 매우 중요하고 흥미롭지만 복잡한 과정이기에 생략하겠습니다.
다만 그게 항상 그런건 아니고. k는 "추출이 랜덤" 뿐만 아니라 "모집단 내에 타겟집단이 랜덤"인지도 잡아내는 역할을 합니다. 무슨 말인가하면, 랜덤추출이 아님에도 불구하고 k=1이다라는 답을 얻었을 때. 한 가지 결론을 내릴 수 있습니다: "우리가 조사하고있는 타겟집단이 모집단 내에 균등하게/랜덤하게 분포하고 있다!"
k=1.5라는 것은 바로 위 문장이 사실이 아님을 나타냅니다. 즉 조사하는 타겟집단이 모집단 내에 균등하게 분포하지 않는다는 것이죠.
어렵네요. 그러므로 좀 더 알기 쉽게 설명합니다.
풀어서 말하면, 이번 2012대선에서 관찰된 데이터와 k=1.5는 다음과 같은 의미를 지나고 있습니다.
타겟집단:미분류표를 만든 사람
모집단:박근혜에기 투표한 그룹과 문재인에게 투표한 그룹
k=1.5이므로 박근혜 투표자그룹에는 문재인 투표자그룹보더 미분류표를 생산한 사람들이 더 많이 분포해 있었음.
즉 박근혜 투표자 중에 미분류표를 찍은 사람이 3퍼센트, 문재인 지지자 중에 미분류표를 찍은 사람이 3퍼센트 이런식으로 균등하게 분배되어 있는게 아니라
박근혜 지지자 중에 미분류표를 찍은 사람이 3퍼센트
문재인 지지자 중에 미분류표를 찍은 사람이 2퍼센트
이런식으로 차이가 나게 분배되어 있다는 얘기입니다.
자 다시 k는 언제 1인가? 라는 최초 질문으로 돌아가서
1.k는 표본이 랜덤추출일 경우 1에 근접한다
2. 만약 랜덤추출이 아니더라도 모집단에 타겟집단(현재 상황에선 미분류표를 생산하는 집단)이 랜덤분포하면 k= 1에
근접한다.
2-1. k=1이 아니라는 것은 미분류표를 생산하는 집단이 한쪽(2012 대선에선 박근혜투표자쪽)에 치우쳐서 분포한다는 얘기이다.
사족. 또 한 발 더 나아가서 k=1이 아닌 값에 무려 정규분포를 보인다는 것은 미분류표를 생산하는 집단이 일정한 패턴을 가지고 한쪽에 집중된다는 의미이다.
3. 왜 이러한 패턴이 발생했는가?에 대해서는 여러가지 가설을 세울 수 있으며, 가능성이 있는 가설 중에는 현재 해킹설, 연령설이 있다.
일단 이 글은 k의 의미를 설정하고 설명하는 것이 목적이고 소기 목적을 충분히 달성했다고 개인적으로 판단되므로 여기서 끝마칩니다.
이 정보를 바탕으로 과게와 다른 커뮤니티에서 불타고 있는 논란과 온갖 데이터를 해석하기 더 편해졌기를 바랍니다. 더 플랜의 주장이 옳은지 아닌지를 판단하는 것은 이제 기초를 배운 여러분의 몫으로 남기겠습니다.
길고 부족한 글 읽어주셔서 감사합니다.
진실의 침몰을 막기 위한 노력이 계속되길 바라는 마음에서
이 부족한 글에 대한 온갖 태클을 환영합니다.
https://cohabe.com/sisa/193966
[더플랜] 문과생/수포자 히치하이커를 위한 k=1 vs k=1.5 안내서
- 문재인 후보의 러브 스토리 [11]
- 카리스마4097 | 2017/04/24 06:28 | 6007
- 안철수 유치원건으로 주부가 등돌릴 땐 현명하다했으면서 [10]
- 매그니토 | 2017/04/24 06:25 | 3247
- 어느 여자 국회의원 [19]
- 돼지코꽃사슴 | 2017/04/24 06:24 | 3498
- [더플랜] 문과생/수포자 히치하이커를 위한 k=1 vs k=1.5 안내서 [17]
- 치우율무차 | 2017/04/24 06:24 | 4133
- 줌렌즈 구간에러 나셨던분 있나요? [6]
- 헨신쥬우 | 2017/04/24 06:24 | 4322
- 사악한 고대 악신 크툴후의 역습 [42]
- [필레몬] | 2017/04/24 06:22 | 2109
- 건국훈장받은 일본인.jpg [8]
- 고갤생존자 | 2017/04/24 06:17 | 3695
- 일상...가족이야기[d800e] [12]
- 예인지후 | 2017/04/24 06:16 | 4695
- 아빠,약속 지켰어요.보고 계신가요 .jpg [9]
- uipxaexa | 2017/04/24 06:16 | 8035
- 현직 인천공항입니다 ..;; [8]
- Edit™ | 2017/04/24 06:10 | 2110
- 66kg 여자사람 착샷 [14]
- Ssunny | 2017/04/24 06:05 | 5785
- 매우 걱정스러운 두 가지 (민주당에 고함) [8]
- 가든하임 | 2017/04/24 06:00 | 4241
- 여고생이 만든 천안함 배지 달자 [22]
- 고갤생존자 | 2017/04/24 05:56 | 4721
- 임시정부 98년, 역사전쟁 10년 [10]
- 카리스마4097 | 2017/04/24 05:56 | 8010
- 자 안철수의 시간이 왔습니다. [13]
- 매일안녕 | 2017/04/24 05:46 | 2481
그니까 애초에 분류표에서의 후보지지비율을 미분류표에서의 후보지지비율이 안따르는지를 "이상하게" 생각한것부터가 에러였어여. 아니, 양보해서 그 현상에 대한 의문을 갖는것 까지는 좋았으나, 그 둘의 비율이 당연하게 같거나 혹은 비슷하게 나와야 "정상" 이다 라고 생각을 해버리는 바람에 이 사단이 난거져
통계학적 기초와 논리에 대한 기본적인 무지가 불러온 참사라는 그런데 알고봤더니, 그 무지가 꽤나 보편적이더라 라는
소설 푸코의 진자에 주인공들이 만들어낸 거짓 음모론을 사실로 믿어버리는 한 부류의 군중들이 나오져. 재밌는건 그 주인공들도 음모론을 진짜라고 믿고 구축했다는것. 지금 상황이 그 소설 속 장면들과 똑같아여 개인적으로 털보형님 좋아하지만, 이제는 퇴장할 때가 되지 않았나 싶어여
그러니까 박근혜지지자랑 문재인지지자랑 똑같은 사람들이면 K=1 일 것인데
박근혜 지지자에 삑사리 낼 사람들이 더 있었다 이런 이야기죠?
격추방지 시스템이 잘 적용되어 있는 글이군요. 기대합니다.
혹시 몰라서 미리 설명드리면,
파파이스에서 노인 가설을 반론했다고 하는데, 제대로된 반론이 아닙니다.
노인 가설을 반론할려면, 노인이 많아도 미분류율이 올라가지 않는다는 걸 반론해야는데,
파파이스에서는 노인이 많아도 k값이 변하지 않는다는 걸 반론했는데,
그런데 k값은 노인 비율뿐만 아니라 노인들이 어느 후보를 지지하냐에도 큰 영향을 받습니다.
다시 말해 노인 가설을 제대로 반론하지 못햇습니다.
그리고 몇몇 분에게 말하는데,
제발 읽고나서 반대 좀 하세요.
더 플랜은 투표방법에 대한
경각심 정도로만 접근해야지
모든 내용이 완벽한 사실이라고
단정 지을 수는 없습니다.
영화 자체도 조작에 대한
완벽한 증거가 아닌
어디까지나 가능성을 둔거니
혹여 아직 안 보신 분은
너무 맹신하지 않으셨으면 합니다.
고생스럽게 작성하신글에 죄송하지만 한마디합니다
과게분들이 자꾸 착각하시는게 일반인들의 논점은 K값이 1이 정상이냐 아니냐의 논점이 아닙니다.
제가 요즘 더플랜관련 글을 보고있으면 과게분들은 어떤 이유에서인지 절대 부정개표가 아니라는 전제가 가지고
이론을 추론해 내시더군요.
뭐 주장대로 부정개표가 아닐수도 있습니다. 하지만 영화에 출연하셨고 직접개표에 참관하신 시민의눈 활동가들이
왜 개표과정의 허술함과 조작될 개연성이 충분하다는 우려는 표하고 있는지 생각해봐야 합니다.
지금까지 이명박근혜 정권하에서 선거때마다 무슨일이 있어왔는지 정말 국정원직원의 댓글놀이 정도는 애교로 봐도될정도로
비상식적이고 황당한 일들이 벌어져 왔습니다.
왜 자신의 추론이 정당하고 옳다는걸 증명하시려고 스스로를 어떤 임의적인 명제에 가두시는지 사실 저는 잘 이해가 되질 않습니다.
저같이 수학에 무지한 다수는 이론의 옳고 틀림이 중요한게 아니라 우리를 둘러싼 현상의 비정상이 의심스러운겁니다.
김총수가 틀렸다고해도 저는 그를 비난할 생각이 솔직히 없습니다. 그리고 과게분들의 학자적 탐구또한 매도할 생각 전혀 없구요.
대선때까지 조금만 기다려보죠. 그때가면 무슨결론이든 나지 않겠습니까..
힘내세요. 추천 찍고 갑니다.
이를 근거로 미분류표 3.6퍼센트는 너무 큰 게 아닌가?라는 주장이 보이는데 이는 2번경우로 발생하는 미분류표를 무시하는 처사입니다. 미분류표는 1번 2번 모두 합해서 전체
표의 3.6퍼센트가 미분류표로 분류되었습니다. 이는 다른 총선 대선과 비교하더라도 정상적인 수치입니다.<- 이 부분이 틀립니다.
-----------------------------------------------------------------------------
더 플랜에서 나오지만 3.6 퍼센트는 과거 대선 총선에 비해서 많은 비율임이 나옵니다.
각 선거구 k값을 높은순대로 일렬로 배열했을때(빨간선), 선관위 해명에 의한 박그네 투표비율이 높을 것으로 예상되는 50대 이상 연령층(파란선)과 상관관계가 없다는 자료인데, 혹시 이 그래프에 대한 생각은 어떠신지요?
연령설은 말도안된다고 봅니다
전라도에서 도 k값은 최소 1.2를 넘어갑니다
연령설이라면 전라도에서도 노인들이 근혜를 찍엇다는 소린데
민주당이 90% 넘게 가저간 곳에서 근혜를 찍은 노인이 훨씬 많다? 말도안되는소리죠
그리고 같은 선거구에서 16대 17대 대선은 1이었습니다
18대 대선만 1.4였죠
16대는 노무현이지만 17대는 이명박이라는걸 알아야합니다
똑같은 새누리당인데 왜 17대 18대 k값이 1.4배나 차이가 나죠? 18대 대선당시만 노인들 팔에 장애가 왔단 말인가?
가정이 몇개 잘못되어 있는데, 그중 하나는
" 또한 선관위가 공개한 스펙이 맞다면, 3.6퍼센트라는 수치는 미분류표가 1번경우보다 2번경우로 인해 생겼을 확률이 압도적으로 높다는 증거이므로 후에 나오는 "미분류표"는 1번경우의 미분류표는 없고 2번경우의 미분류표가 거의 전부라고 가정합니다. "
라고 하신 부분인데,물론 개표기 자체가 정상기표용지를 비정상으로 분류할 확률이 매우 낮은것은 맞습니다만,
문제는 2012년 선거에서 미분류표에서 '아주 정상적으로 기표된 투표용지'가 너무 많이 나왔다는 것 아닙니까?
과게에서 이상하게도 얘기에 대해 얘기하는 경우를 못본 것 같은데 아마 더플랜 시청을 아직 안하신걸로 보입니다.
실수하지 않는 기계가 정상표를 전체 미분류 투표용지의 절반정도나 분류해냈다는게 문제의 근본원인인데 말이죠.
이건 제 추정이 아니고 선관위에서 제시한 자료에 나오는 자료들에 다 나오는 것들입니다. 더플랜에서 사용한것도 전부 선관위 제공수치들이구요.
개표과정 중에는 미분류 투표 용지들을 재검표하는 과정이 당연히 있고 그중에 정상투표용지로 분류되어 나간 표들이 전체 미분류 표의 절반이 넘었습니다. 왜? 여기서 의문이 시작된 것이죠. 이 부분을 빼 놓고 더플랜의 K를 반박한다는 것은 무의미한 지적입니다.
어찌보면 더플랜의 가장 핵심적인 추론 부분이고 정말 놀라운 꼼수인데, 이 부분을 간과하시고 잘못된 가정으로 추리를 시작해 나가셨기때문에
당연히 결론 또한 옳을 수 없습니다.
굉장히 큰 오류가 있기에 바로 잡습니다.
본문 내용 중, 미분류표가
< 2.(중요*) 도장 번짐, 표 찢어짐, 도장 선걸침 등으로 인해 기기로 판독할 수 없고 사람의 눈으로 판독해야만 하는 표. 이 표들은 무효표, 박근혜표, 문재인표를 모두 포함 >
이라고 하셨는데, K값은 미분류표 중 무효표를 제외한 표들만 계산해서 산출된 값입니다.
즉, 무효표는 K값과 전혀 상관이 없습니다.
이런 잘못된 글이 더플랜 음모설에 힘을 보태주고 있는 것 같아 가슴이 아프네요.
정규분포를 보면 답이 보일텐데 개답답 15년이상 지금도 코딩중인 개발자 눈으로 봤을때 빼박 증거가 맞음에도 이걸 음모설로 몰아가는 꼴이라니 ㅉㅉ
글 내용과 덧글을 보니 목적이 보이는 글
이글이 왜 베스트인지 이해불가
율무차 이사람은 더플랜도 제대로 안본듯
'표의 3.6퍼센트가 미분류표로 분류되었습니다. 이는다른 총선 대선과 비교하더라도 정상적인 수치입니다.'
라고 주장하셨는데 이에대한 증거가 될수 있는 수치적 통계를 보여주세요.
이 부분을 증명하지 못하시면 다음부분으로 넘어갈수 없습니다.