현화신, 전희경 씀.
에서 제기한 K 값에 대한 관심에 감사드리며, 영화 상영 후 제기된 여러가지 의문들을 다섯가지 유형으로 묶어 보충 설명을 드리고자 합니다.
먼저, 아래에 있는 그래프가 K=1.5 를 (빨간색 선) 찾게된 계기였습니다 (adjusted R2=0.98). 회색 점선으로 나타낸 대각선이 K=1 일 때를 나타내는 것입니다. K>1 라는 것은 미분류표에서 분류표와 비교될때 후보1에게 상대적으로 더 많이 재분류되었던 어떤 이유가 있었다는 것을 의미합니다. 따라서 그 원인들을 찾기 위해 몇 가지 가설을 함께 논의하는 과정이 되기를 희망합니다.
P1 /M1 (x‐axis)= 분류표에서 (후보 1 의 표/후보 2 의 표) P2/M2 (y‐axis) = 미분류표에서 (후보 1 의 표/후보 2 의 표) (P2/M2)=K* (P1/M1), 빨간 선이 K=1.5 임을 보여주는 것임.
가설 1. 미분류표 비율이 높을수록 K‐값이 크다?
-> 아닙니다. 미분류표가 많을수록 K‐값이 커지지 않습니다. 왜냐하면 K‐값은 미분류표 뿐만 아니라 분류표까지 포함해서 나온 비율이기 때문입니다. 아래 그래프가 보여주듯이, 오히려 미분류율이 높은 지역에서는 K‐값이 작아지는 것으로 나왔습니다. (U_rate=미분류 비율)
가설 2. 투표자 50 대 이상 비율이 높을수록 K‐값이 크다?
-> 아닙니다. 아래 그래프 (a)가 보여주듯이 K‐값은 50 대 이상 비율과는 거의 상관이 없습니다. 그래프 (b)는 노령층이 높으면 미분류율도 높아지는 것을 보여줍니다. 그러나 그래프 (c) & (d)는 노령층이 많은 지역에서 후보 1 과 후보 2 의 미분류 비율이 함께 높아지는 것을 보여줍니다. 따라서 노령층 비율이 커진다고 K‐값이 커지는 것은 아닌 것으로 드러났습니다. 왜냐하면 K‐값은 미분류표 뿐만 아니라 분류표까지 포함해서 나온 비율이기 때문입니다. (한국 통계청 전국 인구통계 자료 사용)
가설 3. 여성 비율이 높을수록 K‐값이 크다?
-> 아닙니다. 아래 그래프 (e)가 보여주듯이 K‐값은 여성 비율과는 상관이 없는 것으로 나타났습니다. 후보 1 이 여성들의 지지를 받은 것으로 알려져 있으나, 여성들의 비율이 높아서 K‐ 값이커지는것으로드러나지않았습니다. (한국통계청전국인구통계자료사용)
가설4.미분류표 비율에 있어서, 50대 이상 노령층에서만 후보1이 후보2보다 높다?
-> 아닙니다. 아래 그래프가 보여주듯이, 노령층뿐만 아니라 모든 연령층에서 후보 1 은 후보 2 보다 미분류 비율이 높게 나왔습니다. 예를 들어 50 대 이상이 20~40%인 상대적으로 젊은 지역에서도 후보 1 의 미분류율이 (빨간색 선) 후보 2 (파란색 선)보다 높게 나타났습니다. 달리 표현하자면, 모든 연령층에서 후보 1 투표지들이 더 많이 미분류되었다는 것입니다. 나이에 상관없이 후보 1 의 투표자들이 후보 2 투표자들보다 투표지에 도장을 전자개표기가 판독할 수 없는 상태로 더 많이 찍었다는 (미분류표의 정의) 것을 보여주는 것입니다. 왜 그럴까요? (아래 질문 참고)
참고: 위 그래프는 가설 2 의 그래프 (c) & (d)를 합쳐 놓은 것으로 비율을 %로 표현한 것입니다.
가설 5. 미분류표 재검 기준에서 후보 1 과 후보 2 의 도장이 찍히는 넓이 비율에서 K‐값이 나온다?
(1) 먼저 미분류표 재검에서 후보1과 후보2의 도장이 찍히는 넓이가 다르다면, 한 후보에게 유리하고 다른 후보에게는 불리하므로 공정한 기준이 아닙니다. 이 부분은 사실 확인 후 개선되어야 할 부분입니다.
(2) 일단 18 대 대선에서 도장이 찍히는 넓이가 다르게 결정되었다고 가정하면, 그 넓이의 비율이 바로 미분류표 비율이 될 것으로 생각되지만 그렇지 않습니다. 왜냐하면 그 넓이의 밀도가 (도장 찍히는 빈도) 다르기 때문입니다. 아래에 있는 빨간색과 파란색 직사각형 내부에서 (가로=d & 높이는 각각 h1 & h2), 도장이 가장 많이 찍히는 부분이 그 안에 있는 작은 직사각형이라고 하고, 그 넓이를 S 라고 놓습니다.
(a) W1=작은 직사각형에 도장이 찍히는 빈도를 나타내는 비율, W2=나머지 넓이에 도장이 찍히는 비율. 여기에서 W2=1- W1 입니다. 예를 들어 서울역과 (W1) 그 주변 거리를 (W2) 사람들의 방문 빈도로 비교하시면 됩니다.
(b) 빨간색 후보 1 의 표로 인정되는 도장이 찍히는 넓이= W1* S+ W2*(d*h1- S)
(c) 파란색 후보 2 의 표로 인정되는 도장이 찍히는넓이= W1* S+ W2*(d*h2- S)
따라서 후보1과 후보2의 도장이 찍히는 넓이 비율은 h1/h2가 아니라 (b)/(c)가 됩니다. 이 값은 h1, h2, W1 & W2에 의해 결정되는데, 이에 대한 정보가 없으므로 식으로만 나타냅니다. 만약 W1>>> W2, (b)/(c) ≈ 1 에 가까워집니다.
질문: 미분류율에서 연령에 상관없이 후보 1 이 후보 2 보다 왜 항상 높을까요? 또한 이 것이 정상일까요? (가설 4 그래프 참고)
총 251 개표 지역 중에서 두 군데를 제외하고 나머지 249 지역에서 후보 1 의 미분류율이 후보 2 보다 높게 나왔습니다 (99%). 이러한 쏠림 현상이 통계적 분석을 하게 된 동기였습니다. 달리 말하자면, 모든 연령층에서 후보 1 을 지지한 투표자들은 후보 2 를 지지한 투표자들보다 더 많이 미분류표를 (전자개표기가 판독할 수 없는 표) 발생시켰습니다. 예를 들어, 같은 젊은 연령의 투표자들이 지지하는 후보에 따라 투표지에 도장 찍는 방법이 다르다는 것을 어떻게 설명할 수 있을지요?
좀더 알아보기 위하여 아래와 같이 식으로 나타냅니다. (아래 부록 참고)
여기에서 α 와 β 는 개표 지역마다 다르지만, 앞에서 논의된 연령, 성별, 미분류표 재분류 기준, 또는알려지지 않은 다른 잠재적 원인 등등에 따라 달라지는 함수값이 되겠습니다. 두 후보간 상대적 비율인 K의 기대값을 α와β를 이용해서 나타내면 아래와 같이 표현할 수 있습니다.
주의할 점은 , 즉 K는 두 후보의 미분류율의 비율과 같지 않다는 것입니다. 이부분이 잘못 이해되었기 때문에 앞에서 나왔던 가설들이 생긴 것이었습니다. 결국 미분류표 특성에 (profiles of unclassified votes of the two candidates) 대한 분석이 있어야 두 후보간 미분류율의 차이를 이해할 수 있겠습니다. 미분류표 특성에 대한 분석은 다음 선거에서 미분류를 방지할 수 있는 근거로 활용될 수 있고 개표를 개선시킬 수 있으므로 반드시 이에 대한 보고서가 필요하다고 판단합니다.
알림: 현재 논문은 학회에서 발표되었지만, 저널에 게재된 상태가 아닌 working paper 입니다. 요청하는 분들이 있으나 논문 공유가 어려움에 대해 양해를 구합니다.
_______________________________________________________________________________________________________________________________
https://www.projectboo.com/archive/153353
결국 애초에 더플랜에서 무시하고 지나간 맹점들을 그대로 무시하고
자기가 원하는 결과들만 취사선택해서 발표하는군요
에라이 퉤
그러니까 투표면적가설에 따라 전연령층에 걸쳐 1번이 2번보다 높게 나오는 것이 설명되고 연령층가설에 따라 50대 이상에서 급격하게 미분류표에서 차지하는 비율이 커지는 것이 설명되네요.
가설2는 당연히 아닐 것이라고 생각합니다. 실제로 연령층마다 후보 지지율이 다르다고 가정하면, K를 50대 이상 비율에 대해 그려보면 위로 볼록한 함수가 나오는 것이 맞는 것 같습니다. 50대 이상이 1번 후보를 더 많이 지지하고 50대 이하가 2번 후보를 더 많이 지지한다고 했을 때, 50대 이상 비율이 0%거나 100%일 때는 K=1의 값이 나올테고 그 중간에서는 K>1의 값이 나올 것 같습니다. 실제로 가설2의 (a) 그래프를 보면 약간 위로 볼록해보이네요.
논문 쓴 교수들이 단순한 착각을 한겁니다 게시글 하단 질문 파트의 다음 문장을 볼께요
'모든 연령층에서 후보 1 을 지지한 투표자들은 후보 2 를 지지한 투표자들보다 더 많이 미분류표를 (전자개표기가 판독할 수 없는 표) 발생시켰습니다.'
왜죠? 미분류표에 연령정보가 표시되어있습니까? 투표할때 연령을 기표용지에 기재하나요? 안하죠? 근데 이걸 어떻게 알죠?
자, 질문파트에서 위와같은 주장을 하면서 가설 4를 참고하라고했어요 주지해야 할 사실은, 임의의 지역 유권자의 50대 이상 연령층 비중과 미분류표의 관계일뿐 해당지역의 특정 연령대 유권자가 어느 후보에 투표를 했는지 전혀 말해주질 않아요 즉, 가설 4의 데이터분석을 가지고 해당지역의 미분류표를 기표된후보와 기표한 유권자 연령대별로 구분할 수가 없단거에요. 유권자 연령 기표의 구분자체가 안되는데 어떤 데이터 어느부분을 가지고 모든 연령층에서 박근혜미분류표가 더 많이 발생했다고 추론을 하죠? 문장을 다시 보죠
'모든 연령층에서 후보 1 을 지지한 투표자들은 후보 2 를 지지한 투표자들보다 더 많이 미분류표를 (전자개표기가 판독할 수 없는 표) 발생시켰습니다.'
그리고 가설 4의 글을 읽어보죠
'... 예를 들어 50 대 이상이 20~40%인 상대적으로 젊은 지역에서도 후보 1 의 미분류율이 (빨간색 선) 후보 2 (파란색 선)보다 높게 나타났습니다. 달리 표현하자면, 모든 연령층에서 후보 1 투표지들이 더 많이 미분류되었다는 것입니다. 나이에 상관없이 후보 1 의 투표자들이 후보 2 투표자들보다 투표지에 도장을 전자개표기가 판독할 수 없는 상태로 더 많이 찍었다는 (미분류표의 정의) 것을 보여주는 것입니다. '
지역의 50대이상 유권자의 연령층 비중과 미분류표의 관계 그래프에서 어떻게 저런 논증이 가능하냐구요. 달리 표현하자면 모든 연령층에서 후보 1의 투표지들이 더 많이 미분류 되었다? 그런 정보가 어딨어요? 지역 유권자 50대 이상 연령층 비중의 크고작음만 나와있지, 모든 연령층이 어디 나와있냐구요
만약, 모든 연령층의 기표실수확률을 수학적으로 동등하게 봤다면 가능할겁니다. 그런데, 모든연령층의 기표실수확률을 수학적으로 동등하게 봐버리는건 단순히 분석을 위해 매우 중요한 이질성을 무시하는 것이고, 추가로 개표데이터로 부터 얻은 50대 이상의 연령비중과 미분류표간의 비례적 상관관계를 무시하는 거라구요 연령층의 기표실수확률을 동일하다라고 가정하고 싶나요? 20대와 60대의 기표실수확률이 같다고 가정한다? 웃기는거죠 ㅋㅋㅋ
즉, K 값의 평균을 설명하는 중요한 정보를 아예 쌩까버리고 지 멋대로 데이터 해석하고 가정하고 결론내버린거라구요
실제 개표데이터와 지역유권자 정보를 통해 분석한 결과, 고령층이 미분류를 상대적으로 더 많이 발생시키므로 임의의 지역에서 추출된 미분류표에는 해당지역의 고령층 유권자의 의사가 상대적으로 크게 반영이 되어있다. 투표 전 각종 여론조사 결과와 투표당일 출구조사 결과에서 1번 후보의 지지율이 고령층에서 높게 나왔으므로 여론조사결과가 실제 투표결과와 유의미한 상관관계가 있음을 생각하면, 추출된 미분류표에는 상대적으로 1번 후보의 득표가 더 많은 경향을 갖는다
이 논지를 위의 논문이 전혀 배제를 못하고 있어요. 이곳 과게분들을 비롯해서 더플랜의 조작설을 안믿는 사람들은 그걸 지적하는거에요. 전혀 배제도 못하고, 그렇다고 논리적으로 K값에 대해 자연스러운 설명을 한 것도 아니면서 도대체 무슨 자신감으로 K값이 이상하니까 조작이다 라고 단정을 해버리는거죠?
난 개인적으로, 털보형이야 뭐 문송한 일반인이니까 착각해놓고서 착각을 했는지 자각도 없는상태로 있는거까진 이해를 하겠는데, 아니, 박사까지 딴 전공교수라는 사람이 뭐 이런 허접하고 단순한 실수를 해놓고 그걸 아직도 인지하지 못한채 다큐에 나와서 "이건 누군가의 계획이고 플랜이다" 라고 말하는 그 자신감이 이해가 안가요
이문제가 학계에서 정식으로 이슈화되고 검증되지 않으니까 그 교수입장에선 다행이지, 심사하면 위의 논문은 바로 세절기 행이에요. 수식 써놓고 그래프 뽑으면 와꾸는 있어보이겠네~ 근데 와꾸만 있지 틀린 논의를 하고 있으니 논문가치도 없을뿐더러, 말도안되는 음모론이 다수의 대중을 선동하는데 있어 잘못된 과학적 근거를 제공했기 때문에 학자적 양심이 있다면 일단 쪽팔려야 하고, 사과해야 하며 책임을 져야 하는 문제입니다.
"반드시 이에 대한 보고서가 필요하다." 따위의 문장을 보니 꼬리를 내려도 한참 내렸다는건 알겠습니다. 한 발 빼겠다는 심보네요.
그런데 추가 보고서가 필요하다는걸 아는 분들이 "누군가의 개입이 확실하다." 요딴 식으로 괘씸하게 인터뷰를 합니까?
미분류 확률과 K값의 관계는 논쟁의 초기에 이미 밝힌 부분인데 저 관계를 몰라서 오해가 생겼다? ㅋㅋㅋ
저기서 알파와 베타가 왜 같은지 논증하라는게 논란의 핵심인데 "보고서가 필요하다?" ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
진짜 암 걸리네요. 더 시간 쓰는 것도 아까울 지경이군요.
이런거 말고 k=1.5인게 조작하고 관련되어 있다는 증거를 보여줘야죠.
자기주장 증명은 없고 편하게 남의 가설 논박만 하려하네여 주장도 내가하고 반론검증도 내가 하고~
김어준이 해명한거랑 동일한 내용인거 같은데
김어준이 이해 못한게 아니였다는게 소름
논문저자가 직접 해명하면 뭐라도 해결될줄 알았는데 이건 뭐죠?
연령별 미분류율이란 통계가 존재하는지 첨 알았네
애초에 없는 통계를 가지고 연령가설을 그런식으로 반박하면 안되지.
지저분하게 폼 잡으려 할 거 없이
요번 대통령 선거 끝나는 대로 2012년 실물까서 캐삭빵 하면 될 일 가지고..
미분류율이 연령대가 높은 지역구일수록 더 뚜렷하게 나타나고 미분류표에서 거의 대부분 박>문 비율이 분류표의 박>문 비율보다 높다는게 상식적으로 이해하기 어렵다는 건 지금 홍준표가 60대이상에서 이렇게 지지받고 있는 걸 상식적으로 이해하기 어렵다는 얘기와 별반 다를 게 없어 보이네요.
어음 저 나갈게요
저는 오히려 이로 인해서 수개표의 필요성이 희석될까봐 걱정입니다.
궁금한 게 있는데요.
더 플랜에서 16대와 17대 3개 선거구에 대해서 선관위가 투표 자료를 제공하지 않았나요?
제 기억이 맞다면, 해당 선거구들의 k 값이 16대와 17대의 경우는 1에 가깝고 18대의 경우에는 1.5에 가까웠던 것 같습니다.
물론 샘플링 개수가 적으니 낮은 확률로 우연일 가능성이 있지만,
통계적으로 높은 확률로 16대와 17대의 k값이 1에 가깝다는 사실이 연령 가설을 반박하지 않나요?
...
어찌됐든 이번 19대 대선의 k 값이 어떻게 나올 지 매우 흥미롭군요.
추천조작이 의심된다니ㅠ
뭔말인지 모르는 문송이는 눈만 껌뻑거리다가 갑니다
아~ 어렵다~ 학문의 세계는 깊고도 깊군요 ㅋ
개인적으로 미분류된 표가 어떤식으로 도장이 찍혀있길래 미분류로 갔는지 궁금하네요.
미분류의 표시가 육안으로만 식별가능한 정도라면 노인가설이든 뭐든 K=1이 아닐 수 있다는 근거가 될 수 있겠지만
그 표시가 분류된 투표용지와 별반 차이가 없다면 K=1에 마땅히 수렴해야 하는게 맞다고 보는데요.
나이 성별 인종을 떠나서 그냥 데이터의 분류일 뿐이니까요.
미분류표 중 수개표로 재분류된 유효표의 상태만 확인해도 어느정도 논란은 잠재워지지 않을까 싶습니다.
가설4 부분에서 '연령층에 상관 없이 후보1의 미분류율이 후보2의 미분류율이 높다'라고 이야기하는데,그 근거는 '상대적으로 젊은 지역에서도 후보1의 미분류율이 높기 때문'이라고 하네요.
그런데 투표용지에 직접 나이를 적지 않는 이상, 직접적으로 연령대에 따른 미분류율을 통계내기는 어렵다는게 문제군요. 그래서 가설4 부분에서 '지역별 연령통계'를 활용한 거구요.
그런데 개인적으로는 지역별 연령에 따라 젊은 지역을 구분해도, 그 젊은 지역의 표가 진짜로 젊은층의 표를 대변할 수 없다고 생각해요. 왜냐하면 애초에 (지역에 상관없이) 연령대별 투표율을 생각하면, 노인층의 투표율이 젊은층의 투표율보다 높기 땨뮨이에요. 즉, 젊은 지역의 투표도 사실상 노인층의 표를 더 대변할 가능성이 높죠.
그리고 더 플랜에서 '조작설(플랜, 디자인)'은
K=1이 아니고 K=1.5가 된다는 것은 인위적인 개입 없이 나올 수 없다는 의미죠.
이는 합리적 의심을 가능케 하는 가장 강력한 단서 중 하나라고 봅니다.
노인가설조차도 결국 인위적인 개입 중 하나입니다.
조작이 없었다고 주장할 뿐 단순데이터의 분류가 아니라는 또다른 가설이잖아요.
사실 중요한건 K=1 말고도 기존 대선이 무언가 잘못되었다는 근거가 더 있다는 점입니다.
1. 전국 모든 투표소에서 초반에 박근혜가 유리한 투표함이 먼저 개표된다는 것.
2. 투표함 이동부터 방송순서까지의 일련의 순서가 뒤죽박죽이라는 것.
+ 여기에 자동개표기는 단순한 기계가 아닌 컴퓨터이기 때문에 인위적인 조작이 분명히 가능하다는 점.
인위적인 개입 없이도 K=1.5가 될 수 있다 한들, 기존 대선이 잘못됐다는 단순한 음모론 이상의 기시감이 느껴지지는 않는지 묻고 싶네요.
결국 이건 개표시스템에 어떠한 부정도 있을 수 없다는 맹목적 믿음을 벗어나서
합리적 의심을 하고, 더 나아가 어떠한 투표든 자동개표기의 사용이 금지되어야 한다는데 의의가 있다고 봅니다.
아니 그냥 선관위가 제시한 수개표 하자는 제안을 받으면 이런 모든 과정없이 해결되는 거 아닌가요.
딴 건 필요없고,
k값 옹호론자들은 이번 19대 대선에 k값 1.0 안 나오면
꼭 투표 무효 주장 꼭 해주세요~~
문재인 대선 후보가 당선 됐다고 주장 철회하지 마시고요.
댓글 분위기는 그냥 음모론일 뿐이다 라는 식의 분위기로 가고 있는 것인가요?
문송합니다만 궁굼해서 그러는데요,
더 플랜에서 주장하는 내용이 K값만 있는 것은 아니지 않나요?
K값은 여러가지 정황 중에 하나일 뿐이고, 검증이고 나발이고 개표 결과가 나오기도 전에 방송을 탔다는 것, 심지어 개표 전에 방송을 탔다는 것도 중요한 사실이라고 생각하는데, 전부 K값 검증에만 열을 올리네요.
또한 해킹 가능성도 있고요.
합리적인 의심이 가니까 개표 과정을 바꾸자는데도 불구하고 계속 거부를 하니까 더욱 의심이 가는 것이죠.
과정만 살짝 바꾸면 의심도 안받고 돈도 안들고 더 편한데 이걸 반대한다??
김어준 말처럼 반대하는 사람이 범인이겠죠.
문과 입장에서 참 답답하네요.
복잡하게 따지지 말고 이번 대선도 비슷하게 나오는지 두 눈깔 부릅뜨고 비교해야된다. 만약 이번에도 18대와 다르게 k값이 1에 가깝게 나오면 선관위 놈들 특검을 해서라도 밝혀서 내란죄로 다스려야한다.