여기 두 명의 프로게이머가 있습니다.
편의상 제 고등학교 선배인 임요환 선수와 그의 라이벌이며 영원한 2인자였던 홍진호 선수의 이름을 빌려오도록 하겠습니다. (이후의 내용은 전부 허구이며 저는 두 선수 모두 좋아합니다. ㅎㅎ)
과거 어느 한 해에 총 세번의 스타리그 대회가 있었다고 합시다.
첫번째 대회의 결과
임요환선수의 승률은 80%, 홍진호 선수의 승률은 70%를 기록하였습니다.
두번째 대회의 결과
임요환선수의 승률은 70%, 홍진호 선수의 승률은 60%를 기록하였습니다.
세번째 대회의 결과
임요환선수의 승률은 90%, 홍진호 선수의 승률은 80%를 기록하였습니다.
세 번의 대회 모두 임요환 선수의 승률이 홍진호 선수의 승률보다 좋았던 겁니다.
그리고 다가온 연말.
세 번의 대회를 합산하여 최고의 승률을 기록한 MVP 선수를 시상하는 자리에서
홍진호 선수가 임요환 선수를 제치고 수상을 합니다!
...이런 일이 일어날 수 있는 걸까요?
네 놀랍게도 이런 일은 당연히 일어날 수 있습니다.^^
통계학적으로도,
특히 사회과학과 의학계에서 매우 중요하게 다뤄지는 유명한 역설이기도 한
'심슨의 역설' 이 바로 이러한 현상을 설명하는 것입니다.
영국의 통계학자인 에드워드 심슨은
1951년에 발표한 논문에서 이러한 현상에 대해 집중 조명했습니다.
이 논문을 통해 이런 현상은 널리 알려졌으며
1972년 통계학자 블리쓰는 그를 기려 이를 '심슨의 역설'이라 명명 하였습니다.
자 그럼 위에서 든 예시를 이제부터 여러분들이 납득이 되도록 설명해 보겠습니다.
아래의 표를 보세요.
임요환 선수
홍진호 선수
출전한
경기 수
이긴 횟수
승률
출전한
경기 수
이긴 횟수
승률
첫 번째 대회
40번
32회
80%
40번
28회
70%
두 번째 대회
100번
70회
70%
10번
6회
60%
세 번째 대회
10번
9회
90%
100번
80회
80%
합산
결과
150번
111회
74%
150번
114회
76%
결국 이 역설이 발생하는 핵심 포인트는
각 통계의 대상이 되는 표본 크기의 차이입니다.
비록 임요환 선수가 모든 경기에서 높은 승률을 기록했지만
그 와중에 가장 낮은 승률(70%)을 거둔 대회의 표본크기는 100번으로 제일 큽니다.
반면 가장 높은 승률(90%)을 거둔 대회의 표본크기는 고작 10번밖에 안되고요.
반대로 홍진호 선수는
가장 높은 승률(80%)을 거둔 대회의 표본크기가 100번으로 제일 크고,
가장 낮은 승률(60%)을 거둔 대회의 표본크기는 가장 작은 10번밖에 안됩니다.
이러한 표본크기의 차이는 승률의 비중을 다르게 하고,
결과적으로 합산된 통계에 마치 직관을 깨부수는 듯한 역설을 가져오게 되는 것입니다.
뉴스나 각종 언론매체에서
이러한 심슨의 역설을 교묘히 이용하여 사람들을 선동하는 것을 심심찮게 볼 수 있습니다.
여러분들은 통계자료로 이뤄진 주장들을 대할 때,
늘 이러한 현혹에 넘어가지 않도록
더 많이 배우고 늘 비판적인 시각을 견지하는 사람들이 되도록 합시다. ^^
반응이 좋다면 다음에 또 이러한 수학의 재밌는 소재를 갖고 와 글을 쓰도록 하겠습니다. ^^
첫부분 보고 콩까지마 할라 했는데
역시 콩이 최고네
첫부분 보고 콩까지마 할라 했는데
역시 콩이 최고네
내가바로그진상// ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
내가바로그진상// ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
흥미롭네요. 알고 있다고 생각하던 것이 일부만 조금 가리고 통계라고 내놓으면 속아버리게 되네요. 다른 것도 올려 주셨으면 좋겠습니다.
흥미롭네요. 알고 있다고 생각하던 것이 일부만 조금 가리고 통계라고 내놓으면 속아버리게 되네요. 다른 것도 올려 주셨으면 좋겠습니다.
아주 좋은 이야기 입니다.
요즘 의학논문들도 통계를 이리저리 굴려서 의미있게 만드는 경우가 많아서 비판적으로 읽어야 하는 경우가 많습니다.
누군가의 Data 및 그 결과를 맹목적으로 신뢰하는 것은 좋지 않다는 것을 단적으로 보여주는 아주 좋은 예가 될 것 같습니다.
k값이 kong값이었던 것인가...!
그래서 혹자는 통계만큼 숫자로 장난치기 쉬운게 없다고....
그만큼 제대로 해석하려면 전문가가 아니고선 힘들고...
k값이 kong값이었던 것인가...!
통계는 진짜 아는만큼 안당하는 거네요...
마치 전문가가 들어간 문구는 신뢰가 가지만 알지 못하면 기만당하기 쉬운것과 같이...ㅠ_ㅠ
오늘도 하나 알아 갑니다.
어찌 보면 당연한건데 새롭네요 ㅎㅎㅎ
어찌 보면 당연한건데 새롭네요 ㅎㅎㅎ
정작 심슨은 이해하지 못했다 한다
논문 쓸 때 통계란 게 엄청 중요하고도 위험한 거라고 처음 느낌..
좋은 내용 감사합니다. 다만 아쉬운건 실제 저런 내용을 악용해서 선동하는 기사나 글 같은걸 하나의 사례로 알려주셨으면 더 흥미있었을것 같습니다 ㅎㅎ
통계에서의 퍼센트는 예측을 위한 도구일뿐.
콩까지마라ㅋㅋ
궁금한 게 있어요. 아시는 분 좀 알려주세요!
위의 사례에서 [임]은 두번째 대회에서 100회, 콩은 세번째 대화에서 100회의 게임을 했는데요.
둘이 같은 대회차수에서는 유사한 게임수를 가진다고 가정하여도 위와 같음 상황이 발생할 수 있나요?
제 생각으로는, 콩의 두/세번째 대회로 돎겨서 게임수를 맞추면, 세 대회 중 두번째 대회는 콩의 승률이 1등이 되면서 한 번은 1위를 하게 되는 것 같아서요.
위의 사례에서는 두번째 대회에서 [임]은 100번, 콩은 10번의 게임을 하는 데 이 부분이 이해가 잘 안돼요.
세상엔 거짓말이 세 종류 있는데, 그럴 듯한 거짓말, 새빨간 거짓말, 그리고 통계죠.
하...몇년전에 회사에서 클라이언트 한테 저거 이해시키느라 개고생한 기억이...
간단한 실제 생활의 예
1번 운전자가 사고가 나서 상대방에게 손해의 90%를 물어줘야합니다.
2번 운전자도 사고가 나서 상대방에게 손해의 20%를 물어줘야합니다.
1번 운전자는 상대방 차가 아반떼
2번 운전자의 상대방 차는 벤틀리
실제 보상해주어야하는 금액 차이를 생각해보면 됩니다 ㅋ
수학의신님이네요~
와 이런글 진짜 재밌어요 너무 길고 복잡하게 설명하면 읽다가 스크롤 내려버리는데
비유도 재밌고 좋았습니다!
확률이 미치는 영향도 영향이지만 표본이 어떠냐에따라 확률을 좌지우지 할수있군요
1이 2에게 3연승을 했지만 ... 결국
뭔가 직관적으로 이해할 수 는 없을까..
지나가는 대학원생 ㅠㅠ