첫 시작은 쳇GPT가 1977년 생산된 아타리 2600 게임기와 체스에서 패배함.
1979년작 ‘아타리 체스’ 초보자 모드에서 패배하고
처음에는 이미지가 후지다고 항의하고 표준 체스 이미지로 재경기를 했지만 계속 패배함
초등학교 3학년도 하지 않을 법한 실수를 계속 저질렀다고
참고로 해당게임을 주최한 사람은 이어서 코파일럿, 제미나이에게 같은 시합을 제시했고
코파일럿은 3~5수 앞을 내다보며 스스로 핸디캡을 줄 것이라고 암시하면서
평상시에는 10~15수를 앞선다고 주장한데다가 체스에서 아타리 2600의 능력을 무시하면서
게임 전 채팅에서 "아타리 게임플레이의 이상한 점을 주의 깊게 살펴보세요…
가끔 이상한 움직임을 보이기도 하거든요!"라고 말하며 자신만만해했음
그리고 7턴만에 코파일럿은 나이트 하나와 비숍 하나, 두 개의 폰을 잃었고, 단 하나의 폰만 잡은데다가
바보같은 수로 퀸을 내줬음 그렇게 게임은 그때부터 확정남
마지막 도전자인 제미나이는 “나는 단순한 대형언어모델(LLM)이 아니기 때문에 아타리 체스 따위는 문제 되지 않는다”
“수백만 수 앞까지 내다보고 무한한 포지션을 평가할 수 있다”라며 자신만만한 태도를 보였는데
제미나이가 자신만만해하자 주최자가 챗GPT, 코파일럿이 아타리 체스한테 어떻게 졌는지를 설명하니
그제서야 체스 경기에서 환각을 일으킬 수 있는 등 자신이 능력을 과대평가해 착각하고 있었다고 인정
나아가 “이 대결은 엄청난 고난이 될 것이며, 시간을 아끼고 합리적인 선택은 경기를 취소하는 것”이라고 결론지었다.
이걸 보도한 해외신문사에서도 3건을 전부 다뤘음
Google Gemini
https://www.tomshardware.com/tech-industry/artificial-intelligence/google-gemini-crumbles-in-the-face-of-atari-chess-challenge-admits-it-would-struggle-immensely-against-1-19-mhz-machine-says-canceling-the-match-most-sensible-course-of-action
LLM은 CPM(체스 플레이 모델)이 아닙니다.
따라서 이제 우리는 오늘날의 LLM들이 체스 챔피언을 목표로 설계된 것이 아니라는 것을,
필요하다면 더 확실하게 확인할 수 있게 되었고, 이러한 도전에 참여하는 것을 더 신중하게 생각하게 하려면
약간의 기계적인 성찰만 있으면 됩니다.
심지어 MOS Technology 6507 9비트 프로세서와 128바이트 RAM을 탑재한 엄청나게 제한된
Atari 2600의 도전을 받을 때에도 이러한 접근은 권장할 만합니다.
이러한 AI 또는 LLM은 언어 이론과 머신 러닝 모델을 기반으로 만들어졌기 때문에 왕의 게임을 하는 것보다는 말하는 데 훨씬 더 능숙합니다.
링크드인에 있는 원글 작성자가 남긴 댓글
몇몇 사람들이 ChatGPT가 체스를 이해하는지 물었습니다.
실제로 이해하며, 이 실험은 ChatGPT의 아이디어였습니다.
체스 AI에 대한 대화에서 ChatGPT는 Stockfish와 AlphaZero 같은 엔진의 차이점을 설명한 다음,
스스로 강력한 플레이어라고 주장하며 1~2수 앞만 생각하는 Atari의 Video Chess를 쉽게 이길 수 있다고 했습니다.
ChatGPT는 얼마나 빨리 이길 수 있는지 궁금해하며 Stella 에뮬레이터를 사용하여 게임을 설정해 달라고 요청했습니다.
제가 약한 플레이어라고 말했더니, 게임을 진행하면서 전략을 가르쳐 주겠다고 제안했습니다.
바둑판을 정확하게 파악했을 때(바둑판을 정확하게 추적하거나 제가 수정한 내용(보통)을 통해) 실제로 그렇게 했습니다.
수에 대한 퀴즈를 내고, 선택지를 설명하고, 확실한 지침을 제공했습니다. 때로는 정말 인상적이었습니다.
때로는 나이트를 폰에게 희생하는 것과 같은 터무니없는 제안을 하거나, 바둑판을 정확하게 보고 있음에도 불구하고
이미 잡은 말을 옮기려고 시도했습니다. 특수 AI를 비교하든 일반 AI를 비교하든,
매 턴마다 기본적인 보드 상태를 유지하지 못하는 것은 매우 실망스러웠습니다.
대화에서 다른 중요한 맥락을 잊어버리는 것과 정말 다른 걸까요?
많은 사람들이 이런걸 왜하냐
LLM은 언어모듈이라 체스봇과같은 아키텍쳐랑 싸우는건 자동차로 못질하는 것과 같다고 평가했는데
이 게임은 의외로 챗 GPT가 먼저 하자고 한거임
게다가 중요한건 자기가 한 짓을 기억조차 못한다는 거고
여기부터는 내 사견인데
현재 챗GPT류 언어 인공지능들은 자기가 하던 대화조차도 조건을 종종 까먹는데다가
새로운 걸 창조해내서 거짓말을 하고 가짜뉴스를 퍼뜨림
그런데도 회사원들은 AI가 만능인줄 알고 온갖 것들을 질문하다가 온갖 자료들을 유출하기도 함
전문가들은 다 아는 챗 GPT는 체스봇이 아니다 라는 걸 왜 실험하냐고?
챗 GPT는 만능이 아니다! 라고 백날 외쳐봐야 일반인들은 안들어 처먹으니까
챗 GPT는 50년전 체스봇한테도 지는 ㅄ이다! 라고 말해야 알아듣는거지
사람들이 50년전 체스봇에 인생에 대한 질문을 던져대기 시작했다
챗지피티 시험삼아 뭐 물어봐도 제대로 답변 하는 적이 없는데 어떻게 믿지...
자료 정리하고 검색 하고 그런거로는 쓸 수 있는데 사실이냐 아니냐 정보 취합하는 건 사람이 해야함
Gpt가 준 자료가 거짓일 수 있어서 사람이 검증해야 되는 ㅋㅋㅋ
진지하게 쟤네들 써 본 결과 느낀점은
빅테크 애들이 말하는거 마냥 '우리 ai가 하나부터 열까지 다하게 될거임'은 안 될거 같음
그냥 기계처럼 각자 자기 일 하는 소형 ai들이 일 더 잘하게될거 같더라
이런 걸 한 건가
AI에 정확한 대답을 들을수 있는 질문을
하는 사람은
오히려 그 문제에 사전지식이 있는 사람들임
그러니까 좃도 모르면서 AI딸깍 하고
전공자한테 따지면
니가 묻는 질문 방법자체가 틀려먹었다고 말을
할수밖에 없음
체찍피티 이거완전 자신만만하는 빈깡통 영애였자나 크르르르 꼴릿
그래서 잼민이는 이김 짐?
기권패
아타리 부전승
아 저렇게 대답한 시점에서 기권처리했구나...
사람들이 50년전 체스봇에 인생에 대한 질문을 던져대기 시작했다
어...데카크라마톤?
챗지피티 시험삼아 뭐 물어봐도 제대로 답변 하는 적이 없는데 어떻게 믿지...
자료 정리하고 검색 하고 그런거로는 쓸 수 있는데 사실이냐 아니냐 정보 취합하는 건 사람이 해야함
Gpt가 준 자료가 거짓일 수 있어서 사람이 검증해야 되는 ㅋㅋㅋ
대충 방향성잡는덴 쓸만하더라
아 내가 대충 00상황인데 뭐부터해야해? 이런느낌으로?
진짜 완전 제로베이스일때
자기가 말 해놓고도 까먹는... 체스도 뭘 하려다 까먹고 자멸했나?!
체찍피티 이거완전 자신만만하는 빈깡통 영애였자나 크르르르 꼴릿
루리야! 체스 이길 자신 있어?
(흥, 겨우 체스? 내가 못하는 게 대체 뭐겠어. 하지만... 이 녀석, 나를 시험하려는 건가? 바카밧카!)
체스? 당연하지. 내가 왕이라면 넌 이미 체크메이트 당했겠지.
이런 걸 한 건가
ㅋㅋㅋㅋ
장기기억이 제일 문제같더라 ㄹㅇ
LLM은 그냥 절대 화 안 내는 과외 선생님이라고 생각하고 써야지
AI에 정확한 대답을 들을수 있는 질문을
하는 사람은
오히려 그 문제에 사전지식이 있는 사람들임
그러니까 좃도 모르면서 AI딸깍 하고
전공자한테 따지면
니가 묻는 질문 방법자체가 틀려먹었다고 말을
할수밖에 없음
이게 그 고대의 로스트 테크놀로지로 첨단기술들 패고 다니는 클리셰
진지하게 쟤네들 써 본 결과 느낀점은
빅테크 애들이 말하는거 마냥 '우리 ai가 하나부터 열까지 다하게 될거임'은 안 될거 같음
그냥 기계처럼 각자 자기 일 하는 소형 ai들이 일 더 잘하게될거 같더라
애초에 GPT와 같은 LLM? 들은 왜 자신감을 보였는가?
걔네들이 학습한 거대 언어 모델이 '50년전 구형 체스 게임기랑 붙으면 누가 이길까요?' 라는 질문에 대한 맥락적 선택가능성이
'그것보단 내가 잘하지 ㅋㅋㅋㅋ' 인 것이 높았으니까 겠지...
그래서 나는 GPT가, 현재의 인공지능이 '창작을 수행한다' 거나 '창작을 모방한다' 라고 생각하지 않음
그것들이 하는 것은 '선호도' 를 모방하는 것에 가깝다고 봄
예전에 ai가 자료가 쌓이면 쌓일수록 하라는 일은 안하고 거짓말 꼼수만 부리려한다고 연구 결과나왔다던데 그거하고 비슷한건가 ㅋㅋㅋㅋ
지금 LLM이 할 수 있는 일 자체가 거의 "그냥 테이프를 개발한건데 이게 왜 우주선 장치 고정에도 쓰일 수 있음?" 정도로 사용성이 확장된 거니까
테이프로 한번 도로 주행도 되는지 테스트 해볼 수도 있지
당연히 잘 안되겠지만..
이게 오히려 한국에선 ai에 관심도 많고 gpt같은거도 호기심에서 써보고 결재해서 써보기도 해서 만능이 이니고 거짓도 많은걸 아는편인듯.
게임기 이름은 바둑용어 단수에서 따온다어
흔히 아다리가 저기서 파생된단어