유머천국 코하비닷컴
https://cohabe.com/sisa/4475761

AI)들 추론 과정의 경향성 차이가 재미있다

칠레 국기를 텍스트로 묘사했을때 AI들이 텍사스 주기랑 헷갈리지 않고 찾을 수 있나 테스트를 해보았는데 
추론 안켠 상태에서는 텍사스와 헷갈리기는 커녕 전혀 엉뚱한 국기들만 제시함
그래서 한번 추론 상태끼리만 비교해봤는데

img/25/04/06/19608eb4a1849ddf.png



Gemini 2.5는 추론 과정보면 항상 사용자가 제시한거에 집중하는 모습이 보임
여기서도 일단 제시한 키워드 분류하고 그냥 그걸로 검색해서 찾아옴





img/25/04/06/19608ec473b49ddf.png



gpt는 추론 없을때는 진짜 헛소리 미쳐서 조건이 완벽히 부합하는걸 답변달라고 해봄
그런데 이성 켜지니까 그냥 잘맞추고 검색 같이 켜면 더 잘맞춰서 조건에 부합하는것만 답변하라고 안해도 잘맞춤




img/25/04/06/19608ee021e49ddf.png



추론을 켜도 지 마음대로 답변하는 그록3


gpt한테 했던 것처럼 조건에 완전히 부합하는걸로 답변을 달라고 하니 기막힌 추론을 시작함

img/25/04/06/19608ef54c649ddf.png




img/25/04/06/19608ef6baa49ddf.png



너무 길어서 다 못찍었는데 모든 깃발에 대해서 이렇게 하나하나 비교하고 자빠졌음 ㅋㅋㅋ
그리고 한 2분 정도 지나서 겨우 답변 맞추긴 함 ㅋㅋ


이게 아무래도 그록 팅크는 검색보다 내부 추론에 의존 하는거라 이런거 같은데 GPT는 이성만 켜도 잘 맞추던데...


그록도 딥서치로 답변을 요구하면 다른 애들처럼 비슷하게 검색해서 답변 줌

댓글
  • 루에이-91123 2025/04/06 11:59

    마치 인덱싱이 안되어있는 파일을 검색하는 것 같네..

    (I58icS)

  • 하마펀치 2025/04/06 12:51

    저거 추론과정도 실제로 저렇게 추론하고 있는거 아님 저것도 일종의 보여주기식임
    저것도 인간피드백으로 인한 강화학습으로 얻어진거라 실제 내부 추론과정은 저기 보여주는거랑 많이 다르다는 내용이 많이 나오고 있긴 해
    https://www.anthropic.com/research/reasoning-models-dont-say-think
    개인적으로 클로드ai를 제일 메인으로 쓰는데 얘네가 이런식으로 LLM 내부구조 연구도 꾸준히 하면서 공개도 해줘서 재밌음

    (I58icS)

(I58icS)