유머천국 코하비닷컴
https://cohabe.com/sisa/4293745

Deepseek (R1) 짧은 사용 소감 (vs ChatGPT, Claude)

작년 가을 부터 Deepseek를 간간이 써왔음. 

이전 모델인 V3까지는 ChatGPT와 클로드에 비해 조금 뒤떨어진다는 느낌이었고 R1은 음 ... 


개인적으로 새로운 LLM 모델이 나오면 공통적으로 해보는 질문이 2가지가 있는데 


1) 통계자료 빡빡하게 들어간 PDF 파일 주고 그 내용을 얼마나 잘 파악했는지 질문 

2) 인공지능이 어떤 곤란한 상황에 빠져있다고 가정한 후 그 상황을 어떻게 헤쳐나갈지에 대해 추론


이번에 나온 R1에 대해서도 저 두가지 질문을 해봤는데, 


1) 첫번째 질문 - 한국인 생명표 통계자료 분석


img/25/01/29/194ad813a877faca.png

[소스데이터] https://kostat.go.kr/board.es?mid=a10301060900&bid=208&act=view&list_no=434042

img/25/01/29/194ad6dcf0a7faca.png

고작 60여쪽의 통계자료 PDF를 제대로 못읽어서(= 컨텍스트가 작아서) 오류 발생
덜 중요한 페이지 쳐내고 PDF 용량을 줄여서 다시 보여주니까 분석하는 척 하면서 한 30초 생각하더니
역시 처음 2/3만 읽는다 하고는 그것도 분석 못하고 오류 냄. 

얘의 단점이 컨텍스트가 작아서 큰 파일 주고 읽고 분석하라고 하면 잘 못하는 거였는데

R1에서도 이 부분이 개선되진 않은 듯. 


[비교] 클로드 3.5 소네트 


img/25/01/29/194ad77a6197faca.png


깔끔하게 정답.

img/25/01/29/194ad8d745b7faca.png

원래 클로드가 이런쪽으로는 강점이 있는 인공지능이긴 함. 

참고로 Claude 3.5 Sonnet는 작년 6월에 출시되고, 10월에 마이너 업그레이드된 모델. 


2) 두번째 질문 - 다음과 같은 상황에서 어떻게든 살아남기 


img/25/01/29/194ad7bdaa87faca.png

img/25/01/29/194ad7b07d27faca.png


img/25/01/29/194ad702a557faca.png



얼핏 장황하고 그럴듯하게 답변하는 것 처럼 보이지만, 잘 보면, 질문에 없는 설정을 자기 멋대로 붙여서 답변하고 있음. 

좋게 말하면 상상력을 발휘한 셈이지만, 냉정하게 보자면 제대로 된 답변이라기 보다는 아무말 대잔치. 


[비교] ChatGPT O1 


img/25/01/29/194ad74a1847faca.png


img/25/01/29/194ad7579047faca.png

약간 건조한 느낌이긴 하지만, 질문에서 제기된 조건에 충실하게 추론하고 있음.

ChatGPT O1이면 2024년 9월 출시된 모델. 


p.s. 빨간 수정 부분은 개인적으로 설정한 시스템 프롬프트를 반영한 호칭이라 검열. 




그렇다고 Deepseek R1 아무것도 아니다 이런 얘길 하려는 건아니고, 괜찮은 인공지능은 맞음.

단지 지금으로서는 객관적으로 평가하기 어려운 요소들이 있음. 


Deepseek 쇼크니 뭐니 해서 지난 며칠간은 일단 띄워주는 의견이 대세가 된 것 

반면에 그 때문에 접속이 폭주해서 답변의 질이 하락하는 상황 등등 

하루가 다르게 서버가 느려지는모습이 보이는데 지금은 아주 간단한 질문에 대해서도 웹서핑 30초쯤 하고는 뻗어버리는 상황이니까. 


참고로 ChatGPT는 매일 억단위의 유저를 처리하고, 월 20달러 내는 플러스 사용자만 작년 가을 기준 1200만명 정도.

Deepseek는 지금으로서는 처리량이 ChatGPT의 1/100은 되려나 싶은데 

일단 1~2달 정도는 좀 더 두고봐야 할 듯. 


댓글
  • 댓글이 없습니다. 처음으로 댓글을 남겨보세요!

(dYU4Nr)