LLM 모델 코딩 성능의 정성적 비교(클로드, 지피티, 제미나이 ...)

카테고리 없음

LLM 모델 코딩 성능의 정성적 비교(클로드, 지피티, 제미나이 ...)

m00n0107 2026. 1. 12. 09:33

최근 1년간 LLM의 코딩 능력이 비약적으로 성장하며, 이젠 개발자가 손으로 직접 코딩해야하는 영역이 줄고 있다는 것이 강하게 체감된다. 재작년까지만해도 GPT가 압도적이었고 이를 대체할 수 있는 서비스가 없었지만 시간이 지날수록 GPT의 단점을 보완할 수 있는 수많은 LLM 모델이 등장하기 시작했으며, 특히나 최근에는 개발자들이 GPT보다 OPUS 4.5나 Gemini 등을 더 선호하기도한다.

모델의 장단점이나 실제 성능들을 측정한 수많은 논문들이 존재하지만 LLM의 특성상 ‘성능 평가’라는 영역이 굉장히 어렵기도하고 평가지표에 따라서 매우 다른 결과가 나올 수 있기 때문에(심지어 평가지표 자체도 제대로 확립이 안되어있는 영역이라고 생각한다) 직접 써보면서 느낀 나의 체감 성능에 대해서 비교해보려고한다.

1. Claude Opus 4.5

내가 2026년 1월 기준 가장 메인으로 사용하고 있는 모델로 타 모델에 비해 추론, Context, text 생성 등 다양한 부분에서 가장 높은 코딩 능력을 보여주는 모델이라고 생각한다. 특히나 어떤 문제를 해결함에 있어서 하나하나 추론해나가는 사고과정이 타 모델에 비해 가장 우수함이 느껴지고 프론트, 백, ai등 여러 방면에서 부족함이 없는 것이 가장 큰 장점이다.

단점이라고 한다면 Opus 4.5를 사용하면서 최근에 찾은 불편함인데, Opus 4.5가 학습이 어느시점까지 된 모델인지는 잘 모르겠지만 gpt 5 api를 가져오는 코드에서 계속해서 실패를 했다. “gpt 5는 현존하지 않는 모델입니다” 라고 말하는것을 보니 gpt 5가 나오기 이전까지 학습된 것 같다. 그래서 어쩔 수 없이 gpt 5 api를 사용해야하는 코드를 손코딩했었다. gpt 4와 gpt 5 api를 calling하는 과정에서 이 둘의 파라미터가 다르다보니(ex. gpt 5 nano는 temperature가 없었던 것 같음) 아예 이상하게 코딩하길래 이런 부분은 사람이 직접 건드려줘야하는 것 같았다. 이런 부분에서 약간 불편함이 있었으나, 조금 더 최신 버전이 나오면 해결될 것이라고 예상된다.

2. GPT 5.2 Codex

Claude Opus 4.5가 가끔 성능 불안정을 보일때 사용하는 대체재로 활용중이다. 코딩 실력은 Opus 4.5에 거의 준하는 듯 하고 엄청나게 복잡한 문제를 푸는 능력은 오히려 gpt 5.2 codex가 더 나은 모습을 보일 때도 있다. 물론 Opus 4.5에 비해 추론하는 시간이 훨씬 길지만 긴 시간 고민하는게 큰 낭비가 아니라고 할만큼 코딩 실력이 나쁘지않다.

성능 자체는 좋으나, 너무 간단한 작업에서도 지나치게 오래 고민하는 경향이 있다. 아마 추론 과정 자체를 계속해서 검증하면서 최적의 답을 찾아내는 방식으로 설계된 것 같은데 가벼운 프로젝트에서 사용하기엔 좀 과한 경향이 있고, 시간을 오래 써서 코드를 짰는데 나의 의도와 다르면 시간 낭비처럼 느껴지기도 한다.

3. Gemini 3 pro

Claude Opus 4.5로 넘어가기전에 Gemini 3 pro를 가장 많이 사용했었다. 코딩 능력 자체도 뛰어나지만 타 모델에 비해 프론트 짜는 능력과 미감이 매우 좋다. llm이 아무리 고도화되어도 사람의 미감과 기계의 미감은 절대 같아질 수 없다고 생각했는데 gemini는 다른 모델과는 좀 다른 수준의 미감이 있다. css를 기계적으로 다루는 느낌이 아닌 진짜 ‘예쁜’ 디자인을 잘 학습한 모델이라고 생각한다.

프론트를 잘 짜주는 만큼 백엔드에서 context 파악 능력이 약간 모자라다는 느낌이 든 적이 있다. 하지만 크게 불편하지않을 정도의 수준이고, 확실히 GPT를 위협할만큼의 general하게 뛰어난 모델이라고 생각한다.

4. Claude sonnet 4.5

Claude Opus 4.5의 ‘약간’ 하위호환 정도로 체감되는 모델이다. 사실 sonnet만으로도 사이드 프로젝트 개발은 충분히 커버할 수 있는 수준이라고 생각한다. 하지만 context가 길어질수록 놓치는 부분이 생기고 이걸 스스로가 잘 못잡는 경우가 많아서 Opus가 나온 이후로는 굳이 사용하진않는다.

요즘 거의 하루가 멀다하고 새로운 모델이 나오고 새로운 업데이트가 생기고 있다. 이젠 AI없는 코딩은 상상도 할 수 없는 만큼, 새로운 모델을 잘 이해하고 다루는 것도 소프트웨어 엔지니어로서의 필수적인 역량이 되어가는 것 같다.

현재글LLM 모델 코딩 성능의 정성적 비교(클로드, 지피티, 제미나이 ...)

DD 님의 블로그

제 경험을 공유합니다.

데이터분석, 컨설팅, AI, LangChain, RA, 대외활동, 공모전후기, 창업, 인턴, Rag, 인턴후기, 스타트업, kpmg, 사이드프로젝트, 랭체인, 오픈소스, 대학생, 공모전, 인공지능, 개발자,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

DD 님의 블로그