최근 1년간 LLM의 코딩 능력이 비약적으로 성장하며, 이젠 개발자가 손으로 직접 코딩해야하는 영역이 줄고 있다는 것이 강하게 체감된다. 재작년까지만해도 GPT가 압도적이었고 이를 대체할 수 있는 서비스가 없었지만 시간이 지날수록 GPT의 단점을 보완할 수 있는 수많은 LLM 모델이 등장하기 시작했으며, 특히나 최근에는 개발자들이 GPT보다 OPUS 4.5나 Gemini 등을 더 선호하기도한다. 모델의 장단점이나 실제 성능들을 측정한 수많은 논문들이 존재하지만 LLM의 특성상 ‘성능 평가’라는 영역이 굉장히 어렵기도하고 평가지표에 따라서 매우 다른 결과가 나올 수 있기 때문에(심지어 평가지표 자체도 제대로 확립이 안되어있는 영역이라고 생각한다) 직접 써보면서 느낀 나의 체감 성능에 대해서 비교해보려고한다..