다양한 LLM 모델을 써본다는 게 생각보다 쉽지 않다. 벤치마크도 참고는 되는데 결국 내가 직접 느껴봐야 하고, 그러려면 같은 일을 여러 모델에 반복해서 시켜봐야 한다. 근데 이게 은근히 어렵다. 차이가 미묘하면 이게 진짜 차이인지도 잘 모르겠고.
그래서 대부분은 그냥 사람들이 좋다고 하는 모델을 몇 개 써보고 마는 것 같다. 반대로 계속 여러 모델을 써보는 사람들은 모델의 변화에 대한 감각을 조금씩 쌓아가는 느낌이고.
요즘 내가 느끼는 건, 일정 수준 이상의 모델이라면 모델 자체의 차이도 있지만 사람이 스티어링을 잘하면 결과가 꽤 비슷해지는 경우도 많다는 점이다. 그런데 Hermes 같은 에이전트 시스템을 쓰다 보면, 앞으로는 그 스티어링의 일부도 사람이 아니라 시스템이 해주게 될 것 같기도 하다.
백준 부활한다고 하니까 문득 떠오른건데
bronze는 b로 시작하는 언어 (brainf*ck?)
silver는 s로 시작하는 언어 (swift?)
...
ruby는 r로 시작하는 언어 (rust?)
이런식으로 티어마다 쓸수있는 언어 제한해서 푸는 챌린지 있음 웃기겠다 생각함
그럼 마스터는? 놀랍게도 한가지만만 가능