memory is not chat history
real memory is selective
an agent shouldnt keep everything it sees
it should keep what survives importance, time, and use.
thats the idea behind Brain
live interaction -> short-term buffer -> authorized idle window -> consolidation and ranking -> future session retrieval
this is not storage, it is just Memory
https://t.co/VRTpiqJFA3
🔥 한국 개발자가 만든 오픈소스 Ouroboros, Claude Plan Mode를 제치고 AI 시뮬레이션 벤치마크 1위 석권!
한국 개발자 @Q00_ (shaun0927)이 만든 Ouroboros가 최근 공개된 “AI-assisted discrete-event simulation” 벤치마크에서 전체 1위를 차지했습니다. 그것도 Claude Max + Plan Mode를 같은 환경에서 앞지르고요.1
이 벤치마크는 단순 코딩 테스트가 아닙니다. 광산 운송 시스템을 대상으로:
•시스템 구조 이해 (트럭, 적재/하역 지점, 경로, 대기열 등)
•현실 복잡 과정을 discrete-event simulation으로 추상화
•이벤트·상태·지표 설계
•실행 가능한 시뮬레이션 코드 구현
•병목·처리량·대기시간 분석
•topology diagram + 실제 애니메이션까지 생성
이런 고난도 end-to-end 능력을 평가하는 실전형 과제였어요.
Ouroboros는 Claude Code 안에서 workflow로 실행됐고, MCP server가 실패하는 상황에서도 skills 기반 fallback으로 복구하면서 최고 성적을 냈습니다. 이게 진짜 핵심이에요.
왜 Ouroboros가 이겼나?
•단순 “많은 지침 + fat skills” (superpowers 스타일)는 오히려 Plan Mode보다 성능 떨어짐
•문제 정의 → 계획 → 실행 → 평가 → 복구를 구조화한 워크플로우가 압도적 우위
•“Stop prompting. Start specifying.” 철학 그대로: 모호한 프롬프트 대신 Socratic interview로 spec을 명확히 crystallize하고, immutable seed spec으로 drift 방지, 3-stage evaluation gate로 검증
GitHub: https://t.co/VqKEeDJ2Cq
이 프로젝트는 단순 AI 코딩 도구가 아니라 Agent OS예요. 비결정적인 에이전트 작업을 replayable하고 observable하며 policy-bound한 실행 계약으로 바꿔줍니다. Claude Code, Codex CLI, OpenCode, Hermes 등 다양한 런타임 지원.
한국 개발자가 Anthropic의 기본 Plan Mode를 이겼다는 사실 자체가 자랑스럽지만, 더 중요한 건 앞으로 AI 에이전트가 실제 복잡 문제를 풀기 위해 어떤 구조를 가져야 하는지를 보여준 실험 결과라는 점입니다.
실제 환경에서는 항상 실패가 발생하죠. 그때 어떻게 복구하고 다른 경로로 가느냐가 승패를 가릅니다. Ouroboros는 그걸 증명했어요.
이런 오픈소스가 더 많이 나와야 AI 에이전트 시대가 진짜 열릴 것 같습니다. 🇰🇷
#Ouroboros #Claude #AI #OpenSource #한국개발자 #AgentOS #DiscreteEventSimulation
당신의 로컬LLM이 멍청하다고 생각된다면:
하네스를 체크하세요.
Claude Code, GPT Codex는 잘 만들어진 완성된 하네스입니다.
이런 하네스를 사용하는것만으로도 엄청난 성능 차이가 발생합니다.
@NousResearch 의 Hermes Agent를 사용하고, Skills를 세팅하는데 시간를 사용하세요.
아무래도 오픈클로가 폼이 많이 떨어진 것 같습니다.
헤르메스가 계속해서 치고 올라오는데
대략적으로 아래와 같은 이유인 것같습니다.
1. 재귀적 메모리 개선이 헤르메스 압승
2. 팀단위가 아니라 엔터프라이즈에서 관리
3. 엔터프라이즈에서 스킬을 생성하 신뢰도 상승
4. 개발팀장 및 회사의 응답과 대응이 매우 빠름
5. 일일히 깃헙에서 복붙하는 것 보다는 자체적으로 업데이트
해서 귀찮음이 덜함
확실히 오픈클로를 쓸 때보다는 에러와 응답이 빠르다는 것을
느낄 수 있는데. 어찌 됐든 예상보다 손바뀜이 빠르네요
저도 Hermes로 완전히 자리잡았습니다. 작성된 대부분의 장점이 저에게 잘 맞습니다. 더욱이 사용하는 패턴으로 스칼을 자동 생성, Honcho 지원, 독립된 에이전트 실행환경 등 잘쓰고 있습니다.
그리고 CLI 중심이라고 하셨지만, 사실 오픈클로와 차이가 없는게, 모두 텔레그램, 디스코드 지원합니다
Hermes vs OpenClaw: 실제 사용자 경험 비교
많은 분들이 최근에 더 에르메스로 넘어오시길래...한 번 이미 정리했지만, 다시 한 번 여기에 요약해두려 함.
둘 중 하나를 선택하고 다른 곳으로 다시 넘어가는 것이 얼마나 짜증나는 일인지 알기 때문에, 신규 진입하는 분들은 신중하게 고르시고, 이미 오픈클로 운용중인 분들은 원래 있는 내용들을 지우지 마시고, 문제가 있으면 재이주할 준비를 하시고 세팅하는 것을 추천합니다.
핵심 차이점
OpenClaw: Telegram-FIRST 인터페이스
Hermes: CLI-FIRST 인터페이스
1. Telegram 내 응답성
OpenClaw가 더, 솔직히 많이 반응이 빠르고 자연스러움. Telegram-only 로 사용하는 경우 불필요하게 Terminal 을 열 필요가 없음.
Hermes는 Telegram 에서도 작동하지만, CLI 가 더 최적화되어 있다는 느낌이 강하게 듦. 뭔가 오픈클로에서 당연스럽게 작동했던 동작들이, 구체적인 세팅을 하기 전에 작동하지 않는 모습을 자주 봄. 가끔 이유없이 대답을 안하기도 하는데, 이 이슈는 아직도 풀지 못함.
2. 투명성 및 내부 가시성
Hermes 가 "무엇을 하고 있는지 보여주는 것"에서 압도적 승리:
- 실시간으로 모든 작업 로깅
- 복잡한 작업에서 중요한 포인트:
- 무엇을 읽는지 (파일, 코드베이스)
- 무엇을 검색하는지 (session_search, search_files)
- 어떤 추론을 하고 있는지
- 에러가 발생하면 어디서 발생했는지
OpenClaw: 내부 프로세스가 보이지 않음. "작업이 시작되고 완료됨"만 알려줌. 중간 과정을 추적 불가.
3. 중단 및 제어 기능 (Interruption Capability)
Hermes:
- 작업 중 중단 가능
- 실행 과정에서 사용자 입력 수용
- 새로운 피드백에 따라 목표를 재조정
- true multi-turn collaborative workflow
OpenClaw: 일단 기본적인 중단 지원이 제한적. 한 번 시작되면 먼저 시작된 일이 끝나지 않은 이상 경로 이탈 어려움.
4. 컨텍스트 관리 (작업 기억력)
Hermes:
session_search 로 컨텍스트 지속성 제공:
- 이전 세션 검색 가능 ("what did we work on")
- 메모리 (persistent memory) 에 중요한 정보 저장
- 작업 연속성 확보
OpenClaw: 기본적인 기억 메모리는 컨텍스트 유지가 덜 명확. 각 작업이 상대적으로 독립적임. 최근 램수면이 도입되면서 좀 나아지긴 함.
5. 상태 관리 및 에러 처리
Hermes:
- 명시적 상태 관리
- 에러 로깅 체계적 (RPC 재시도, rollback)
- R2 Dashboard, Command Center 를 통한 모니터링
- 명확한 error handling 규칙 (시용하기, rollback, alert)
OpenClaw: 상태 관리가 덜 명시적. 에러 처리 정보가 더 적음.
6. 진입장벽
Hermes:
- 진입장벽이 높음 (CLI, 상태 이해 필요)
- 한 번 익숙해지면 좋음
- 복잡한 작업 처리에 최적화
OpenClaw:
- 진입장벽 낮음 (채팅 기반)
- 간단한 작업에 적합
- 복잡한 작업 시 제한적
데스크톱 사용자, 동시 다중 작업 (5개 이상 LLM)을 밥먹듯이 하는 사람, 일상적으로 CLI에 익숙한 사람, 파워유저, 상태관리가 필요한 사람: Hermes by @NousResearch
Telegram 혹은 기타 메신저 사용자, 비개발적 사용자, 채팅 기반 워크플로우, 간단한 작업, 빠른 결과가 필요한 사람: @OpenClaw
반드시라고 할 필요는 없지만, 위의 내용은 간단하게 참고하긴 좋을 것이라고 생각합니다 :)
혹여...저렇게 굳이 터미널 주르륵 켜놓을거면 코덱스랑 클로드 키면 되지 않냐고 할 수 있는데, 그건 그렇지는 않음. 클로드, openai, qwen, 로컬모델 등을 한 플랫폼에서 돌리는 것은 분명 접근성 면에서 개이득인 점들이 있음.
하루종일 써보고 좋았던점
1. 작업 내역을 상세히 보여줘서 배우는 점이 많다.
2. CLI 초기 설정이 잘 구성되어 있다.
3. Honcho를 지원하는데 (어제 첨 써봄) 클로드 채팅 내역을 모두 넣어주니, 그동안 작업이나 나에 대한 정보를 아주 잘 파악해준다.
4. 반복작업은 스킬로 만들어준다.
며칠전부터 자꾸 Hermes 에이전트에 신경이 쓰인다.
사실 OpenClaw가 좀 더 오래 시장을 장악할 줄 알았는데, 아직 검증은 안됐지만 강력한 경쟁자가 들어온 것 같다.
미국에 NousResearch라는 팀이 있다. Nous Research는 오픈소스 AI 분야에서 가장 앞서가는 스타트업/연구 팀 중 하나이고. 사용자가 직접 제어할 수 있는 “user-aligned(사용자 정렬)” 모델로 큰 주목을 받고 있다.
그들이 만든 Hermes Agent가 89개 실제 작업 테스트에서 Claude Code와 OpenClaw를 앞질렀다. 점수만 높은 게 아니라 "바닥"이 높았다. 매번 더 많은 작업을 안정적으로 완료했다는 뜻이다.
그럼 왜 그런 결과가 나왔을까? 핵심은 하네스다.
하네스는 AI 모델을 감싸는 틀이다. 같은 Opus 4.6이라도 어떤 하네스에 넣느냐에 따라 결과가 달라진다. Hermes의 주장은 "우리 모델이 더 좋다"가 아니다. "같은 모델을 더 잘 쓰는 구조를 만들었다"는 거에 의미가 있다.
그 구조의 핵심은 학습 루프라는 핵심 기술이다.
Claude Code는 매번 새로 시작한다. OpenClaw는 MEMORY.md로 기억을 수동 관리한다. 기억을 유지하게 셋팅을 하는 것은 여전히 인간 몫이다.
Hermes는 시스템이 조금 다르다. 복잡한 작업이 끝나면 에이전트가 자율적으로 재사용 가능한 스킬을 생성하고 저장한다. 뭘 기억할지, 뭘 스킬로 만들지 에이전트가 스스로 판단하는 구조다.
공식 설명 그대로 "built-in learning loop", "autonomous skill creation", "skills self-improve during use." 인간이 아무것도 안 해도 에이전트가 점점 영리해진다.
커뮤니티에서는 Hermes를 "Claude Code 스타일 CLI와 OpenClaw 스타일 메시징 에이전트의 중간"으로 부르기도 한다. 둘 다 되려 한다는 뜻이다. 터미널에서도, 텔레그램에서도, VPS에서도. v0.2.0 출시 이후 빠르게 스타 10,000개를 넘겼고, 현재 22,000개를 돌파했다.
개인적으로도 이 전략은 영리하다고 생각한다. 사람들은 "3% 더 똑똑한 모델"보다 "나를 기억하는 에이전트"라는 스토리에 더 끌린다. Hermes의 슬로건 "The agent that grows with you"는 성능이 아니라 나와 에이전트의 관계를 판다.
AI 에이전트의 다음 전쟁터는 모델 성능이 아니다. 얼마나 빠르게 배우고, 얼마나 오래 기억하느냐가 아닐까?
그리고 개인 맞춤 에이전트 브랜드가 점점 다가오는 느낌이다.
나도 오늘 한번 설치하고 돌려보려고 한다.
알렉스 카프가 AI로부터 안전하다고 언급한 두 집단
1. 기술직 / 직업 기술 노동자
(전기 기술자, 기술자, 정비사, 건설 노동자 등)
2. 비전형적 인지특성 가진 사람들
(ADHD, 자폐, 난독증 등이 있는 사람들)
: 이들은 사고 방식이 다르고, 문제를 비정형적으로 해결할 가능성이 있기 때문임
결론 : 예측 가능한 패턴 작업은 AI에 대체되고, 물리적 비정형적 문제 해결은 인간이 유리함. 범생이보다는 또라이가 되는게 생존에 더 유리할 수도.
프로불편러 에이전트를 추가해봤슴다
먼저 프로불편러에게 목표를 딱 하나 정해놨슴다
그리고 UX 유저 관점으로
무조건 부정적으로 비평하고 절대 칭찬하지 않게 만들고
자고 일어났더니..
한 50개 정도 이슈를 등록했고
버그도 찾아줘서 다 수정됐네유 ㄷㄷㄷㄷ
효과가 되게 좋은 것 같은데
클로드 2배 이벤트 하니까 잘 활용해도 좋을 것 같네유