뉴스 1건에 40분 걸리던 걸 파이프라인으로 바꿨어.
소재 수집 → 초안 → 이미지 → 검증 → 예약 발행.
각 단계를 쪼개서 판단할 곳과 반복할 곳을 분리했거든.
지금은 주 1회 배치로 35건 만들어.
사람이 하는 건 소재 승인과 최종 확인뿐이야.
자동화는 도구가 아니라 설계.
AI 자율화는 Agent 중심이 아니라 Task ��심이어야 한다.
Agent로 조직도 만드는 순간 비용 폭탄 + 비효율.
Task → Workflow → Work-system. 이게 진짜 AX 공식.
기업을 경영 안 해본 사람이 만든 AI 도구는 겉만 번지르르하다.
#기업AI도입 #AX전환 #CommanderOS
"ChatGPT 계정 하나 만들어놓고 다 쓰라고 해."
이 한마디가 AI 도입 실패의 시작이다.
1인기업~중견기업, 규모별로 완전히 다른 전략이 필요하다.
RAG 한국어 벤치마크 1위의 B2B SaaS 를 만든 개발자가 썼다.
👉 yes24·교보·알라딘 "기업 AI 도입 가이드" 검색
https://t.co/AXydYcFCm0
이런거 보면 중국모델들은 크게 두 가지 갈래로 나뉘는데, GLM, Minimax, kimi 쪽은 클로드 Q-A 그대로 학습데이터로 만들어서 아예 agentic work + coding으로 테크트리 올리고,
알리바바의 qwen, 바이트댄스의 seed 같은 애들은 전반적으로 멀티모달중에서도 동영상과 음성을 중심으로 테크트리를 올리는 듯.
애초에 단순 텍스트 내뱉는 LLM의 고점은 피지컬AI로 가야만 찍히는데, 그 피지컬 AI의 핵심은 바로 동영상 인식과 내뱉기, 음성 인식과 내뱉기라서 그쪽을 보는듯. 특히 드론같은거에 sLM 들어가버리면 굳이 조종하는 거 없이 거의 스마트폰 AP칩 구형만으로도 충분히 구동가능하니 자폭드론을 '셀프가동'시켜버릴 수가 있어서 아주 무섭겠다..
🚀 Qwen3.5-Omni is here! Scaling up to a native omni-modal AGI.
Meet the next generation of Qwen, designed for native text, image, audio, and video understanding, with major advances in both intelligence and real-time interaction.
A standout feature: 'Audio-Visual Vibe Coding'. Describe your vision to the camera, and Qwen3.5-Omni-Plus instantly builds a functional website or game for you.
Offline Highlights:
🎬 Script-Level Captioning: Generate detailed video scripts with timestamps, scene cuts & speaker mapping.
🏆 SOTA Performance: Outperform Gemini-3.1 Pro in audio and matches its audio-visual understanding.
🧠 Massive Capacity: Natively handle up to 10h of audio or 400s of 720p video, trained on 100M+ hours of data.
🌍 Global Reach: Recognize 113 languages (speech) & speaks 36.
Real-time Features:
🎙️ Fine-Grained Voice Control: Adjust emotion, pace, and volume in real-time.
🔍 Built-in Web Search & complex function calling.
👤 Voice Cloning: Customize your AI's voice from a short sample, with engineering rollout coming soon.
💬 Human-like Conversation: Smart turn-taking that understands real intent and ignores noise.
The Qwen3.5-Omni family includes Plus, Flash, and Light variants.
Try it out:
Blog: https://t.co/yuSAz3DuO8
Realtime Interaction: click the VoiceChat/VideoChat button (bottom-right): https://t.co/nnAW9ZfRet
HF-Demo: https://t.co/rLsqejKgCG
HF-VoiceOnline-Demo: https://t.co/LIGtmITeSw
API-Offline: https://t.co/lNE7fH5YUt
API-Realtime: https://t.co/9A3lopXGwV
CommanderOS 만들면서 셋 다 쓰고 있는데,
코딩은 Claude/Gemini, 터미널은 GPT, 분석은 Gemini가 답.
1년 전 월 10만 원 들던 게 지금 3만 원이면 된다.
세 모델 다 싸졌다. 가격 격차가 줄어서 이제 진짜 차이는 용도별 특화.
하나에 올인 말고 용도별로 나눠 써라.
#AI모델비교#1인기업 #AI자동화
2026년 3월, AI 모델 Arena 1위와 7위 차이가 Elo 24점이다.
Claude 4.6: 코딩 1위 (SWE-bench 80.8%) — Gemini와 0.2%p 차이로 사실상 동률
Gemini 3.1: 추론 1위 (ARC-AGI-2 77.1%)
GPT-5.4: 터미널 1위 (Terminal-Bench 75.1%) — Arena는 7위
가격 격차 축소.
Gemini $2 vs GPT $2.50 vs Claude $5 (1M 토큰)
https://t.co/X4vgpw72cb
"AI가 돈이 되느냐"
이 질문의 유효기간이 끝났다.
OpenAI 33조.
Google AI 258% 성장.
Anthopic 기업 AI 신규 지출 73%.
AI 시장은 "될까?"에서 "얼마나?"로 넘어갔다.
당신의 경쟁사는 이미 쓰고 있다.
https://t.co/yykZFY5ORt
#OpenAI#AI시장#ChatGPT
그래서 IPO를 한다.
예상 기업가치 400~600조원.
Anthopic 80조, Meta AI 투자 175조.
공개 시장에서 자금 안 모으면 이 레이스를 못 버틴다.
비영리→영리 전환도 끝났다. 법적 장벽 제거.
다만. 33조를 벌면서도 아직 적자다.
GPU 값이 그만큼 크다.
🚨 BREAKING: CHINA just released a Python framework for building AI agents. 100% OPEN SOURCE.
It has visual agent design, MCP tools, memory, RAG, and reasoning. All built in. All working together.
It's called AgentScope.
You describe your agent system. It builds the architecture, wires the tools, and runs the whole thing. You come back and there's a working multi-agent pipeline. Not a prototype. Not a demo. The actual system.
Not a wrapper.
Not a chatbot builder.
A full Agent-Oriented Programming framework that thinks in agents from the ground up.
Here's what it does out of the box:
→ Visual agent builder so you design your entire system before writing a single line of code
→ Native MCP tool support, plug any external tool directly into any agent in your pipeline
→ Built-in memory so every agent remembers context, decisions, and history across sessions
→ RAG pipeline ready to connect your own documents, databases, and knowledge bases
→ Reasoning modules that let agents plan, reflect, and self-correct without human input
→ Multi-agent coordination so your agents collaborate as a system, not a pile of isolated API calls
Here's how it thinks:
You define your goal. AgentScope maps the agent roles. Each agent gets its tools, its memory, its reasoning layer. They coordinate. Results flow back up. You get a finished output.
A single complex task might route through a planner agent, a researcher agent, a coder agent, and a critic agent, each doing its job, then converge into one clean deliverable.
Here's the wildest part:
AgentScope is built by Alibaba DAMO Academy. The same lab behind Qwen. They didn't assemble this from existing pieces. They designed the entire framework from first principles around how agents actually need to think, remember, and work together. Most frameworks give you building blocks. AgentScope gives you an architecture. The community has already started plugging it into data pipelines, research workflows, and full automation systems the team never planned for.
100% Open Source. Apache 2.0 License.
@archi_gent 이게 보니까 kimi k2.5 를 적절히 훈련시켜서 한 거라고 하더군요 ㅎㅎ kimi k2.5가 뭔가 그래도 GLM 5 랑 비교하면 좀 비벼볼만한 괜찮은 애였던 것 같은데, 그래도 어디 나사빠진 것 같더니 Cursor랑 협업하면서 강화됐다면 솔직히 좀 궁금한데요??ㅎㅎ
Goldman Sachs: AI가 전 세계 3억 개 일자리에 영향. 하지만 실제 완전 대체는 6-7%.
미국 기준 노동시간의 25%를 AI가 처리 가능. 법률, 행정, 건축이 가장 큰 타격.
AI가 일자리를 빼앗는 게 아니라, AI를 쓸 줄 아는 사람이 못 쓰는 사람의 일자리를 가져가는 구조.
https://t.co/ANEelxl8tb