Introducing Agents-A1, A 35B MoE agentic model built for long-horizon tasks across search, engineering, scientific research, instruction following, and tool calling.
🤖 https://t.co/Xkm6OJ3Ivf
📚 256K context length + �� Agentic reasoning
🏆 Reaches SOTA results on long-horizon search, scientific research, and instruction-following benchmarks, with competitive results among 35B-class models.
🛠️Supports function calling and tool integration, enabling interaction with APIs, code interpreters, search engines, and other external tools.
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding.
Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense, 35B MoE, and 397B MoE. It achieves state-of-the-art performance among open-source models of comparable size on coding benchmarks including:
✅Terminal-Bench 2.1(77.5)
✅SWE-Bench(82.4 on verified, 62.2 on pro, 78.9 on Multilingual)
✅NL2Repo(48.2)
✅SWE Atlas(41.2 on QnA, 42.6 RF, 39.1 TW)
✅ClawEval(77.1)
Post-trained on top of gemma4 and qwen3.5, Ornith-1.0 employs a novel self-improving training strategy in which reinforcement learning is used to generate not only solution rollouts, but also the task-specific scaffolds that drive those rollouts. By jointly optimizing the scaffold and the resulting solution, the model generate higher-quality solutions in agentic coding.😎
All models are released under the MIT license, enabling full commercial and research use.
📖Tech Blog: https://t.co/qT9N2HYWFn
🤗Huggingface: https://t.co/PRrwqjeBtM
Qwen-AgentWorld just dropped two releases on ModelScope! An open 35B total / 3B active MoE world model with 256K context, plus a 7-domain benchmark grounded in real environment observations. 🚀
🔗 https://t.co/Cv7pJCiM8s
Qwen-AgentWorld-35B-A3B
🌍 One model for 7 agent environments: MCP, Search, Terminal, SWE, Web, OS, and Android
🧪 47.73 → 56.39 on AgentWorldBench, surpassing Claude Sonnet 4.6 at 56.04
🧠 Three-stage training: CPT injects environment knowledge, SFT activates next-state prediction reasoning, and RL sharpens simulation fidelity
AgentWorldBench
🛠️ Covers 7 domains with 2,170 samples and 22.8 average turns
🔎 Scores predictions on format, factuality, consistency, realism, and quality
@jun_song Control de la narrativa + acuerdos entre las grandes y gobierno, posiblemente con los niveles alcanzados de cara al público podrían pensar en ralentizar los lanzamientos al público.
Los pequeños modelos locales incluso con una cuantizacion agresiva puestos en un arnés decente que los guíe correctamente pueden lograr resultados aceptables
Modelo: qwen3.6 27b Q3
Arnés: creación propia
Turnos: oneshot
#qwen#localAI#test
Juego creado por un qwen3.6 27b Q3..corriendo sobre mi propia creación de arnés..
Prompt simple sin lenguaje técnico...
Resultado simple pero atractivo.
Los modelos locales pequeños también pueden realizar sus malabares (*^ω^)
@sudoingX Personalmente usando un 27b Q3..en un arnés de mi creación y para mis casos de uso va bien, no puedes pedir nivel de opus o fable o glm 5.2 es una tontería..pero realmente para tareas del día al día la mayoría necesita nivel opus 4.8 o fable/mythos?
@jun_song Posiciones encontradas...comienza con un bien legítimo que puede ser deformado rápidamente hacía vigilancia estrecha incluso de actividades no maliciosa. Los casos de uso son realmente un océano buenos y malos
@ndremendezb Premios? Como una rtx5090 o una mac de 128gb de memoria unificada?
Tengo un proyecto enfocado en IA agentica y lamentablemente me falta poder de computo para correr un buen modelo local (*^▽^)/★*☆♪
Prueba #2 arnés de mi creación + qwen3.6 27b Q3
Zero Shot, prompt vago sin mayores especificaciones técnicas que el agente puede optar por mejorar sin intervención del usuario.
Todo en una rtx5080 con contexto máximo para esta ocasión de 30k
45 tok/s
Resultado..
(*^ω^)
Pequeño juego básico~ pero bastante funcional creado en zero shot por un qwen3.6 27b Q3
(Debo aclarar eso si que esta montado sobre el módulo de code de un arnés de mi autoria)
(*^▽^)/★*☆♪
@perplexity_ai Max max max, es una pena..no aporta algo relevante para los usuarios que tienen resuelto un arnés propio con ese tipo de construcción o incluso potenciada, posiblemente sea "novedoso" para quienes no trabajen su propio sistema de memoria..
@jun_song Nada como contar con tu propio agente de IA local segun las capacidades del hardware de cada quien pero con 24gb de VRAM puedes ajustarte a algunos buenos modelos como los qwen..en mi caso continuo con mi qwen3.6 27b