We are offering grants of $100,000 + Tinker credits to researchers advancing the field of human-AI interactivity. Submit your proposals by June 19th!
https://t.co/907HfBy7g3
Before the week ends, let's acknowledge one of the most INSANE week ever for open AI, with 25+ notable open-weight drops across every modality:
🧠 LLMs
→ NVIDIA Nemotron 3 Ultra: 550B hybrid Mamba-MoE, only 55B active, 1M context, MMLU 89.1. NVFP4 variant claims ~5x throughput on Blackwell. First openly-weighted 550B hybrid Mamba-Transformer, closing the gap with frontier closed models.
→ Google Gemma 4 12B: fully open dense any-to-any (text/image/audio/video), 256k context, encoder-free, 140+ languages, AIME 2026 at 77.5. Shipped with a 23-checkpoint QAT wave (mobile ONNX + MLX). Most deployable model of the week.
→ StepFun Step-3.7-Flash: 198B sparse MoE VLM, ~11B active, SWE-Bench PRO 56.3. Apache 2.0.
→ Liquid AI LFM2.5-8B-A1B: edge MoE, just 1.5B active, 128k ctx, MATH500 88.8, MLX-ready. Best on-device option this week.
→ JetBrains Mellum2-12B-A2.5B-Thinking: their first open MoE, near-Qwen3-14B coding at 2.5B active. Apache 2.0.
🎨 Image gen (the surprise of the week)
→ Ideogram 4: their FIRST-EVER open weights. 9.3B flow-matching DiT trained from scratch. #2 overall behind GPT Image 2, top open-weight model on Design Arena + LMArena. Strongest open checkpoint for text-rich images, full stop. It has taste. Still can't believe this is open weights.
🔊 Audio & Speech (a breakout week for open TTS, 4 labs shipped)
→ Boson Higgs Audio v3 4B: 102 languages, 21 emotions, singing/whispering/shouting, sub-second TTFA.
→ RedNote dots.tts: the only fully continuous (no codec) open TTS pipeline, Apache 2.0.
→ Google Magenta RealTime 2: real-time music gen, <200ms latency, text+audio+MIDI. multimodalart ported it to PyTorch within hours with live ZeroGPU demos.
→ NVIDIA Nemotron-3.5 ASR: 600M streaming, 17x more concurrent streams vs Parakeet RNNT 1.1B.
👁️ Vision & VLMs
→ PaddleOCR-VL-1.6: SOTA document parsing at 1B params, Apache 2.0.
→ Baidu NAVA: 6.3B joint audio-video gen, best-in-class A/V sync, Apache 2.0.
🎬 Video, 3D & World Models
→ NVIDIA Cosmos3-Super: 64B omnimodal world model coupling action trajectories with video+audio gen, for Physical AI.
→ JD JoyAI-Echo: up to 5-min multi-shot text-to-video on LTX-2.3.
→ ByteDance Bernini-R + VAST TripoSplat (single-image-to-3D Gaussian splats, MIT).
OpenClaw is a great idea. But it's missing multiplayer for teams.
That's why I built heypi, a lightweight TypeScript framework on top of Pi that lets your whole team chat with agents in Slack, Discord, etc.
Everything you expect (memory, skills, tools) plus stuff teams actually need:
- Sandboxed execution (just-bash, Docker, or full MicroVMs via Gondolin).
- Approval flows. Tools can require in-chat approval from specific users.
- Durable threads, scoped memory, audit logs, admin UI, and more.
Real example: A DevOps agent that investigates incidents, SSH into servers, runs diagnostics… but requires approval from the DevOps team before any risky commands (DB changes, package installs, deploys). That's actually what I built this for initially.
Give it a try: `npm create heypi@latest`
https://t.co/jYVDW6PEUz
Today we're shipping Nemotron 3 Ultra.
A 550B MoE frontier-intelligence open model built for long-running agents.
It delivers 5x faster inference and lowers the cost of complex agentic tasks by up to 30% versus other open frontier models.
Today we're releasing our first iteration of Gemma skills
It provides guidance and resources for agents building Gemma-powered applications, from MTP to device requirements. Making it even easier to build with Gemma! 💎
https://t.co/BUsKitxuUQ
We are proud to continue our collaboration with @nvidia with support for thier NVIDIA RTX Spark Laptop. Strengthening our support to support OpenShell and @Microsoft Security Primitives.
Building ontop of our earlier work with NemoClaw and our existing fully-native Windows support.
سألت نفسي: هل يمكن تطوير إطار عمل مشابه، لكن بدلاً من تطوير مهارات الذكاء الاصطناعي، سيحاول الذكاء الاصطناعي تطوير مهاراتي أنا في موضوع محدد؟
على سبيل المثال: أريد أن اتعلم موضوع مثل الحوسبة الكمية Quantum Computing and Quantum Algorithms
وسيكون الذكاء الاصطناعي مرشدي في هذه الرحلة، لا أريد نقاش مفتوح مثل مايحدث مع ChatGPT، بل أريد نظام تعليمي منضبط، يُقسم فيه الذكاء الاصطناعي الرحلة التعليمية إلى مواضيع صغيرة بحسب الوقت المتاح لي (15 دقيقة مثلاً)، يقدم لي محتوى مناسب ويفهم الذكاء الإصطناعي الثغرات المعرفية ويسمح لي بالنقاش ثم يختبر الذكاء الاصطناعي فهمي ويبني الدرس التالي بناء على هذه المعطيات ..
طلبته أن يكون المحتوى والأسئلة والتعليقات كلها في ملفات html حتى يسهل قراءتها، وأقوم أنا بتعديل الملف بشكل يدوي لإضافة أسئلتي وإجاباتي ..
كذلك طلبت من الذكاء الاصطناعي أن يضيف رقم مرجعي لكل سطر بحيث يسهل علي الإشارة للسطر عندما أريد أن أسأل عن شيء محدد ..
استخدمت gpt 5.5 pro لتطوير هذه المهارة وأسميتها LearnOpt Skill، مستوحاة من SkillOpt لكنها موجهه لتطوير مهارة المستخدم وليس الآلة، ثم استخدمت opus 4.8 من خلال Claude Code لاستخدام المهارة وتشغليها،
صار لي ثلاثة أيام استخدمها، والنتائج مبهرة ..
وقريبة من شكل التعلم والتعليم المستقبلي الذي أتخيله ..
رفعت ملف skill.md على حسابي في Github:
https://t.co/PMFuuHlDMM
Introducing Decree MCP: Connect Claude, Harvey, or your own in-house AI to Oman's most comprehensive, up-to-date legislation database. Learn more here: https://t.co/Q3ec1RD3Yu
@mznmel قد تلعب الترجمة الحرفية دورا إضافيا هنا (التوظيف والوكيل في نفس السياق وارتباطهما بثقافة العمل). محو الأمية في هذا المجال أساس التحول في تنفيذ وإدارة الأعمال في عصر الذكاء الاصطناعي.
✍️ Digital ID, payments, & data exchange should be treated as public infrastructure, not siloed IT projects.
@daeaves, @DianeCoyle1859, & @2biavas argue governments must build shared digital foundations to avoid fragmentation.
🔗 Read their article here: https://t.co/UuRCiQxfgS
I think I will add MCP support next.
That will open up a new universe of agentic projects to plug this RLM into.
There are some engg challenges with the current sandbox implementation that is likely to cause me a headache though.
Also, repo about to reach 350 stars!
RWKV-7 G1g is here: the world's best pure RNN LLM, and a competitive LLM in general. Try https://t.co/k0AivnxCwP for bsz16 7B inference. G1h in June 🙂 p.s. const 15000+tps decoding on single 5090: https://t.co/pHP6bXITjQ