Hey #ICLR2026, We're in Rio!
Today we're presenting Huxley-Gödel Machine on the Oral 1C session (10:30 am-12, room 202 A/B.
Apart from that, we also have a poster session later at 3:15 pm in Pavilion 3!
Wczorajsza Nagroda Turinga dla współtwórców Kryptografii Kwantowej i algorytmu BB84, Charlesa Bennetta i Gillesa Brassarda (moje gratulacje!) zaskakująco pomija Artura Ekerta, twórcę algorytmu E91, o wiele ciekawszego z perspektywy fizycznej, a zarazem pozbawionego poważnej luki bezpieczeństwa tkwiącej w BB84 (device-dependence).
W Nagrodach Nobla pomijano wcześniej Wolszczana za odkrycie planet i Trautmana za fale grawitacyjne. Może czas się ocknąć i zacząć wyciągać wnioski co do roli lobbowania, pełniącego zasadniczą rolę w przyznawaniu tego typu dekoracji naściennych.
Looking for a book to keep you occupied on those dark winter evenings? Try out the beautiful, 200 pages-long theory paper on Multi-Agent Universal AI by my amazing colleagues at Paradigms of Intelligence
Bardzo merytoryczna i wyważona rozmowa na temat sztucznej inteligencji, świadomości, reinforcement learningu, praw skalowania, sieci neuronowe a mózg z dr hab. @PiotrRMilos (Uniwersytet Warszawski, Google). Polecam
https://t.co/DFTlCsqGps
Został mistrzem świata w programowaniu. Zrezygnował jednak z kariery w amerykańskim Google, by wrócić do kraju i uczyć młodych Polaków! Wrócił i stworzył tu jedną z największych firm robotycznych w Europie, Nomagic. Do dziś zebrał 74 miliony $ finansowania. Ich roboty działają w kilkunastu miejscach w Europie. Warta dziś setki milionów $ firma z Polski stara się odpowiedzieć na największe wyzwanie tego sektora: jak nadać robotom zmysły.
Marek Cygan pokonał kilkadziesiąt tysięcy osób konkurencji wygrywając najważniejszy w tamtym okresie na świecie konkurs programistyczny - Google Jem. Został mistrzem świata w programowaniu zespołowym pokonując tysiące osób konkurencji z całego świata. W wieku 33 uzyskał habilitację z informatyki, zaraz później zostając profesorem uczelni. Ojciec polskich olimpijczyków informatycznych prof. Jan Madey na pytanie z kim powinien przeprowadzić wywiad o przyszłości, bez chwili namysłu powiedział mi - Marek Cygan. Tak się stało. Bohaterem mojej książki „Tytani” jest Marek Cyfan. Marek łącząc robotykę i AI rozwija w Polsce firmę, wspierając nasz sektor technologii. Rozmowa w „Tytanach” to rozmowa o zmysłach. Rozmowa o przyszłości. Marku rozmowa z Tobą to zaszczyt. Każdemu polecam książkę w komentarzu. Tacy ludzie jak Marek dziś zmieniają ten kraj.
Tytani: https://t.co/sSGjNoWiNm
📜Is Temporal Difference (TD) learning the gold standard for stitching in RL? 🪡
Conventional wisdom suggests that TD methods are crucial for piecing together short-term behaviors to solve long-horizon tasks. But does it hold when using function approximation?
🚨Time to let agents code themselves! Meet Huxley-Gödel Machine (HGM), a game changer in coding agent development🚨
[🤖vs.🧑💻]HGM evolves by self-rewrites to match the best officially checked human-engineered agents on SWE-Bench Lite despite being optimized on a different dataset.
🚀 Excited to announce our paper "Balancing Expressivity and Robustness: Constrained Rational Activations for RL" will be an *oral* at #CoLLAs2025!
We study how trainable rational activations boost expressivity in RL but can also harm stability:
Want the deep dive? Check the paper on arxiv: 2506.01562
Moral of the story? Stop tuning LR first—experiment with temperature today. And if you’ve seen temp save (or ruin) your model, share below! 👇
1/7 If Andrew Ng is right that the LR is the most important ML hyperparam, it's got some competition! We show that the softmax temperature is a game-changer in crafting NN representations. Often overlooked, it quietly governs generalization, collapse, and compression. A thread 👇
Excited to present JaxGCRL at ICLR 2025 (spotlight):
📍Hall 3 + Hall 2B, Poster #422
🗓️Friday, April 25
🕒3:00 PM – 5:00 PM
I'm also happy to grab a coffee and chat about anything related to RL, robotics, or continual learning!
I will be presenting two posters at ICLR that outlines an optimization perspective on loss of plasticity. Come check them out on Thursday and Friday @ 10am.
Also, feel free to reach out to chat about continual, meta and/or reinforcement learning.
🔥 New ICLR 2025 Paper!
It would be cool to control the content of text generated by diffusion models with less than 1% of parameters, right?
And how about doing it across diverse architectures and within various applications? 🚀
🫡 Together with @lukxst, we show how:
🧵 1/
🚀 What happens when you modify the spectrum of singular values of the merged task vector? 🤔
Apparently, you achieve 🚨state-of-the-art🚨 model merging results! 🔥
✨ Introducing “No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces”
I am thrilled that Accelerating Goal-Conditioned RL Algorithms and Research was accepted to #ICLR2025! 🚀
And shoutout to amazing @axlewandowski, who led the Learning Continually by Spectral Regularization paper!
Looking forward to exciting chats about RL in Singapore 🇸🇬