mythos will be bad ON PURPOSE on ai "frontier llm research" tasks, this is very very sad for the research community
also the fact that this is un purpose not visible to the user is crazy
@daniel_nguyenx@garrytan True, but you learned a lot through it and this knowledge probably still has an influence on how you develop new products. You do you - not what clanker says😀
"AI masowo degraduje kod" - taki wniosek można wyciągnąć z nowego benchmarku SWE-CI. Zanim jednak okrzykniemy to przekazem dnia, warto spojrzeć na chłodno, czego to badanie faktycznie dowodzi, a w czym drastycznie mija się z rzeczywistością programowania z AI.
Co badanie faktycznie udowadnia?
✅ One-shoty to pułapka: Dotychczasowe testy (np. SWE-bench) oceniały modele na podstawie jednorazowych, punktowych rozwiązań. SWE-CI trafnie obnaża, że modele mogą napisać kod różnej jakości i tak samo zaliczyć testy, podczas gdy różnica w długoterminowym utrzymaniu (maintainability) jest ogromna.
✅ Pełna autonomia generuje dług techniczny: Badanie symulowało średnio 233 dni ewolucji kodu i 71 commitów. Gdy zmusimy modele do wielomiesięcznej pracy w całkowitej izolacji, robi się bagno. Wskaźnik utrzymania kodu bez żadnej regresji dla większości modeli wynosi poniżej 0,25. Chlubnym wyjątkiem są modele Claude Opus, które przekroczyły próg 0,5.
Gdzie tkwi haczyk w interpretacji "AI psuje kod"?
👉 Brak człowieka w pętli: Badanie z założenia eliminuje czynnik ludzki. Opiera się na zamkniętym protokole dwóch współpracujących botów (agenta-Architekta i agenta-Programisty).
👉 Zignorowanie realiów: Nikt dzisiaj nie deleguje wielomiesięcznego utrzymania produkcyjnych projektów dwóm botom gadającym ze sobą w pętli, bez żadnego nadzoru.
Świadome programowanie z AI to praca w paradygmacie spec-driven development. AI przejmuje większość implementacji, ale to my definiujemy ramy, podejmujemy decyzje architektoniczne i robimy code review.
Wyniki modeli porzuconych samych sobie nie odzwierciedlają wartości agentów AI, z którymi programiści pracują ramię w ramię.
Kluczowe wnioski z badania?
✅ "Zielone CI" nie zwalnia z myślenia. Samo pokrycie testami nie uchroni nas przed długiem technologicznym, jeśli zaufamy AI na autopilocie.
✅ Rola programisty ewoluuje w stronę architekta. AI wykonuje czarną robotę, ale to inżynier musi trzymać ręce na kierownicy.
Czy "SWE-CI" wnosi coś przełomowego dla osób, które świadomie korzystają z pełnego potencjału AI w programowaniu? To niezłe badanie i idzie we własciwym kierunku, ale still - "szału nie ma".
Jeżeli szukasz rzeczowej analizy badań dot. programowania z AI, zapraszam do podcastu Opanuj AI, gdzie wspólnie z Przemek Smyrdek robimy to od 3 lat.
A jeśli wolisz szybki przekaz dnia bez "zbędnych" niuansów, to cóż... LinkedIn nie zawodzi 🙈
Interesting way of setting openclaw. Instead of giving it access to all your digital accounts, you make separate accounts for everything just like you would do with a real assistant.
Today I found out that Nano Banana Pro 🍌 is quite good at referencing popular characters without reference images. Prompt info like “Final Form Frieza from Dragon Ball Z” produces a quite good representation. Nice, I thought this Gemini model was more limited...😁
I'm testing Nano Banana Pro + Kling 2.6 and... I think the physics are much better than in Veo (still not perfect) but the audio support is fking hilarious😆
Nearly 40% of dementia cases can be prevented or delayed. These 10 things may lower your risk:
0. Maintain systolic blood pressure of 120 mm Hg or less in midlife from age 40.
1. Use hearing aids for hearing loss and protect your ears from high noise levels, starting at 85 decibels.
2. Reduce exposure to air pollution and second-hand tobacco smoke. The damage goes beyond your lungs, disrupting your focus/cognitive performance and damaging your liver.
3. Avoid head injury (violent sports, job safety measures, be careful generally).
4. Limit drinking to less than 1 unit a day (1 unit (8g or 10ml) is a glass of beer or a small glass of wine). Best to eliminate alcohol entirely.
5. Stop smoking, and never start if you don’t (beneficial at any age).
6. Exercise.
7. Maintain a healthy weight and good nutrition.
8. Correct vision limitations, have your eyes regularly checked and treat causes of vision disruption and sight loss.
9. Monitor for plaque and LDL cholesterol.
Introducing shadcn/create – Build your own shadcn/ui
Customize Everything. Pick your component library, icons, base color, theme, fonts and build something that doesn’t look like everything else.
Now available for Next.js, Vite, TanStack Start and v0.
do not use NordVPN for tiktok to target US Audience.
you get shadow banned instantly.
most people using cheap VPNs or residential proxies get flagged by tiktok because hundreds of others share the same ip.
you and 50,000 other people using NordVPN daily to target US audience on tiktok.... ofc tiktok know about it.
solution: host your own VPN on hetzner using Outline VPN for $5/month and takes 10 minutes.
outline (google owned) makes it easy to host your own VPN server on any cloud.
here’s how i do it:
go to hetzner .com/cloud
create a vps in the us region
cheapest plan ($5/mo) is enough
go to getoutline .org
download outline manager (for your laptop)
download outline app (for phone or desktop connection)
follow hetzner’s guide:
http://community.hetzner. com/tutorials/install-outline-vpn-server
it installs outline via docker automatically
open outline manager → add the server → create vpn keys
each key is like a password you can use on different devices
paste the key into the outline app → connect → done
tips:
always pick us/eu servers
don’t use VPNs that bill per gb traffic. Hetzner is the best bc it gives you 20TB of bandwidth/month.
DigitalOcean gives you only 5TB/month.
stay away from GCP or AWS. you will get $300/month bills only for the bandwidth.
rotate ip monthly by redeploying your server
never share vpn keys with others
this makes tiktok think your connection is a normal us home user, not a clipper using shared vpn/proxy.
Here's my 4+ hour conversation with Pavel Durov (@durov), founder and CEO of Telegram. This was one of the most fascinating and powerful conversations I've ever had in my life.
We discuss everything from his philosophy on freedom to government bureaucracies, intelligence agencies, human nature, mathematics, encryption, great engineering & design, education, family, and his philosophy on life.
It's here on X in full and is up everywhere else (see comment). It is translated and dubbed into Russian, Ukrainian, French, and Hindi.
Timestamps:
0:00 - Introduction
3:07 - Philosophy of freedom
6:15 - No alcohol
14:20 - No phone
20:16 - Discipline
41:28 - Telegram: Lean philosophy, privacy, and geopolitics
56:50 - Arrest in France
1:13:01 - Romanian elections
1:23:56 - Power and corruption
1:33:29 - Intense education
1:45:29 - Nikolai Durov
1:49:58 - Programming and video games
1:54:11 - VK origins & engineering
2:11:24 - Hiring a great team
2:20:40 - Telegram engineering & design
2:39:42 - Encryption
2:44:39 - Open source
2:49:26 - Edward Snowden
2:51:58 - Intelligence agencies
2:53:10 - Iran and Russia government pressure
2:56:19 - Apple
3:03:16 - Poisoning
3:29:28 - Elon Musk
3:35:31 - Money
3:44:23 - TON
3:54:13 - Bitcoin
3:57:12 - Two chairs dilemma
4:03:52 - Children
4:15:02 - Father
4:19:33 - Quantum immortality
4:26:05 - Kafka
We put the latest image editing models head-to-head to see which excelled in tasks like object removal, text editing, and style transfer.
Here's how they stacked up... 🧵