New art project.
Train and inference GPT in 243 lines of pure, dependency-free Python. This is the *full* algorithmic content of what is needed. Everything else is just for efficiency. I cannot simplify this any further.
https://t.co/HmiRrQugnP
I've never felt this much behind as a programmer. The profession is being dramatically refactored as the bits contributed by the programmer are increasingly sparse and between. I have a sense that I could be 10X more powerful if I just properly string together what has become available over the last ~year and a failure to claim the boost feels decidedly like skill issue. There's a new programmable layer of abstraction to master (in addition to the usual layers below) involving agents, subagents, their prompts, contexts, memory, modes, permissions, tools, plugins, skills, hooks, MCP, LSP, slash commands, workflows, IDE integrations, and a need to build an all-encompassing mental model for strengths and pitfalls of fundamentally stochastic, fallible, unintelligible and changing entities suddenly intermingled with what used to be good old fashioned engineering. Clearly some powerful alien tool was handed around except it comes with no manual and everyone has to figure out how to hold it and operate it, while the resulting magnitude 9 earthquake is rocking the profession. Roll up your sleeves to not fall behind.
🚨BREAKING: Google I/O 2025 Day 1 just MELTED minds. 🤯
Google has transformed Gemini into a full-fledged AI powerhouse, and the announcements are Insane.
Here are 12 Wild things you NEED to see 👇
DeepSeek R1 논문 리뷰 :
해커 출신이자 아시아에서는 구글에게 최초로 IT 스타트업을 매각한 노정석 대표의 리뷰입니다. 논문 읽을 시간 없으신 분들은 영상만 보셔도 괜찮을듯요.
https://t.co/w6B4OI93BF
(R1) 30:20~
R1을 위해서는 프론티어 모델 DeepSeek V3를 가지고 있어야 된다. 똑똑한 애가 없으면 뭔가를 꺼낼 수 없다. 'GPT4 = V3, O1 = R1.'
(Distillation) 34:40~
SFT(Supervised Fine Tuning)을 통해 Distillation(매개변수 1.5~70B 모델 만들기) 할 수 있었던 것도 결국 프론티어 모델 V3가 있었기 때문. 기승전 데이터셋의 품질과 규모가 중요.
(결론1) 39:50~
기존 충분히 똑똑한 모델에 RL(Reinforcement Learning)을 잘 걸어주는 것만으로 추론 성능이 올라간다. 즉, RL만으로 새로운 영역으로 가볼 수 있다는 것. 하지만 그를 위한 근간은 '충분히 똑똑한 모델'.
(결론2) 43:20~
컴퓨팅만 투입하면 뭐든지 찾아낼 수 있는 시대. o1에서 봤듯이 '기존 프론티어 모델(V3, GPT4) → 추론 모델(R1, o1) → 더 향상된 프론티어 모델(GPT5)' 루프 지속.
(내 생각) 결국 핵심은 '충분히 똑똑한 기존 프론티어 모델'이 있어야 한다는 것. 이 모델을 만드는데 $5.6M으로 충분했을까? V3 논문을 보면 $5.6M은 H800 임대 비용만 책정한 것으로 사전 훈련, 사후 추론 비용은 미포함됨. V3를 통해 만들어낸 R1은 o1 수준에 도달할 때 좀 더 효율적인 방식을 제시한 것에 불과함. R1을 위해서는 V3라는 프론티어 모델이 필수적이고, 프론티어 모델에는 대규모의 컴퓨팅 능력이 필수임.
미국 AI 리더 기업들의 목표는 o1 수준의 추론 모델이 아님. 누가 먼저 AGI에 도달하는가의 싸움. o1을 효율적으로 만드는 방법은 o1 수준의 서비스만 제공하는 데서 그칠 것. o1 수준의 서비스는 100m 달리기 경쟁에서 한 발만 내딧고 멈추는 수준이라고 생각함. AI 씬은 매년 10배의 성능 개선이 이뤄지고 있기 때문.
따라서 이번 딥시크 사태는 프론티어 모델(GPT4)을 기반으로 test-time computing(추론 시간 확대 통한 추론 모델)을 활용하여 추론 모델(o1, o3)을 만드는 시간과 비용이 줄어드는 효과를 촉발할 것으로 생각함. 오히려 '재귀적 발전' 루프가 가속화 되면서 AI의 통제 가능성에 더 집중해야할 이슈라고 봄. 에릭 슈미트가 작년 스탠포드대 강연에서 얘기했던 '재귀적 발전'의 루프가 현실화 되고 있음. 프론티어 모델(GPT4)만 있다면 추론 모델(o1, o3)을 더 빠르고 싸게 만들 것이고 그를 통한 대규모의 합성 데이터는 더 나은 프론티어 모델(GPT5)을 더 빠르고 싸게 만들 것이기 때문.
오히려 이 순간부터 프론티어 모델을 빠르게 만들기 위한 경쟁이 가속화 될 것. '스푸트니크' 모먼트에서 여전히 돈을 제일 많이 벌 기업은 고성능 칩을 만드는 회사라고 생각함.
‘비폭력과 연대의 상징으로 떠올랐다’
다양한 아이돌 응원봉들이 12·3 내란사태 이후 매일 저녁 서울 여의도 국회의사당 앞을 빛내고 있습니다. “촛불은 바람 불면 꺼진다”는 망언을 기억하는 엠제트(MZ)세대가 촛불 대신 응원봉을 들고 집회에 나선 것인데요. 자신의 가장 소중한 빛을 들고나와 희망을 노래하는 모든 이들에게 박수를 보냅니다.
💡 윤석열 탄핵으로 ‘봉꾸’한 작품 모아보기
https://t.co/TnzInMdddN
국민과 세계가 지금 대한민국의 책임자가 누구냐고 묻고 있습니다. 국회의장도 그것이 누구인지 답하기 어렵습니다. 대통령의 직무를 즉각 중단시키고 현재의 불안정한 국가적 사태의 해결을 위한 여야 회담을 제안합니다. -우원식 국회의장 긴급 회견 중 / 전문보기: https://t.co/yvg52T3w82 #국회