anthropic'in kurucusu dario abimiz deepseek olayından sonra çin, diğer ülkeler ve open-source community'e zarar verecek, ama amerikan şirketlerinin ve amerika'ın uzun dönemde ai yarışını kazanması hakkında uzun bir yazı yazmış.
dilim döndüğünce özetlemeye çalışayım ama peşin peşin şunu söyliyim: senin ben te amq dario.
neyse toparlıyorum.
yazıda genel olarak, son dönemde tüm dünyada en çok konuştuğumuz çin'li şirket deepseek'in başarıları ve ai çip kısıtlamaları hakkında kapsamlı bir analiz ve özellikle çin'e uygulanan çip ihracat kontrollerinin neden daha da önemli hale geldiğine değiniyor.
amodei önce ai gelişiminin üç temel dinamiğini anlatıyor:
- birincisi scaling laws, yani ölçekleme kuralları. ai sistemleri daha fazla hesaplama gücü aldıkça, düzenli bir şekilde daha yetenekli hale geliyor. örneğin bir milyon dolarlık model belirli kodlama görevlerinin %20'sini çözebilirken, 10 milyon dolarlık model %40'ını, 100 milyon dolarlık model %60'ını çözebiliyor. bu artış lisans öğrencisi seviyesinden doktora seviyesine geçiş gibi büyük farklara denk geliyor.
- ikinci dinamik, verimlilik artışı. şirketler sürekli yeni yöntemler bularak aynı güçle daha iyi sonuçlar almaya çalışıyor. mesela model mimarisinde yapılan bir iyileştirme, 10 milyon dolarlık performansı 5 milyon dolara elde etmenizi sağlayabiliyor. ancak şirketler bu tasarrufu maliyet düşürmek için değil, daha güçlü modeller geliştirmek için kullanıyor. amodei'ye göre bu verimlilik artışı yılda yaklaşık 4 kat civarında.
- üçüncü ve en yeni dinamik ise paradigma değişimi. 2020-2023 arasında şirketler sadece büyük veri setleriyle model eğitimine (pre-training) odaklanmışken, 2024'te reinforcement learning ile reasoning (akıl yürütme) yeteneği kazandırma öne çıkmış.
peki deepseek nasıl bu kadar ses getirdi? iki önemli model yayınladılar:
-ilki deepseek-v3. bu modelde özellikle bellek yönetimi (key-value cache) ve model mimarisi (mixture of experts) konularında önemli yenilikler yapmışlar. ancak amodei burada kritik bir noktaya dikkat çekiyor: deepseek'in '$6 milyona batının milyar dolarlık modellerini yaptık' iddiası gerçeği yansıtmıyor. çünkü:
claude 3.5 sonnet birkaç on milyon dolara eğitilmiş
deepseek'in modeli, 9-12 ay önce eğitilmiş batı modellerinin performansına ancak yaklaşabiliyor
yıllık 4 kat verimlilik artışı düşünüldüğünde, bu maliyet düşüşü zaten beklenen bir gelişme
- ikinci model r1 ise openai'ın o1 modeline benzer şekilde reinforcement learning ile geliştirilmiş. amodei'ye göre asıl teknolojik yenilik v3'teydi, r1 sadece mevcut yaklaşımların uygulanması.
çip kısıtlamaları konusuna gelince, amodei çarpıcı detaylar paylaşıyor. deepseek'in yaklaşık 50 bin gpu'su var ve bunların dağılımı şöyle:
- h100'ler: tamamen yasak ve muhtemelen kaçak yollarla elde edilmiş
- h800'ler: 2023 ekim'den önce, yasaklanmadan alınmış
- h20'ler: hala serbest (ama amodei'ye göre bunlar da yasaklanmalı)
amodei'nin en kritik öngörüsü 2026-27 dönemi için. superintelligent ai (yani neredeyse her konuda insandan daha zeki yapay zeka, yaninin yanisi yarra yedik dönemi) için milyonlarca çip gerekecek. bu noktada iki olası senaryo var:
tek kutuplu dünya senaryosu:
- çin gerekli çipleri elde edemezse, ai gelişimi amerika ve müttefikleriyle sınırlı kalacak
- ilk superintelligent ai'ı geliştiren, daha akıllı ai'lar geliştirmede de öne geçecek
- bu üstünlük kalıcı hale gelebilir ve batının teknolojik liderliği güvence altına alınabilir
iki kutuplu dünya senaryosu:
- çin bir şekilde (kaçak veya kendi üretimiyle) gerekli çipleri elde ederse, her iki taraf da superintelligent ai geliştirebilir ancak çin'in sanayi altyapısı ve merkezi yönetimi, ai'ı askeri uygulamalara yönlendirmede avantaj sağlar
- uzun vadede çin sadece ai'da değil, global güç dengelerinde de öne geçebilir
amodei'nin sonucu: deepseek'in başarısı, çip kısıtlamalarını gevşetmek için değil, tam tersine sıkılaştırmak için bir sebep. çünkü:
ai teknolojisi her geçen gün daha güçlü hale geliyor
maliyetler düşse bile, şirketler tasarrufu daha güçlü modeller için kullanıyor.
superintelligent ai yaklaşırken, teknolojik üstünlüğü korumak kritik önem taşıyor.