유기용 @_nodelay - Twitter Profile

Pinned Tweet

유기용 @_nodelay

8 months ago

항상 네가 그리울거야

6

10

0

2K

_nodelay retweeted

_발렌

@_Valentino

about 6 hours ago

시세 ㅋㅋㅋㅋ

2

27

6

2

3K

_nodelay retweeted

Bernard

@FatTailLabs

about 13 hours ago

32강 탈락과 함께 사실상 경질이 이미 결정되어 있었던 홍감독이 자진사퇴를 결정하지 못하고 고심했던 것은 위약금 문제 때문일 것. KFA에서 홍감독을 경질하면 남은 연봉을 모두 수령할 수 있다. 단, 자진사퇴하면 잔여 연봉 수령은 불가. 따라서 최대한 경질을 기다리려 했지만 협회나 본인 역시 위약금 문제까지 겹쳐서 국민여론이 너무 악화될 것을 두려워한 나머지 자진사퇴를 결정했을 것.

10

724

333

63

193K

유기용 @_nodelay

about 3 hours ago

@dakyou_way @lohaswinner 둘다 게이밍 장비였지. LLM 장비는 아니니까요. dgx spark 는 사고 싶지만 메모리 대역폭 생각하면 정말 실험용 장비라고 봅니다. 차라리 맥을 사고, 활용 잘하면 좋죠. 진짜 빠른속도의 local LLM 장비 제대로 갖추려면 자동차 포기해야죠 ㅎㅎ

0

2

1

0

52

Who to follow

Siyoung Oh

@siyoungoh

1n년차 시스템 개발의 기쁨과 슬픔. 철학을 하고 싶다가 수학을 전공하고 컴퓨터로 먹고 사는 중. 전: Quora (ML platform), Google (Borg), 카카오, 넥슨, DRW, FB 현: Snowflake (Cost Intelligence)

My Claude deleted my test and wrote assertTrue.

유기용 @_nodelay

1 day ago

tool calling 에서부터 gemma4-26b-a4b (40 tok/s)보다 성공적이고 omlx 에서 평균 55~60 tok/s 가 나와주네요. M2MAX 64GB 기준입니다. 일단 gemma4 처럼 해매거나 멍청한 말을 하지는 않습니다 ... 필요한 말만해요.

유기용 @_nodelay

1 day ago

https://t.co/tgUVCjpfBI 이번주는 이모델로 hermes agent 에 연결해보겠습니다.

1

8

2

5

1K

1

8

4

7

2K

유기용 @_nodelay

about 3 hours ago

@dakyou_way @lohaswinner 컴퓨팅 성능이 늘어나면 할 수 있는게 많아져요 local LLM 은 일부입니다. 그리고 local LLM 을 세팅하면서 얻게되는 지식이 생각보다 많이 유용해요. 직접 코딩하지 않아서 엔지니어링의 재미를 잃어 버렸다면 다시 찾을 수 있습니다.

1

0

29

_nodelay retweeted

한국닌텐도주식회사

@Nintendo_Korea

about 4 hours ago

Nintendo Switch 2 가격 변경에 관한 알림 https://t.co/oRUGAUHwnq

1

330

2K

145

379K

_nodelay retweeted

김단테/Dante Kim

@mynameisdjkim

about 17 hours ago

결국 대부분의 테크 회사들이 이런 길로 가지 않을까? 게이트웨이를 하나 만들어서 이 업무에 대해서 어느 수준의 모델이 필요한지 파악해서 어려운 일에는 Claude 같은 비싸고 똑똑한 모델을... 상대적으로 쉬운 업무에는 Kimi나 GLM 같은 저렴하면서 가성비 좋은 모델을 쓰는 방향으로 가지 않을까?

5

102

22

28

23K

_nodelay retweeted

Tibo

@thsottiaux

about 6 hours ago

As we are still investigating, I have reset everyone's Codex usage limits. This is a hard reset given some users had stacked up to three banked resets already that they can apply on their own schedule. Funnily enough, this week at OpenAI is called the RESET week, which is meant for folks to relax a bit. However it will be a different kind of RESET week. Enjoy.

519

4K

221

270

371K

_nodelay retweeted

MUZIN

@Muzin1235pao

about 20 hours ago

지금 실리콘 벨리에서 일어나는 일들 일반 테크기업을 떠나는 직원들은 더 나은 모험을 떠나 빅테크를 도전한다고 하지만 빅테크를 떠나는 엔지니어들의 이유는 다름. 그들은 심연을 보았다고 하면서 직장을 떠난다고 한다. 무언가 큰게 다가오는거 같고 모든 세상에 직업이 사라질수도 있다는 생각인 듦. 지금 돈을 벌 때 열심히 벌어야 되는 이유는 이제는 내가 벌고 싶어도 벌지 못하는 세상이 올수도 있다는게 오싹함. 앞으로 5년 10년 내에 투자를 하든 뭐를 하든 돈을 모아 놓는건 생존의 문제라고 본다.

Muzin1235pao's tweet photo. 지금 실리콘 벨리에서 일어나는 일들

일반 테크기업을 떠나는 직원들은 더 나은 모험을 떠나 빅테크를 도전한다고 하지만 빅테크를 떠나는 엔지니어들의 이유는 다름.

그들은 심연을 보았다고 하면서 직장을 떠난다고 한다. 무언가 큰게 다가오는거 같고 모든 세상에 직업이 사라질수도 있다는 생각인 듦.

지금 돈을 벌 때 열심히 벌어야 되는 이유는 이제는 내가 벌고 싶어도 벌지 못하는 세상이 올수도 있다는게 오싹함.

앞으로 5년 10년 내에 투자를 하든 뭐를 하든 돈을 모아 놓는건 생존의 문제라고 본다.

9

156

32

76

26K

_nodelay retweeted

Ahmad

@TheAhmadOsman

1 day ago

Local AI hardware = capacity X bandwidth X software stack - Capacity tells you what fits - Bandwidth tells you how hard the box can breathe - The software stack tells you how much of the spec sheet you can actually cash out. Hardware by Memory Bandwidth - Mac Studio M3 Ultra: up to 512GB @ 819 GB/s - RTX PRO 6000 Blackwell: 96GB @ 1792 GB/s - RTX 5090: 32GB @ 1792 GB/s - RTX 4090: 24GB @ 1008 GB/s - RX 7900 XTX: 24GB @ 960 GB/s - Radeon PRO W7900: 48GB @ 864 GB/s - AMD Radeon AI PRO R9700: 32GB @ 640 GB/s - Intel Arc Pro B65: 32GB @ ~608 GB/s - Tenstorrent Wormhole n300: 24GB @ 576 GB/s - Tenstorrent Blackhole p150: 32GB @ 512 GB/s + 800G - MacBook Pro M5 Max: 460-614 GB/s - MacBook Pro M5 Pro: 307 GB/s - DGX Spark: 128GB @ 273 GB/s (coherent + CUDA) - Mac mini M4 Pro: 273 GB/s - Ryzen AI Max / Strix Halo: ~256 GB/s (~96GB usable GPU) - MacBook Air M5: 153 GB/s - Snapdragon X2 Elite: 152-228 GB/s - Intel Lunar Lake: 136 GB/s - Snapdragon X Elite: 135 GB/s - Mac mini M4: 120 GB/s - Arc Pro B60: 24GB @ ~456 GB/s Verdict - GPUs are still the bandwidth kings - Apple wins: stupid amounts of memory, don't want to shard across GPUs - Apple loses: when raw tokens/sec & concurrency matter more - DGX Spark: coherent memory + NVIDIA stack - Strix Halo / Ryzen AI Max: first real x86 unified-memory contender - Tenstorrent: fully OSS stack, excited to see this mature Fitting != serving Even if it fits, you still pay for - bandwidth during decode - KV cache growth - dequantization - batching + concurrency - scheduler quality - framework overhead The only mental model that matters: 1. What must fit? 2. What bandwidth tier do I need? 3. What software stack can actually deliver it? In short: - NVIDIA -> fastest raw speed - Apple Studio M3 Ultra -> biggest one-box memory - Strix Halo -> first real x86 unified - DGX Spark -> coherent NVIDIA dev appliance - AMD / Intel Arc -> rising alternatives - Tenstorrent -> fully opensource stack Do ask: "which bottleneck am I buying?" Not: "which hardware is best?"

TheAhmadOsman's tweet photo. Local AI hardware = capacity X bandwidth X software stack

- Capacity tells you what fits
- Bandwidth tells you how hard the box can breathe
- The software stack tells you how much of the spec sheet you can actually cash out.

Hardware by Memory Bandwidth
- Mac Studio M3 Ultra: up to 512GB @ 819 GB/s
- RTX PRO 6000 Blackwell: 96GB @ 1792 GB/s
- RTX 5090: 32GB @ 1792 GB/s
- RTX 4090: 24GB @ 1008 GB/s
- RX 7900 XTX: 24GB @ 960 GB/s
- Radeon PRO W7900: 48GB @ 864 GB/s
- AMD Radeon AI PRO R9700: 32GB @ 640 GB/s
- Intel Arc Pro B65: 32GB @ ~608 GB/s
- Tenstorrent Wormhole n300: 24GB @ 576 GB/s
- Tenstorrent Blackhole p150: 32GB @ 512 GB/s + 800G
- MacBook Pro M5 Max: 460-614 GB/s
- MacBook Pro M5 Pro: 307 GB/s
- DGX Spark: 128GB @ 273 GB/s (coherent + CUDA)
- Mac mini M4 Pro: 273 GB/s
- Ryzen AI Max / Strix Halo: ~256 GB/s (~96GB usable GPU)
- MacBook Air M5: 153 GB/s
- Snapdragon X2 Elite: 152-228 GB/s
- Intel Lunar Lake: 136 GB/s
- Snapdragon X Elite: 135 GB/s
- Mac mini M4: 120 GB/s
- Arc Pro B60: 24GB @ ~456 GB/s

Verdict

- GPUs are still the bandwidth kings

- Apple wins: stupid amounts of memory, don't want to shard across GPUs
- Apple loses: when raw tokens/sec & concurrency matter more

- DGX Spark: coherent memory + NVIDIA stack

- Strix Halo / Ryzen AI Max: first real x86 unified-memory contender

- Tenstorrent: fully OSS stack, excited to see this mature

Fitting != serving

Even if it fits, you still pay for
- bandwidth during decode
- KV cache growth
- dequantization
- batching + concurrency
- scheduler quality
- framework overhead

The only mental model that matters:

1. What must fit?
2. What bandwidth tier do I need?
3. What software stack can actually deliver it?

In short:
- NVIDIA -> fastest raw speed
- Apple Studio M3 Ultra -> biggest one-box memory
- Strix Halo -> first real x86 unified
- DGX Spark -> coherent NVIDIA dev appliance
- AMD / Intel Arc -> rising alternatives
- Tenstorrent -> fully opensource stack

Do ask: "which bottleneck am I buying?"

Not: "which hardware is best?"

78

2K

216

2K

180K

_nodelay retweeted

연합뉴스

@yonhaptweet

about 14 hours ago

[1보][월드컵] 홍명보 대표팀 감독, 32강 진출 실패 책임지고 사퇴 https://t.co/0ozYA0dw6A

69

1K

2K

106

686K

_nodelay retweeted

wadda (와따) | 💕

@wadda1018

about 11 hours ago

홍명보 사임하는 거 보는 축구 유튜버들 표정 라이브도 아니고 녹화로, 엠바고까지 걸고 사임 선언문만 낭독했음 질문은 안 받음 선언문 읽는 데 5분도 안 걸렸고, 그대로 주머니에 손 꽂고 퇴장했음 한국 축구를 몇 년은 퇴보시킨 행보를 보여놓고 마지막 모습이 이거임 48개국 체제에 32강 8자리나 열어줬는데 12개 조 3위 중 10위로 탈락 최종 순위 34위 1954년 첫 출전 이후 역대 최악 성적임 근데 사임 선언문 5분 읽고 질문도 안 받고 손 꽂고 나가는 그 태도가 “나 사임했으니까 책임 다 졌다” 는 것처럼 보이는 거잖아 졌으면 최소한 왜 이렇게 됐는지 설명이라도 하든가 뭐 저런 사람이 다 있냐는 표정으로 그걸 지켜보는 유튜버들 얼굴이 지금 이 글 쓰는 내 얼굴이랑 똑같음

152

4K

992

574

1M

_nodelay retweeted

Nekizlab @nekizlab

about 17 hours ago

보통 그런 놈은 돈을 안 줘요.

0

6

7

0

706

_nodelay retweeted

버섯바위 @mushstone

about 22 hours ago

전자기기 가격 폭등을 마주한 일반인의 자세

13

14K

15K

1K

762K

_nodelay retweeted

단데기 @katahira_mana

1 day ago

오늘의 페북 불펌 “나는 극우화되기 딱 좋은 상황이었다. 원한과 상처는 충분했고, 그 속에서 혼자였다. 실제로 20대 초반까지 편협한 극단주의자처럼 생각했다. 폭력적인 혁명도 적극 지지했다. 파리 코뮌이나 러시아 혁명을 보며 희망을 느낄 정도였다…”

katahira_mana's tweet photo. 오늘의 페북 불펌

“나는 극우화되기 딱 좋은 상황이었다. 원한과 상처는 충분했고, 그 속에서 혼자였다. 실제로 20대 초반까지 편협한 극단주의자처럼 생각했다. 폭력적인 혁명도 적극 지지했다. 파리 코뮌이나 러시아 혁명을 보며 희망을 느낄 정도였다…” https://t.co/KWYzB7cbC3

2

82

47

32

6K

유기용 @_nodelay

about 17 hours ago

그러면 얘가 할 수 있는 지속적인 작업에 투입할 수 있다면 꽤 쓸만한 녀석임. 그런 가능성을 보았다. https://t.co/tgUVCjpfBI

0

3

0

1

91

유기용 @_nodelay

about 17 hours ago

사실 이 시간의 간격이 꽤 큼 .. 단순한 작업인데 1시간 좀 넘게 걸린듯. gpt-5.4-mini 를 썼다면 5분도 안되서 끝날 일들임.

2

7

0

2

717

유기용 @_nodelay

about 17 hours ago

아니 비결정론적인데 그걸 쓴다구요? 그럼요! 쓸 수 있습니다. 저보다 나은걸요.

0

83

유기용 @_nodelay

about 17 hours ago

로컬 LLM 은 재미있지만, 이걸로 뭔가하려면 claude code, codex 처럼 써선 안될듯. 되긴함. 근데 그 정도 장비 갖추려면 몇천만원 들여야함. 그러니까 구독을 해야하고, 대신 이 로컬 LLM 들을 백엔드 알고리즘으로 사용하면 꽤나 많은 부분에서 편리해질듯.

4

13

0

1

802