@HancockErikL@morganlinton@VulcanBench For GLM 5.2: 78 layers, 64 KV heads, head dim 192
2 (K+V) × 78 × 64 × 192 × 2 bytes ≈ 3.8 MB per token (a token is 3-4 characters)
For 1M Context window this would be about 3,8TB - with sparse attention about factor 2,9 less —> 1,31TB
Therefore you need at least 2,8TB.
@HancockErikL@morganlinton@VulcanBench With 744B params, the math is simple:
BF16/FP16 (full model): 744 x 2 bytes = 1,488TB
FP8 = 744B x 1byte = 744GB
INT4 = 744B x 0.5 byte = 372GB
For real comparison FP16 with at least 1,488TB, but you need the context window on top.
@HancockErikL@morganlinton@VulcanBench Ah yes, ‘glm runs on user hardware.’ Just show me the user whose hardware fits 744B parameters and the context on top. I’ll wait.
@marcfriedrich@Karl_Lauterbach@marcfriedrich Das ist leider eine Falschinformation. Die Sozialdemokraten in Wien halten ebenfalls krampfhaft ideologisch daran fest. Im Zug bekommt man eine Aufforderung per Durchsage: „Wir überqueren in kürze die Wiener Stadtgrenze, setzen Sie ab hier Ihre Masken auf!“
@julianhosp Man könnte es auch als Wortspiel interpretieren.. Die Aussage der Fleischverkäuferin könnte sich auf den Fleischwolf beziehen und „Ein Wolf ist auch nur ein Mensch“ könnte sich auf Armin Wolf beziehen, der aktuell unter starker Kritik steht. :-D
@TheOracleV3@BrahimiCedric@Balkaner11801@magentatelekom Doch das kann man sehr wohl erwarten. Wenn einem Technologiekonzern das Thema Redundanz, welches zum kleinen Einmaleins der IT zählt, derart entgleitet, läuft etwas gewaltig schief!
Zum Thema Lebensdauer: Denkst du dass Hardwarekosten nicht in den Tarifen eingepreist sind?