Absolutne zero tolerancji dla agresji! Jeden z trójmiejskich pseudokibiców, który groził i slownie znieważał kasjerkę o czym głośno było w ostatnich godzinach, został zatrzymany przez @PolskaPolicja@PolicjaCBZC
@GasewiczJarek To narzędzie nazywa się dezinformacja 🤷♂️
Tylko dla ciężkomyślącej prawicy takie coś ma sens:
"mamy super oprogramowanie do banowania", ale włącz się w akcje i zbanuj konto które ci wskażemy 😂
@airel212@kosa64 Ooo, a która to partia polityczna pokazała jak naprawia służbę zdrowia? Wskaż mi to palcem i nie chodzi o jakieś bzdety pod publiczkę…
Policjanci CBZC zatrzymali członków zorganizowanej grupy przestępczej zajmującej się zaawansowanymi cyberatakami, kradzieżą aktywów cyfrowych oraz praniem pieniędzy na masową skalę. ❌
W skoordynowanych działaniach operacyjnych czynny udział wzięli agenci amerykańskich służb federalnych: @FBI oraz HSI. 🤝
Łącznie zatrzymano 4⃣ osoby, a śledztwo nadzoruje @Prok_Regio_KRK.
Więcej informacji w komunikacie ➡️ https://t.co/KSK3ON2qzj
@PolskaPolicja
Speakleash 🇵🇱, jak to mawiają chłopaki po godzinach, z pasji do AI, ponowie do przodu. 🦅 DFlash ⚡️⚡️⚡️
The best LLM building team w Polsce - oczywiście jestem niesprawiedliwy bo sam w nim jestem ale zaliczyliśmy kilka takich eksperymentów dostarczając coraz więcej udoskonaleń i przecierając nowe szlaki na polu adaptacji modeli do języka polskiego - wymiana tokenizacji, APT4, destylacja i pruning z teamem Nvidia, pierwszy duży RL (GRPO style), reasoning ...
Tym razem Bielik DFlash ⚡️⚡️⚡️
Pierwszy (już do tego przyzwyczailiśmy) spekulacyjny dekoding do polskiego modelu. Zobaczcie jak zasuwa u mnie na Nvidia B200 - model 11B blisko 500 tokenów/sek (niekiedy więcej niekiedy mniej - miałem przypadki nawet powyżej 1000 tokenów/sekundę). Dwie wersje Bielik-11B-v3.0-DFlash (pokazane na video fp16 - na 7B będzie ... na fp8 ..... speed of light ) oraz Bielik-Minitron-7B-v3.0-DFlash. Tip: można uruchomić na fp8 :) będzie jeszcze oszczędniej i szybciej.
Gratulacje team, gratulacje Chris Ociepa @ChrisOciepa , który z wielką cierpliwością prowadził ten projekt, wiele włożył w to pracy a rezultaty możecie dzisiaj odebrać instalując go lokalnie na własnym sprzęcie.
Jak znajdzie się moc na większy model to będzie MOC - możecie się tego spodziewać.
DFlash - głośno o nim od pewnego czasu. Zaadaptowany na SGLang, VLLM, wczoraj widziałem też news Nvidia o 15x przyspieszeniu inferencji na platformie Blackwell. Wprowadzony przez Z-Lab_ai. Jest to technika przyspieszania generowania tekstu przez LLM. Wykorzystuje spekulacyjne dekodowanie oparte na modelu dyfuzyjnym. Zamiast generować kolejne tokeny jeden po drugim, mały model „draft”, w tym przypadku Bielik-DFlash przewiduje cały blok przyszłych tokenów równolegle w pojedynczym przebiegu. Korzysta przy tym z ukrytych reprezentacji (hidden states) dużego modelu docelowego. Następnie duży model weryfikuje propozycje równolegle. Jeśli są zgodne z tym, co sam by wygenerował, cały blok zostaje zaakceptowany naraz. Dzięki temu zachowana jest dokładnie ta sama jakość i rozkład wyjściowy co w standardowym dekodowaniu (lossless) ale liczba wywołań dużego modelu znacząco maleje. Innowacją DFlash jest zastąpienie klasycznego autoregresyjnego „drafta” lekkim modelem dyfuzyjnym przewidującym całe bloki tokenów jednocześnie. To pozwala osiągać znaczne przyspieszenie inferencji. Przewyższa przy tym inne metody spekulacyjnego dekodowania, takie jak np. EAGLE-3