Un desarrollador chino llamado tw93 se hartó de que sus aplicaciones de escritorio le devoraran la RAM y el disco.
Abría Slack y desaparecían cientos de megabytes. Abría Discord, Notion o cualquier otra app y pasaba lo mismo. ¿La razón? Casi todas son lo mismo por dentro: un sitio web empaquetado con una copia completa del motor de Chrome (Electron).
Decidió que tenía que haber una forma mejor.
En 2022 empezó a construir Pake. Usó Rust + Tauri, que en vez de incluir un navegador completo, aprovecha el WebView nativo del sistema operativo.
El resultado fue brutal:
- Slack con Pake → 8 MB (en vez de 524 MB)
- Discord con Pake → 9 MB (en vez de 265 MB)
- ChatGPT con Pake → 9 MB (en vez de 260 MB)
Cuatro años después, su repositorio tiene más de 51.000 estrellas en GitHub. Tiene builds listos para Grok, ChatGPT, Gemini, Discord, YouTube, Twitter y muchos más. Todo bajo los 10 MB, ligero, rápido y gratis.
Y lo mejor: con un solo comando puedes convertir cualquier página web en una aplicación de escritorio nativa.
No fundó una startup. No levantó inversión. Solo resolvió un problema que molestaba a millones de personas.
A veces el cambio real lo hace una sola persona que se cansa de las cosas como están.
Esta brutal, repo en los comentarios 👇
Un tipo estaba listo para gastar $1,500 en un nuevo TV OLED porque su Smart TV de 3 años se congelaba y tardaba 5 segundos solo en responder al control remoto.
Lo desenchufó. Eliminó apps antiguas. Limpió la caché. El retraso seguía volviendo.
Fue a Best Buy a comprar un reemplazo.
El instalador de cine en casa con la camisa azul lo detuvo: "Antes de que gastes mil dólares, déjame mostrarte algo."
Tomó un control remoto y sacudió la cabeza.
"Hay 8 configuraciones de seguimiento ocultas que están limitando el procesador de tu TV en este momento. Los fabricantes las activan todas por defecto. Nadie te dice que existen. Vamos a arreglar esto."
Aquí está lo que le mostró en los próximos 8 minutos. 🧵
🚨 BREAKING: Someone just open-sourced a full offline survival computer with AI, Wikipedia, and maps built in.
Project N.O.M.A.D. is an open-source offline survival computer.
Self-contained.
Zero internet required after install.
Zero telemetry. Everything runs locally on your hardware.
What it includes:
→ Full Wikipedia archives via Kiwix
→ Offline maps via OpenStreetMap
→ Local AI models via Ollama + Open WebUI
→ Calculators, reference tools, resource libraries
→ A management UI to control
everything from a browser
One curl command installs the entire system on any Debian-based machine.
Runs headless as a server so any device on your local network can access it.
Minimum specs to run the base system: dual-core processor, 4GB RAM, 5GB storage.
To run local LLMs offline, you want 32GB RAM and an NVIDIA RTX 3060 or better.
No accounts.
No authentication by default.
No cloud dependency.
No phone-home behavior.
Built to function when nothing else does.
The grid, the cloud, the API you depend on. None of it is guaranteed.
The people building local-first systems right now are the ones who won’t be asking for help when access disappears.
Looks to be a brilliant paper.
Large language models struggle with long contexts due to quadratic attention costs and limited pretraining sequence lengths.
InfiniteHiP, proposed in this paper, uses modular hierarchical pruning, dynamic rotary positional embedding adjustments, and key-value cache offloading, enabling inference on up to 3 million tokens.
📌 The paper’s pruning algorithm cuts processing by focusing on top-k tokens, achieving 18.95x speedup in attention decoding for 1M tokens.
📌 Key-value cache offloading reduces GPU memory load; InfiniteHiP processes 3M tokens on a single 48GB GPU using only 3.34% of FlashAttention2’s VRAM.
📌 Modular design and dynamic positional embedding adjustments ensure out-of-length generalization without retraining, preserving performance on tasks like LongBench and ∞Bench.
-----
Methods Explored in this Paper 🔧:
→ InfiniteHiP applies a modular hierarchical pruning algorithm that partitions context into fixed-size chunks and selects top-k tokens per query block.
→ It dynamically adjusts rotary positional embeddings and offloads key-value caches to host memory, enabling efficient inference on extremely long contexts.
-----
Key Insights 💡:
→ The paper demonstrates that focused token selection can drastically reduce computation without losing context quality.
→ Dynamic adjustments in positional embeddings enable models to generalize beyond pre-trained sequence lengths.
-----
Results 📊:
→ 18.95x speedup in attention decoding on 1M token context.
→ 7.24x end-to-end decoding speedup on 3M tokens with only 3.34% VRAM of FlashAttention2.
🇺🇸 | AHORA: La hija de Dave Grohl, Violet, canta la canción principal, mientras Kim Gordon toca el bajo con los miembros de la legendaria banda Nirvana para interpretar "All Apologies" en el concierto benéfico de FireAid en Los Ángeles.
>Linux is C
>Git is C
>Python interpreter (CPython) is C
>Ruby interpreter (MRI) is C
>PostgreSQL is C
>SQLite is C
>Redis is C
>MySQL is C++
>MongoDB is C++
>Unreal Engine is C++
>Chrome is C++
>Firefox is C++
>Windows kernel is C
>macOS kernel (XNU) is C
>Photoshop is C++
>VMware is C++
>TensorFlow (Core) is C++
-still, you are not convinced to learn C and C++
Using vibration to assist concrete during its settling period has proven a worthwhile method that aids in long-term durability.
The process removes the air bubbles and avoids “honeycombing”.
[📹 Master Engineering]
▬▬.◙.▬▬
▂▄▄▓▄▄▂
◢◤ █▀▀████▄▄▄◢◤
█▄ █ █▄ ███▀▀▀▀▀▀╬
◥█████◤
══╩══╩══
╬═╬
╬═╬ Just dropped down to say
╬═╬ Don't
╬═╬ Push To Production On Friday
╬═╬
╬═╬ ☻/
╬═╬/▌
╬═╬/ \