¡Este domingo empezamos FASE 4 del BOOTCAMP!
✅ Clase 1: Módulos ESM
✅ Clase 2: Asincronía Javascript
✅ Clase 3: WebComponents nativos
✅ Clase 4: Rendimiento web
Hoy MIÉRCOLES estaremos en breve en directo hablando de IA en desarrollo, comentando noticias y charlando sobre el Bootcamp y otros detalles
👇
@IdolHomeless Es aproximada, no exacta (por eso puse el ~), te paso link que tengo a mano donde se ve un buen resumen de lo que estuve mirando: https://t.co/L0iyU3Dlhc
Este es el uso de IA local con el que estoy experimentando actualmente.
Datos:
✨ Qwen 3.6 (el mejor modelo que he probado)
✨ Tamaño: 35B (sólo 3B activos, mejor rendimiento)
✨ Utilizo una Nvidia 5060 ti 16GB
✨ Cuantizo el modelo a IQ2_XXS
✨ Uso 128K de contexto, cuantizado a Q4_0
✨ Uso llama.cpp + pi
✅ El total son unos ~12GB, que caben OK en 16GB
¡En https://t.co/EsIXqpbFqQ voy colocando más contenido interesante sobre estos temas!
La "inteligencia" que se pierde en la cuantización no es tanta como se suele pensar...
La perdida de calidad en el ejemplo es menor a un 15%. En agéntico se puede notar en fallos en las llamadas al sistema, algunos bucles ocasionales o errores menores de sintaxis de vez en cuando (paréntesis omitidos o cosas así). Sin embargo, configurando bien el agente, aplicando criterios en skills o controlando los errores, se pueden paliar bastante bien.
La alternativa es comprarse una GPU de 70GB, que no creo que esté al alcance de muchos 🤣
Yo antes tenía una 3060 (de 12GB, hay otro modelo de 8GB). Iba un poco más justo, pero con menos contexto me funcionaba.
Con el comando `nvitop` puedes ver el uso normal de tu sistema operativo. Mi windows 10 consume unos ~1.5GB en el uso normal del SO.
La velocidad, si consigues usarlo todo en tu GPU, será muy rápido, desde que pase a RAM, ya se irá notando en la velocidad que bajan mucho los tokens/seg.
Es cosa de Twitter, el sistema que descubre los enlaces está rotísimo. Intuyo que funciona porque ya lo tiene la caché de Twitter.
Prueba estos formatos:
https://t.co/gkUPNU9LeM
https://t.co/3DIBm245LS
Si ninguno funciona, añade un `?1` al final de la URL a ver si así fuerzas a Twitter a redescubrir el link
Recuerda que este domingo 5/JUL tenemos la penúltima clase del Bootcamp: ¡Crea y configura tu propio VPS!
✨ ¡Usando terminal al 100%!
✨ Utilizaremos y aprenderemos nginx
✨ Conceptos de seguridad
✨ Usaremos DigitalOcean
👇
Hace muy poquito salió el modelo Krea2 (12B), un modelo de generación de imágenes, que se puede usar en local y funciona muy bien. Tiene dos modalidades, Krea2 RAW y Krea2 Turbo.
https://t.co/jCYzHCEimE
Completísimo informe de OONI (Open Observatory of Network Interference) que evidencia (con pruebas) que los bloqueos de #LaLiga son masivos y producen daños colaterales graves en España:
https://t.co/NOShzwC6qB
🔥 ¡Nueva guía! 🔥
¿Te imaginas que existiera algo como `llama.cpp` pero para generar música, similar a Suno? Pues es justo la guía que te traigo:
Guía de `acestep.cpp` para generar música en local:
https://t.co/YpYoVKIyly
🔥 ¡Nueva guía! 🔥
¿Te haces un lío con todos los parámetros de `llama.cpp` para usar tu IA local?
Guía paso a paso de optimización de `llama.cpp`:
https://t.co/lL1SD7NiNS
@juanko6 Por aquí tienes como lo tengo configurado con llama.cpp y con pidev:
https://t.co/27X6GurNGu
(Estoy usando la versión MTP, que pronto añadiré también)
Pregunta a los que están usando modelos de IA locales:
¿Han conseguido usar con agentes (pi, opencode...) algún modelo pequeño que vayan bien las tools?
El único que consigo con un soporte decente (y muy rápido, a unos ~120t/s) es Qwen 3.6 35B. Algunos como Gemma4 van mas o menos bien pero las tools suelen fallar un poco.
¿Alguien esta usando otros? Me interesa sobre todo modelos más pequeños, aunque no sean inteligentes (por ej, LFM también funciona más o menos bien).
@ortegajorge Creo que el tema está en que las tool callings no son estándar y cada agente las maneja de una forma concreta (o tiene soporte solo para ciertas tools)
@jeudyx Sí, lo comentaba por aquí:
https://t.co/P44BLPeCfk
Está basado en Qwen + Gemma (intuyo que por eso va tan bien). He probado un poco el 9B y funcionaba bien para ser pequeño.
A ver si siguen saliendo modelos similares...
Modelos de IA interesantes y muy recientes (de los últimos días):
1️⃣ Boogu Image (10B, modelo base, turbo y edit)
Similar a Qwen Imagen (20B), pero más ligero y con un modelo con capacidades de edición (estilo Nano Banana).
2️⃣ Krea 2 (12B, modelo RAW y modelo turbo)
Modelo de generación de imágenes capaz de crear ilustraciones o fotografías con sólo 8 pasos.
3️⃣ Ornith (LLM, modelo 9B, 35B y 397B)
LLM basado en Qwen especializado en tareas agénticas.
Más modelos por aquí:
https://t.co/IRgEGKJHY4
@Estevez_SC2@gorlok@aleluis Claro, pero eso se aplica a todos. Q8 también es mucho mejor que Q6 y Q4. El problema es que los tamaños que manejan requieren hardware muy potente y con altas capacidades.
Es lo que comentamos siempre:
- Los precios van a seguir subiendo. Empezaron siendo 5$, luego 7$, luego 10$, luego 20$... En Claude ya es lo normal 100$ o 200$...
- La energía que consume no creo que sea tan destacable ni como para ser un punto a tener en cuenta. Lo mismo con el uso. Cuando juegas a un videojuego haces un uso intensivo de la GPU y no piensas en dejar de jugar porque estés usando más los recursos.
- Ahora entra en juego el aspecto geopolítico. Los países comienzan a cerrar sus modelos por temas políticos.
- La privacidad es otro tema importante. Por protección de datos, hay ciertos usos donde no puedes (no deberías) compartir cierta información con los LLM.
En definitiva, no se trata de dejar de utilizar modelos frontera, sino hacer un uso más responsable. Por ejemplo, un buen uso podría ser utilizar un modelo frontera para orquestar y planificar las tareas, y luego delegar en un modelo local ciertas tareas específicas.
En mi opinión, y ahora mismo, 12-16GB es el límite mínimo para hacer cosas decentes (y con modelos cuantizados).
Esto implica tener que preparar el tooling que usas para fallos y errores, revisión y hacer todo lo posible para que no se salga de donde quieres.
De acuerdo con lo de que tienes que tener mucha paciencia (no tenemos la capacidad de cómputo de un modelo frontera), pero en desacuerdo con lo de cosas sencillas o trabajo dev serio.