Bienvenidos a @Dataxtodos.
🧮 Matemático y Data Scientist con +4 años de experiencia en proyectos reales en diferentes sectores.
Hoy todo se resuelve con un prompt, pero nadie habla de lo que realmente funciona: modelos bien construidos, datos limpios y lógica de negocio clara.
@JunaidAckroyd Increasingly, yes. Which makes your ability to verify it even more important.
If you don't understand what it builds, you can't catch its mistakes, own the architecture, or fix it when it breaks. You're just hoping it's right. Blackboxes all the way down.
🤔 Reflexión:
A medida que ganas experiencia en Data Science, te vas encontrando con más gente que aparenta ser experta en todo… pero cuando rascas un poco, te das cuenta de que no tienen ni idea.
Al principio todo el mundo me parecía increíblemente inteligente. Ahora veo que lo que sobra es falta de humildad, sobre todo en entrevistas.
En un campo que cambia tan rápido, da igual que tengas 2, 5 o 10 años de experiencia: siempre nos queda muchísimo por aprender.
Hace menos de un mes abrí esta cuenta y, sinceramente, lo último que esperaba era que a alguien le interesara lo que escribo. Hoy ya son 10 personas las que me siguen.
No es un número enorme, pero para mí significa mucho. Poco a poco seguiremos hablando de Data Science, compartiendo experiencias reales y opiniones sinceras sobre el mundillo de los datos.
Gracias por estar ahí. 🙏
❌ Deja de estructurar mal tus proyectos de Ciencia de Datos.
Usa este metodo, simple, limpio y listo para producción 📊 👇
1️⃣ config/ – archivos de configuración
Separa los parametros del código (local . yaml, prod . yaml)
2️⃣ data/ – ciclo de vida completo del dato
Raw → preprocessed → features → predictions
3️⃣ entrypoint/ – Scripts principales
train . py (pipeline)
inference . py (batch/real-time)
4️⃣ notebooks/ – solo exploración
EDA, análisis → nunca lógica de producción
5️⃣ src/ – código principal de ML
Feature engineering, entrenamiento, inferencia (modular + testeable)
6️⃣ tests/ – checks automatizados
Prevención de errores silenciosos
7️⃣ docker + env files – reproducibilidad
Misma setup en cualquier entorno (CI)
8️⃣ Dependencias fijas – estabilidad
Versiones exactas → resultados consistentes
No esperes al final del proyecto para ordenar tu repositorio.
Empieza poniendo orden desde un principio y lo agradecerás luego.
Esta estructura es un ejemplo sencillo, y se puede complicar todo lo que quieras, pero te sirve para tener un punto de partida.
@galislab Más que completa la estructura. Por añadirle una pequeña cosa más, le añadiría el .gitignore desde el primer commit para evitar subir cosas como data/ o .env al repo.
@0interestrates El riesgo no es el agente. Es que si puedes “programar” sin aprender a programar, nadie aprenderá.
En data science ya se empieza a ver: gente que hace modelos sin entender qué hace el modelo.
Las herramientas evolucionan. Entender lo que hay debajo no debería ser opcional.
@simongerman600@iamjosepferrer No sé cómo se está midiendo el “tráfico anual” en este gráfico, pero desde luego que la visualización es reveladora cuanto menos.
This is Spain. Not by land. By people.
Every block = 0.1% of the national total.
The interior looks massive on every map.
Remapped by population, it almost vanishes.
Madrid barely exists by land. By people, it takes over.
Llevo 2 semanas haciendo commits y PRs con un solo comando en Claude Code en el trabajo…
A este paso se me olvida cómo utilizar git. 😭😂
¿A quién más le está pasando esto?
Lo fácil que olvidamos conceptos básicos como el data leakage.
🙇🏻♂️ Imagina que estudias para un examen… pero ya tienes las respuestas delante. Lógico que saques un 10.
El problema viene cuando llega el examen real, sin respuestas. Y suspendes.
Eso es exactamente data leakage.
Pasa lo mismo con los modelos predictivos: si durante el entrenamiento ven información del futuro (o del target), en producción se convierten en una escopeta de feria.
‼️ Nunca olvides validar bien tu pipeline. El leakage es silencioso y mata modelos que parecían top.
🐕 Imagina que solo has visto un Labrador en tu vida.
Te enseñan un Caniche y te preguntan: "¿es un perro?"
Tu respuesta: "No."
Eso es exactamente lo que le pasa a un modelo con overfitting: memoriza los datos de entrenamiento pero no sabe generalizar.
Le enseñas 100 ejemplos de fraude bancario y los "aprende" perfectos. Llega el ejemplo 101, ligeramente distinto, y falla.
La clave no es que tu modelo tenga la mejor métrica en train. La clave es que funcione con datos que nunca ha visto.
Más no siempre es mejor. A veces un modelo más simple generaliza mucho mejor que uno complejo.