We're bringing millisecond performance directly to the lakehouse.
Databricks Co-founder and Chief Architect @rxin introduces Lakehouse//RT, Databricks’ new real-time data warehouse designed for operational analytics, BI and app serving, and observability workloads.
Lakehouse//RT is powered by Reyden, a breakthrough new engine for real-time workloads that require immediate responsiveness at high concurrency.
Learn more: https://t.co/STdjG24IKs
Introducing Lakehouse//RT, a real-time data warehouse that delivers millisecond responses at massive scale without data movement.
Support real-time workloads while using the same open formats, governance, and data architecture already powering your analytics and AI. https://t.co/STdjG24IKs
نقل البيانات من نظام إلى نظام بصيغة columnar → columnar يكون فعّال فقط إذا كان بروتوكول النقل يحافظ على نفس شكل البيانات أثناء مرورها عبر الشبكة.
الدرايفرات القديمة لقواعد البيانات مثل JDBC غالبًا تحوّل البيانات من الشكل العمودي columnar إلى صفوف rows أثناء النقل، ثم يتم تحويلها مرة ثانية إلى الشكل العمودي.
أما ADBC فيحافظ على البيانات بصيغة Arrow من البداية إلى النهاية، بدون تحويلات غير ضرورية.
تصوير ممتاز للفكرة.
فعلا اشوفه مهم جدا تسأل نفسك ايش المشاكل الي عندك بمجالك وتحاول تحلها وتسوي طريق بنفسك ما اعتمد بشكل كبير على مشاكل غيرك وانت مو عارف اصلا ليش فكروا انه في مشكله من الاساس
دايم جذور المشكله هي الي بتخليك توصل للحل لأنك تعرف وين ماشي وعلى اي اساس ماشي.
النماذج مفتوحة المصدر بتصير جزء مهم من صمود البشرية في عصر الـ AGI
الفكرة مو بس تقنية، الفكرة إن الوصول للذكاء ما يكون محصور بقرار شركة، جهة، أو شخص واحد
لازم يصير عند الناس حد معقول من الذكاء المتاح لهم مهما تغيرت قرارات اللاعبين الكبار
The US government, citing national security authorities, has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States, including foreign national Anthropic employees.
The net effect of this order is that we must abruptly disable Fable 5 and Mythos 5 for all our customers to ensure compliance.
Access to all other Claude models is not affected.
We apologize for this disruption to our customers. We believe this is a misunderstanding and are working to restore access as soon as possible.
Read our full statement: https://t.co/bwn0sximKZ
بعد صلاة الجمعة جلسة روقان على الورقة ذي مع كوب شاهي
ايش فكره الورقه بكل بساطه
انه كيف تخزن وتعالج عدد ضخم من الملفات الصغيرة بدون ما تخنق النظام بالـ metadata والقراءات الزائدة
صحيح قديمه لكن فيها مفاهيم ممتازه ومشروحه بشكل واضح
📍مهم مهم مهم لمتخصصين الحاسب بشكل عام.
بعض المواضيع ما يكفي تتعلمها من كورس أو فيديو سريع.
إذا فعلاً تبي تفهم التقنية من جذورها، ارجع للأوراق العلمية.
الأوراق البحثية تعطيك كيف الناس فكّروا بالمشكلة، وش الحلول اللي جرّبوها، وليش بعض التصاميم نجحت وبعضها فشل.
مو لازم تقرأ ورقة كل يوم.
ابدأ بورقة كل أسبوع أو حتى كل شهر، خصوصاً في المجال اللي تبي تتعمق فيه.
مع الوقت بتلاحظ إن فهمك صار أعمق من مجرد استخدام الأدوات؛ بتبدأ تفهم ليش الأداة مبنية بهذا الشكل أصلاً.
بعد تغيّر توجه MinIO وابتعاده عن كونه Open Source بالكامل، صار مهم نبحث عن بدائل S3-Compatible Object Storage.
من أبرز البدائل مفتوحه المصدر:
SeaweedFS
RustFS
Garage
كل واحد له نقاط قوة مختلفة، لكن SeaweedFS يعتبر من الخيارات القوية خصوصًا لمن يحتاج تخزين ملفات On-Prem مع دعم S3 API وتصميم مرن قابل للتوسع
Granularity في مستودع البيانات تعني مستوى التفاصيل في البيانات.
كلما كانت البيانات مخزنة على مستوى أقل وتفصيلي أكثر، مثل مستوى العملية أو المنتج أو الفرع، زادت قدرة التحليل لاحقًا.
لأنك تقدر تجمع التفاصيل وتطلع منها تقارير يومية أو شهرية أو سنوية.
لكن إذا خزنت البيانات من البداية على مستوى عالي مثل الإجمالي الشهري فقط، فلن تستطيع الرجوع للتفاصيل التي لم يتم تخزينها.
في مستودعات البيانات خزن التفاصيل أولًا، ثم اجمعها حسب حاجة التحليل.
Data Engineering مو مشكلته إن الأدوات ناقصة.
عندنا Airflow، ADF، Databricks، Git، CI/CD وكل شيء تقريبًا.
المشكلة الأكبر أحيانًا إن الشغل يعيش في رؤوس الأشخاص، مو في أسماء واضحة ومفاهيم مشتركة.
نفس فكرة الـ retry تتكرر بأكثر من مشروع، وكل مرة بطريقة مختلفة.
نفس مشكلة الـ restartability تنحل، لكن بدون pattern واضح يرجع له الفريق.
نفس orchestration يشتغل كل ليلة، لكن لو جاء شخص جديد يحتاج أسابيع عشان يفهم “ليش كذا سويناها”.
في Software Engineering عندهم Design Patterns عطتهم لغة مشتركة:
هذا Singleton، هذا Factory، هذا Observer.
أما في Data Engineering كثير من الحلول موجودة، لكنها بدون أسماء متفق عليها.
وهنا الفرق.
لما نسمي الـ patterns، يصير الشغل أسهل في المراجعة، أسهل في التعليم، وأسهل في التطوير.
مو كل مشكلة تحتاج نعيد اختراع الحل لها من الصفر.
أحيانًا اللي ناقصنا مو Tool جديد.
اللي ناقصنا Vocabulary.
بالمختصر كذا
المشكلة أن كثير من الحلول تتكرر داخل الفريق بدون ما تتحول إلى أسماء واضحة، أو Patterns مفهومة، أو Vocabulary مشترك يسهّل الشغل