Canary String هو نص اختبار يضاف الى البيانات للتأكد من ان النموذج لم يطلع عليه اثناء التدريب. فاذا قدر (LLM) استرجاع هذا النص لاحقًا، فقد يشير ذلك إلى أنه تعرض لبيانات لم يكن من المفترض أن يراها. هذا الاسم جاء من الكناري الذي كان يستخدم ككاشف للغازات السامة في مناجم الفحم لان الكناري يتاثر بنقص الاكسجين اسرع من البشر.ونفس الشي يكشف Canary String مبكرا عن مشكلة data contamination، أي اختلاط بيانات التدريب بمعلومات من الاختبار أو ببيانات غير مسموح للنموذج بالاطلاع عليها Benchmark، مما قد يجعل الاداء يبدو افضل من حقيقته.
We’ve received notice that the Department of Commerce has lifted export controls on Claude Fable 5 and Mythos 5.
We'll begin restoring access tomorrow, and will share an update soon.
We’re grateful to our users for their patience, and to everyone who worked with us on redeploying the models.
Introducing Claude Sonnet 5, our most agentic Sonnet yet.
It makes plans, uses tools like browsers and terminals, and runs autonomously at a level that just a few months ago required larger and more expensive models.
إذا شغال على تطبيقات LLMs، فيه اداة أنصح فيها Langfuse.
تعطيك تفاصيل كاملة لكل Request:
Prompt
Context
Retrieval
Tracing
Tokens
التكلفة
وقت التنفيذ
طبعًا فيه Evaluations لقياس جودة المخرجات
بدل ما تعتمد على التخمين او الـ logs، تقدر تعرف بالضبط وش صار في كل خطوة وتقارن أداء النسخ المختلفة من الـ prompts أو Models.
من الأدوات اللي صارت اساسية عندي في أي مشروع او تجربة تعتمد على LLMs
https://t.co/PMnjEZyGa4
شركة Meituan أطلقت LongCat-2.0 نموذج MoE بـ 1.6 تريليون معامل، مفتوح المصدر بالكامل برخصة MIT.
المهم في هذا النموذج انه أول نموذج بهذا الحجم يتدرب من الصفر على شرائح صينية محلية (50 ألف بطاقة) بدون أي اعتماد على Nvidia.
وهو نفسه النموذج Owl Alpha الغامض اللي كان متصدّر OpenRouter
تقدر تجرب المحادثة هنا
https://t.co/a1A3NqSxJU
شركة @HUMAIN بيكون لها حضور قوي في #leap متوقع منهم ثلاث اشياء
- Humain Life - بديل Humain Chat بس اتوقع بعد تصريح امس يمكن يبقى الاسم Chat
- Humain Forge - دعم الشركات الناشئة
- والان Humain PC وبيكون Agentic OS
40 طالب من أصل 86 حصلوا على 100% في اختبار عن بعد بجامعة Brown.
Open Book + رقابة صفر + AI متاح للجميع = النتيجة كانت متوقعة.
المفارقة الاختبار كان من أستاذ متخصص في Game Theory، وهي النظرية التي تقول إذا جعلت الغش هو الخيار الأكثر ربحا والأقل مخاطرة، فلا تستغرب اذا اختاره الجميع.
المشكلة ليست في الذكاء الاصطناعي… بل في تصميم اللعبة.
حتى لو صار عملك مجرد مراقبة بوتات، يبقى عقلك في وقتك الحر حراً. مكتبتك فيها من الكتب أكثر مما تقرأ في عمرك، وخيالك ما زال قادرا على الابداع. أزِل الضجيج، وألق بنفسك في شيء يستحق.
مهندس برمجيات وروائي كتب مقالا يغير نظرتك للمهنة.
خلاصة مقالة بجملة
الذكاء الاصطناعي ما أخذ وظيفتك… أخذ المتعة منها، وترك لك الوظيفة. وبلخص فكرنه في التغريدات التالية.