غوص عميق في بنية جروك (Grok) 🤖
ألقِ نظرة متعمقة على ملف النموذج (model.py) الخاص بهذا النموذج اللغوي الضخم مفتوح المصدر الذي يبلغ حجمه 314 مليار معلمة، والذي يأتي بدون أي قيود.
رابط النموذج:
https://github.com/xai-org/grok-1
هذا ملخص لمحتويات ملف model.py لنموذج Grok الذي يحتوي على 314 مليار معلمة (parameter) مفتوحة المصدر:
1. المعلومات الأساسية:
ـ حجم النموذج: 314 مليار
ـ مزيج من 8 خبراء (experts)، 2 منهم نشطين
ـ 86 مليار معلمة نشطة
ـ يستخدم Rotary Embeddings بدلاً من Positional Embeddings الثابتة
2. معلومات Tokenizer:
ـ حجم المفردات (vocab size): 131,072 (مشابه لـ GPTـ4)
ـ حجم Embedding: 6,144 (48*128)
ـ عدد طبقات Transformer: 64
3. كتلة الانتباه متعدد الرؤوس (Multihead Attention Block):
ـ 48 رأس (head) للاستعلامات (queries)
ـ 8 رؤوس للمفاتيح والقيم (keys/values)
ـ حجم المفاتيح والقيم: 128
4. كتلة الكثافة (Dense Block):
ـ عامل التوسيع (widening factor): 8
ـ حجم الطبقة المخفية: 32,768
ـ يتم اختيار خبيرين من أصل 8 لكل رمز (token)
5. معلومات أخرى:
ـ حجم Rotary Positional Embeddings: 6144
ـ أقصى طول للسياق (context length): 8192 رمز
ـ دقة الأرقام: bfloat16
🧠 هذه المعلومات توضح الهندسة المعمارية لهذا النموذج الضخم ذو الأداء العالي. استخدام تقنيات مثل Rotary Embeddings وMixture of Experts تساهم في تحسين قدراته.
ألقِ نظرة متعمقة على ملف النموذج (model.py) الخاص بهذا النموذج اللغوي الضخم مفتوح المصدر الذي يبلغ حجمه 314 مليار معلمة، والذي يأتي بدون أي قيود.
رابط النموذج:
https://github.com/xai-org/grok-1
هذا ملخص لمحتويات ملف model.py لنموذج Grok الذي يحتوي على 314 مليار معلمة (parameter) مفتوحة المصدر:
1. المعلومات الأساسية:
ـ حجم النموذج: 314 مليار
ـ مزيج من 8 خبراء (experts)، 2 منهم نشطين
ـ 86 مليار معلمة نشطة
ـ يستخدم Rotary Embeddings بدلاً من Positional Embeddings الثابتة
2. معلومات Tokenizer:
ـ حجم المفردات (vocab size): 131,072 (مشابه لـ GPTـ4)
ـ حجم Embedding: 6,144 (48*128)
ـ عدد طبقات Transformer: 64
3. كتلة الانتباه متعدد الرؤوس (Multihead Attention Block):
ـ 48 رأس (head) للاستعلامات (queries)
ـ 8 رؤوس للمفاتيح والقيم (keys/values)
ـ حجم المفاتيح والقيم: 128
4. كتلة الكثافة (Dense Block):
ـ عامل التوسيع (widening factor): 8
ـ حجم الطبقة المخفية: 32,768
ـ يتم اختيار خبيرين من أصل 8 لكل رمز (token)
5. معلومات أخرى:
ـ حجم Rotary Positional Embeddings: 6144
ـ أقصى طول للسياق (context length): 8192 رمز
ـ دقة الأرقام: bfloat16
🧠 هذه المعلومات توضح الهندسة المعمارية لهذا النموذج الضخم ذو الأداء العالي. استخدام تقنيات مثل Rotary Embeddings وMixture of Experts تساهم في تحسين قدراته.