الذكاء الاصطناعي

دليل شامل حول نموذج الذكاء الاصطناعي العربي جيس “Jais”

أطلق مركز إنسبشن “Inception” للذكاء الاصطناعي التابع لمجموعة (G42) الإماراتية، المتخصصة في مجالي الذكاء الاصطناعي والحوسبة السحابية، النسخة مفتوحة المصدر لنموذج جيس “Jais”.

ويُعتبر نموذج Jais من أعلى النماذج اللغوية جودةً في العالم باللغة العربية، وذلك بناءً على استناده إلى 13 مليار مؤشر، حيث تم وتدريبه على مجموعة بيانات تحتوي على 395 مليار رمز باللغتين العربية والإنجليزية.

ويأخذ نموذج “جيس”، اسمه من أعلى قمة في دولة الإمارات العربية المتحدة، ويهدف إلى تقديم فوائد الذكاء الاصطناعي التوليدي للعالم العربي.

وهو نتاج تعاون بين مركز “إنسبشن” التابع لمجموعة “G42″، وجامعة محمد بن زايد للذكاء الاصطناعي، وشركة “Cerebras” الأمريكية المتخصصة في تصنيع الرقائق.

هل يتوفر نماذج لغوية عربية أخرى؟

ويعد إطلاق Jais حدثًا بالغ الأهمية في مجال الذكاء الاصطناعي في العالم العربي. ويتميز هذا النموذج الذي تم تطويره في أبوظبي بقدرته على تمكين أكثر من 400 مليون ناطق باللغة العربية من استكشاف إمكانيات الذكاء الاصطناعي التوليدي.

ويعزز هذا الإنجاز مكانة دولة الإمارات كمركز رائد في مجالي الذكاء الاصطناعي والابتكار، ويسهم في الحفاظ على الثقافة وتعزيز التعاون الدولي.

وسبق لدولة الإمارات العربية المتحدة تطوير نموذج لغوي مفتوح المصدر بحجم كبير أيضًا، وهو معروف باسم “Falcon”. تم تطوير هذا النموذج في معهد الابتكار التكنولوجي، وهو مركز رائد عالمياً للأبحاث العلمية والذراع التطبيقي لمجلس أبحاث التكنولوجيا المتقدمة في أبوظبي. حيث تم استخدام أكثر من 300 وحدة معالجة من شركة Nvidia في تطوير هذا النموذج.

ووقعت شركة (Cerebras) اتفاق بقيمة 100 مليون دولار لتوريد 0تسعة أجهزة كمبيوتر عملاقة إلى شركة G42، وهذه الصفقة تعتبر واحدة من أكبر الصفقات من نوعها لمنافس محتمل لشركة (إنفيديا) التي تواجه نقصاً في توريد منتجاتها، وذلك نظراً لزيادة الاهتمام المتزايد بأدوات الذكاء الاصطناعي التوليدي.

وتستطيع النماذج اللغوية المتقدمة اليوم، مثل نموذج (PaLM) المستخدم في روبوت جوجل Bard، و نموذج (GPT-4) المستخدم في (ChatGPT)، فهم وإنشاء النصوص باللغة العربية. ومع ذلك، لا يمكنهما تحقيق نفس مستوى الدقة الذي يتيحه نموذج جيس Jais.

وقال الرئيس التنفيذي لمركز (إنسبشن) للذكاء الاصطناعي؛ أندرو جاكسون: “العنصر العربي في النماذج اللغوية الكبيرة الحالية يمكن أن يُخفف بشدة، ويمكن أن تعمل هذه النماذج بفاعلية تصل إلى 100 لغة”.

الرئيس التنفيذي لمركز (إنسبشن) للذكاء الاصطناعي؛ أندرو جاكسون

تم تصميم جيس أيضًا لتحقيق فهم دقيق لثقافة المنطقة العربية وسياقها، وهو مختلف عن معظم النماذج التي تركز بشكل أساسي على الولايات المتحدة

لهذا السبب، يُظهر نموذج GPT-3 أداءً أفضل من نموذج Falcon، عند قياس دقته في اللغة العربية، وفقًا لمُطوِّريه.

مزايا نموذج Jais

جيس هو نموذج لغوي كبير قائم على تقنية المحولات، ويستفيد من مجموعة متقدمة من الميزات، ومن بين هذه الميزات: تقنية الانتباه للتحيزات الخطية (ALiBi) التي تساعد النموذج في فهم سلاسل طويلة لتوفير سياق دقيق ومحسّن.

ومن بين التقنيات الرائدة التي يستفيد منها النموذج أيضًا هناك استخدام دالة تنشيط وحدات SwiGLU المساهمة في تحديد حدود التحديث الأقصى للمعلمات، وذلك بهدف تعزيز فعالية تدريب النموذج وزيادة دقته.

وفي أسلوب عمل نموذج جيس “Jais”، يعتمد على تحليل 13 مليار مؤشر وقام بالتدريب باستخدام مجموعة بيانات متقدمة تضم 395 مليار رمز باللغتين العربية والإنجليزية.

وأنشأ فريق من جامعة محمد بن زايد للذكاء الاصطناعي بالتعاون مع مركز (إنسبشن) نموذج (Jais) وعمل على تقييمه وتحسينه بعد تدريبه على مجموعة بيانات مخصصة تحتوي على 116 مليار رمز مميز (tokens) باللغة العربية، بهدف تعزيز فهم واستيعاب تعقيد وتنوع وثراء هذه اللغة.

وأوضح الأستاذ في مجال الذكاء الاصطناعي بجامعة محمد بن زايد، البروفيسور تيموثي بولدوين، أن نقص البيانات العربية الكافية لتدريب نموذج بحجم (جيس) دفع بالكود المُستخدم في بيانات اللغة الإنجليزية إلى تعزيز قدرات النموذج على التفكير.

البروفيسور تيموثي بولدوين

الكود الذي يتواجد في بيانات اللغة الإنجليزية يمنح النموذج تعزيزًا كبيرًا في مجال تطوير قدراته على التفكير، حيث يوضح الخطوات المنطقية بوضوح

وتم استخدام حاسوب الذكاء الاصطناعي الفائق كوندور جالاكسي1 (CG-1) في تدريب النموذج، وهذا الحاسوب تم تطويره بالتعاون بين شركتي G42 وCerebras. وتم استخدام مجموعة بيانات تحتوي على 279 مليار رمز متميز باللغة الإنجليزية لتحسين أداء النموذج من خلال التحويل الثنائي للغات.

وأكد مركز الفحص وجامعة محمد بن زايد للذكاء الاصطناعي أنهما سيواصلان جهودهما في تطوير النموذج وزيادة نطاقه، بهدف متابعة نمو المجتمع من المستخدمين.

نموذج Jais يتفوق على النماذج اللغوية العربية الأخرى

يهدف مركز Inception إلى تعزيز مشاركة المجتمعات العلمية والأكاديمية والمطورين في تسريع نمو منظومة حيوية للذكاء الاصطناعي باللغة العربية من خلال فتح الشيفرة المصدرية لنموذج جيس.

وذلك بهدف النهوض بمستوى الابتكار في هذا المجال. ويمكن أن يكون جيس نموذجًا يُعتمد عليه كنموذج يحتذى به للغات أخرى التي لا تتمتع حاليًا بالتمثيل الكافي في مجالات الذكاء الاصطناعي البارزة.

قال أندرو جاكسون: “نعتقد في إنسبشن أن التعاون هو الأساس لتعزيز النجاح، ونقوم اليوم بتعيين معيار جديد لتطوير الذكاء الاصطناعي في منطقة الشرق الأوسط، وذلك لضمان مكانة متميزة للغة العربية بكل غناها وتاريخها ضمن مجال الذكاء الاصطناعي.

وأشار إلى أن نموذج جيس “Jais” يُظهر التزامنا الراسخ بالتفوق والابتكار ونشر نظام الذكاء الاصطناعي على نطاق واسع.

وتوضّح التقييمات أن نموذج GPT يتفوق بشكل كبير على النماذج اللغوية العربية الحالية وينافس بنجاح النماذج اللغوية الإنجليزية، على الرغم من تلقيه تدريبًا أقل على بيانات اللغة الإنجليزية.

والنتائج تشير إلى أن النموذج يتعلم من بيانات اللغة العربية والإنجليزية بشكل متبادل، وهذا يفتح أفاقًا جديدة لتطوير وتدريب النماذج اللغوية الكبيرة.

وقال رئيس جامعة محمد بن زايد للذكاء الاصطناعي وأستاذ جامعي، البروفيسور إيريك زينغ: “إن تطوير نموذج لغوي بحجم كبير للغة العربية يتطلب إجراء أبحاث متقدمة في مجال الذكاء الاصطناعي، والوصول إلى تفاهم عميق للغة العربية بمختلف تجلياتها وتنوعها الغني”.

وأضاف زينغ: “نظرًا للأهمية المتزايدة للنماذج اللغوية الكبيرة في المجتمع، ستظل جامعة محمد بن زايد للذكاء الاصطناعي تقود جهود تطوير النماذج اللغوية الكبيرة ذات الكفاءة والفعالية والدقة العالية”.

التسجيل في نموذج جيس Jais

بإمكان المستخدمين تنزيل نموذج (جيس) من موقع (Hugging Face) بعد التسجيل في الموقع الإلكتروني للنموذج، حيث سيتم إرسال دعوة لهم للوصول إليه وتجربته.

مقالات ذات صلة

زر الذهاب إلى الأعلى