طور باحثو آبل أساليب جديدة لتدريب النماذج اللغوية الكبيرة على النصوص والصور، مما يتيح أنظمة ذكاء اصطناعي أكثر قوة ومرونة، فيما قد يكون تقدمًا كبيرًا للذكاء الاصطناعي ومنتجات الشركة المستقبلية.
ونشر الباحثون هذا الأسبوع ورقة بحثية بعنوان: “MM1: الأساليب والتحليلات والرؤى من التدريب السابق للنماذج اللغوية الكبيرة المتعددة الوسائط”.
وتوضح هذه الورقة البحثية المنشورة هذا الأسبوع كيف قد يؤدي الجمع بين أنواع مختلفة من بيانات التدريب ومعماريات النماذج إلى أداء متطور وفقًا لمجموعة من معايير الذكاء الاصطناعي.
ومن خلال تدريب النماذج على مجموعة بيانات متنوعة تشمل المعلومات المرئية واللغوية، تمكنت نماذج MM1 من التفوق في مهام، مثل التعليق على الصور، والإجابة المرئية عن الأسئلة، واستدلال اللغة الطبيعية.
ووجد باحثو آبل أيضًا أن اختيار برنامج تحويل تنسيق الصور ودقة الصور المدخلة كان لهما تأثير كبير في أداء النموذج.
وقالوا: “أظهرنا أن برنامج تحويل تنسيق الصورة مع دقة الصورة وعدد الرموز المميزة للصورة لهما تأثير كبير، في حين أن تصميم موصل لغة الرؤية له أهمية ضئيلة نسبيًا”.
ويشير هذا إلى أن التوسع المستمر وتحسين المكونات المرئية لهذه النماذج المتعددة الوسائط قد يكون أمرًا أساسيًا لتحقيق المزيد من المكاسب.
وأظهر نموذج MM1 الكبير المتضمن مقدار 30 مليار معلمة قدرات تعلم قوية في السياق، مما سمح له بإجراء تفكير متعدد الخطوات عبر صور مدخلة باستخدام سلسلة أفكار قليلة اللقطات.
ويشير هذا إلى إمكانية وجود نماذج كبيرة متعددة الوسائط لمعالجة المشكلات المعقدة والمفتوحة التي تتطلب فهمًا أساسيًا للغة وتوليدها.
ويأتي بحث MM1 في الوقت الذي تعمل فيه آبل على تكثيف استثماراتها في الذكاء الاصطناعي في محاولة للحاق بالمنافسين الذين سارعوا إلى إدماج قدرات الذكاء الاصطناعي التوليدي في منتجاتهم.
وتسير آبل على الطريق الصحيح لإنفاق مليار دولار سنويًا على تطوير الذكاء الاصطناعي، وفقًا لتقرير حديث لوكالة بلومبرغ.
ويظهر بحث MM1 أن آبل لديها الموهبة والموارد اللازمة لتحقيق تقدم متطور من أجل مواكبة سباق التسلح المتصاعد في مجال الذكاء الاصطناعي.