طور باحثو آبل نظامًا جديدًا للذكاء الاصطناعي يمكنه فهم الإشارات الغامضة للكيانات التي تظهر عبر الشاشة بالإضافة إلى سياق المحادثة والخلفية، مما يتيح تفاعلات طبيعية إضافية مع المساعدين الصوتيين.
ووفقًا لورقة بحثية، يستفيد النظام المسمى ReALM من نماذج اللغة الكبيرة لتحويل المهمة المعقدة للتحليل المرجعي إلى مشكلة نمذجة لغوية، ويشمل ذلك فهم الإشارات إلى العناصر المرئية عبر الشاشة.
ويتيح ذلك لنظام ReALM تحقيق مكاسب كبيرة في الأداء مقارنةً بالطرق الحالية.
وكتب فريق الباحثين في آبل: “تعد القدرة على فهم السياق أمرًا ضروريًا لمساعد المحادثة، ويشمل ذلك المراجع. يعد تمكين المستخدم من إصدار استفسارات بخصوص ما يراه عبر شاشته خطوة حاسمة في ضمان تجربة حقيقية دون استخدام اليدين في المساعدين الصوتيين”.
ولمعالجة المراجع المستندة إلى الشاشة، يعد أحد الابتكارات الرئيسية لنظام ReALM في إعادة بناء الشاشة باستخدام الكيانات التي تظهر عبر الشاشة والتي حللها النظام وحلل مواقعها من أجل إنشاء تمثيل نصي يجسد التخطيط البصري.
وأظهر الباحثون أن هذا النهج، إلى جانب النماذج اللغوية الدقيقة المخصصة للدقة المرجعية، قد يتفوق على GPT-4 في المهمة.
وكتب الباحثون: “أظهرنا تحسينات كبيرة على نظام موجود بوظائف مماثلة عبر أنواع مختلفة من المراجع، وحصل نموذجنا الصغير على مكاسب تزيد على 5 في المئة للمراجع التي تظهر عبر الشاشة. تتفوق نماذجنا الكبيرة الحجم على GPT-4”.
ويسلط العمل الضوء على إمكانات النماذج اللغوية الكبيرة المخصصة للتعامل مع مهام، مثل الدقة المرجعية في أنظمة الإنتاج عندما يكون استخدام النماذج اللغوية الكبيرة الشاملة غير ممكن بسبب زمن الوصول أو القيود الحسابية.
وتسعى آبل من خلال استثماراتها البحثية المتواصلة إلى زيادة وعي سيري والمنتجات الأخرى بالسياق.
ويحذر باحثو آبل من أن الاعتماد على التحليل الآلي للشاشات له حدود. ومن المحتمل أن تكون هناك حاجة إلى إدماج الرؤية الحاسوبية والتقنيات المتعددة الوسائط من أجل التعامل مع المراجع المرئية المعقدة، مثل التمييز بين الصور المتعددة.
وتخطو آبل خطوات كبيرة في أبحاث الذكاء الاصطناعي، حتى في الوقت الذي تتخلف فيه عن منافسيها في مجال التكنولوجيا في السباق للسيطرة على مشهد الذكاء الاصطناعي السريع التطور.
ومن النماذج المتعددة الوسائط التي تمزج بين الرؤية واللغة، وأدوات الرسوم المتحركة التي تعمل بالذكاء الاصطناعي، إلى تقنيات بناء ذكاء اصطناعي متخصص عالي الأداء بميزانية محدودة، تشير الاختراقات من مختبرات أبحاث الشركة إلى أن طموحاتها في مجال الذكاء الاصطناعي تتصاعد بسرعة.
وتواجه آبل منافسة شديدة من أمثال جوجل وأمازون و OpenAI ومايكروسوفت، التي أدمجت الذكاء الاصطناعي التوليدي في البحث والبرامج المكتبية والخدمات السحابية والمزيد.
ومن المتوقع أن تكشف الشركة عن إطار نموذج لغوي كبير جديد، وروبوت الدردشة Apple GPT، ومزايا أخرى مدعومة بالذكاء الاصطناعي عبر نظامها البيئي في مؤتمرها العالمي للمطورين القادم.
نسخ الرابط
تم نسخ الرابط