آبل تكشف Manzano: نموذج ثوري لفهم وتوليد الصور معًا وتحديات النماذج المفتوحة

آبل تكشف عن Manzano
كتب بواسطة: فائزة بشير | نشر في  twitter

كشفت شركة آبل مؤخرًا عن تفاصيل نموذج جديد يُدعى Manzano، المصمم خصيصًا لمعالجة الصور وفهمها وتوليدها في الوقت نفسه. يُعد هذا المجال تحديًا كبيرًا للنماذج المفتوحة المصدر التي غالبًا ما تواجه صعوبة الجمع بين فهم الصور وجودة توليدها، على عكس الأنظمة التجارية المتقدمة مثل تلك التي تطورها جوجل وOpenAI.

ولم يُطرح نموذج Manzano للاستخدام العام بعد، ولم توفر الشركة عرضًا تجريبيًا مباشرًا له، بل اقتصرت على نشر ورقة بحثية تضمنت عينات صور منخفضة الدقة، استُخدمت لمقارنة أداء النموذج مع نماذج مفتوحة المصدر مثل Deepseek Janus Pro، وأيضًا مع أنظمة تجارية مثل GPT-4o وGemini 2.5 Flash Image Generation المعروف باسم "Nano Banana".
إقرأ ايضاً:أصداء عالمية لقمة النصر والاتحاد: ماني يعود شبابًا وفريق العاصمة يُظهر قوته الكاملةفهد سندي يكشف الحقيقة وراء صلاحيات كريم بنزيمة ويوقف الشائعات حول دوره في الاتحاد

توضح آبل أن التحدي الرئيسي في هذا المجال يكمن في طبيعة معالجة الصور، إذ يتطلب الفهم معالجة تدفقات بيانات مستمرة، بينما يحتاج التوليد إلى تقسيم الصورة إلى رموز منفصلة، مما يسبب عادة تعارضًا داخليًا في النماذج اللغوية. لحل هذه المعضلة، ابتكرت آبل تصميمًا هجينًا يعتمد على مرمّز صور مشترك ينتج نوعين من الرموز: رموز مستمرة لفهم الصور ورموز منفصلة لتوليدها، ما يقلل التعارض بين المهمتين ويمنح النموذج مرونة أكبر في التعامل مع النصوص والرسوم المعقدة.

يتألف نموذج Manzano من ثلاثة مكونات رئيسية: المرمّز الهجين، النموذج اللغوي الموحد، ومُفكك الصور المستقل للإخراج النهائي. وقد طوّرت الشركة ثلاث نسخ من مفكك الصور بأحجام مختلفة (0.9 و1.75 و3.52 مليار معلمة) تدعم دقة تتراوح من 256 بكسل إلى 2048 بكسل. وتدرب النظام على 2.3 مليار زوج من الصور والنصوص العامة والداخلية، بالإضافة إلى مليار زوج نصوص وصور، بإجمالي 1.6 تريليون رمز.

أظهرت النتائج الأولية تفوق Manzano على نماذج أخرى في اختبارات معيارية مثل ScienceQA وMMMU وMathVista، خصوصًا في المهام المعتمدة على النصوص مثل تحليل الوثائق والرسوم البيانية، مع تحسن تدريجي للأداء عند زيادة حجم النموذج ليصل إلى 30 مليار معلمة.

إضافة إلى قدراته في الفهم، أثبت Manzano كفاءته في توليد الصور، من خلال تنفيذ أوامر معقدة، نقل الأنماط الفنية، وإجراء تعديلات مثل الإكمال (inpainting)، التوسيع (outpainting)، وتقدير العمق. وتعتبر آبل هذا النموذج خطوة مهمة نحو أنظمة ذكاء اصطناعي متعددة الوسائط، بفضل بنيته المعيارية التي تسمح بتحديث مكوناته بشكل مستقل واستخدام أساليب تدريب متنوعة.

ومع ذلك، تعترف آبل أن نماذجها الأساسية لا تزال متأخرة نسبيًا مقارنة بالمنافسين، ما دفعها إلى الاستعانة بـGPT-5 من OpenAI ضمن ميزات Apple Intelligence في iOS 26. ويظل نجاح Manzano في تقليل اعتماد الشركة على النماذج الخارجية رهينًا بالتحديثات المستقبلية ومتابعة الأداء العملي للنموذج.

اقرأ ايضاً
الرئيسية | اتصل بنا | سياسة الخصوصية | X | Facebook