المستقبل: Google تطلق «العقل المُدبر» للروبوتات [ Gemini Robotics-ER 1.5 ]

أعلنت Google DeepMind عن Gemini Robotics-ER 1.5، نموذج تفكيري مُخصص لـ«التفكير المتجسد» يرفع قدرات الروبوتات من تنفيذ أوامر بسيطة إلى تخطيط طويل الأمد وتفكيك المهام المعقّدة إلى خطوات قابلة للتنفيذ ؛؛

أبرز ما يميّز النموذج 👋👇

✴️ استدعاء الأدوات (Tool Calling): يمكنه الرجوع إلى خدمات خارجية مثل Google Search أو نماذج VLA خاصة، للحصول على قواعد محلية أو معلومات مكمّلة أثناء التخطيط.
✴️ استدلال مكاني وزمني (Spatial & Temporal Reasoning): فهم دقيق لمواقع العناصر وتسلسل الأحداث من الفيديو، وهو ما يحسن تخطيط الحركة والتعامل مع البيئات الحقيقية.
✴️ ميزانية تفكير مرنة (Flexible Thinking Budget): تحكم في التوازن بين سرعة الاستجابة ودقة التخطيط، وكذلك استجابة فورية للمهام البسيطة أو زمن أطول لمهام ذات أولوية عالية.
✴️ فلاتر سلامة محسنة: رفض تلقائي للخطط التي تتعارض مع قيود فيزيائية (مثل حمولة أو مدى ذراع الروبوت)، وتعزيز السلامة التشغيلية.

الابتكار التقني الأهم ◀️ بنية ER – VLA والتقنية المسماة «Motion Transfer» تسمحان بنقل المهارات بين أجسام روبوتية مختلفة، وهي خطوة حاسمة لتعميم القدرات عبر أذرع روبوتية، أو متنقلات، أو منصات منزلية.

للمهتمين 💡 تقرير التقنية والكود وأمثلة الاستخدام متاحة في صفحات البحث الرسمية والـ arXiv، ويمكنك الاطلاع والبدء بالتجربة على Google AI Studio وGemini API !!

الورقة 🔗

https://arxiv.org/abs/2510.03342

الكود 🔗

https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb

المستندات المصدرية 🔗

https://ai.google.dev/gemini-api/docs/robotics-overview