بالأمس تحدثنا عن البحث الذي يهدف إلى تطوير و تحديث كاميرا مراقبة تفسر وتكتب. بحيث يمكنها أن تستوعب محتوى ما تصوره و ما تأثيره من خلال ما يسمى ’بالرؤية الذكية‘. اليوم سوف نتحدث عن ما يدعى (I2T) و هو إختصار لـ (من صورة إلى نص Image to Text)، و هو نظام رؤية حاسوبي تم تطويره بواسطة باحثين من جامعة لوس أنجليس بكاليفورنيا. وذلك كان بالتعاون مع شركة (أوبجيكت فيديو) بولاية فرجينيا الأمريكية.
البرمجة التي يقوم عليها (I2T) تشمل معادلات حسابية للرؤية تقوم بتحليل الصور و وضع قائمة بما يوجد بالكادر الذي تصوره. عملياً، تقوم الكاميرا بتقسيم الصورة إلى مجموعة من الأشكال و مطابقتها بالأسماء.
عملية مطابقة المناظر بالأسماء تتم في الواقع بمساعدة العنصر البشري. لقد شارك المبرمج (سونج- تشون زوو) صاحب هذه البرمجة في مشروع عام 2005. والذي كان يتضمن مساعدة من طالب في كلية الفنون. حيث كان عليه أن يعمل على تعريف و تصنيف مجلد به أكثر من 2 مليون صورة على أكثر من 500 فئة.
حالما تنقسم الصورة إلى عدة مقاطع أو مناظر يتم إرجاعها إلى الأرشيف و تحديد الأسم المطابق لها. علاوة على ذلك فإن برنامج (Image to Text) قادر على وصف حركات الأجسام داخل الصورة عن طريق عبارات تلقائية مثل: “الرجل رقم1 دخل السيارة في الـ 11:45 و غادرها في الـ 01:14”.
الأجسام التي تظهر بتكرار يتم حفظها و إستيعابها. حيث تسمى السيارة التي ظهرت من قبل بـ (سيارة رقم1) و ليس (سيارة رقم2) عندما تظهر مجدداً في الصورة.
نظام (I2T) الذي بلا شك يمكن إستخدامه في الأنظمة الداخلية للمراقبة بكاميرات الفيديو، يحتاج إلى إلى مزيد من التطوير قبل أن يصبح مناسب حقاً ليضاهي قدرات التحليل البشرية و يصبح متاحاً في الأسواق. يستطيع أصدقائنا الذين يعملون أثناء نوبات المراقبة الليلية الإسترخاء لأنهم لن يخسروا وظيفتهم!