در این مقاله مروری، سعی ما بر آن است که اصول بازشناسی اشیاء و نحوه ی انجام آن توسط سیستم بینایی بیولوژیکی (زیستی) را به اختصار بیان کنیم؛ که این مورد یکی از اهداف رایانه و هوش مصنوعی نیز می باشد.
در همین حال نگاهی به تئوریها و مدلهای محاسباتی بازشناسی اشیاء خواهیم داشت که در آنها ایده اصلی به نوعی از سیستم بینایی گرفته شده است یا به عبارتی دیگر از مدلها و تئوریهایی که از نگاه بیولوژیکی، قابل باور هستند.
بینایی کامپیوتر ، به خوبی می تواند نمونه های محدودی از بازشناسی اشیاء را، هم دسته بندی و هم شناسایی کند.
در عین حال سیستمی که قادر به دسته بندی اقسام اشیاء در تصاویر پیچیده باشد و هم چنین بتواند تصاویری همانند چهره انسان را در سطحی برابر با توانایی بشر، در شرایط مختلف نور و زاویه دید بازشناسی کند، قادر به گذراندن تست «Turing» برای بینایی می باشد.
جای تعجب نیست که آن چنان سیستم منعطف و جامعی هنوز موضوع چشم انداز علم است.
باز شناسی اشیاء، در بالاترین نقطه سلسله مراتب اعمال بینایی قرار دارد و در حالت کلی یک مسئله محاسباتی پیچیده است، که نقش مهمی در ساختار نهایی ماشین های هوشمند خواهد داشت.
بدون اغراق، این مسئله موضوع پیچیده تر و بدون جوابی برای علوم اعصاب شناختی نیز می باشد.
شناسایی و دسته بندی دو عمل مهم در بازشناسی هستند.
کدام یک از عمل آسانتر و انجام آن در اولویت است؟
جواب این سؤال در علوم اعصاب شناختی متفاوت از پاسخ آن در بینایی کامپیوتر است.
معمولاً تکنیک های بینایی کامپیوتر شناسایی را بسیار آسانتر دریافتند همچنان که کمپانی های بسیاری، سیستم های شناسایی چهره را به راحتی می فروشند ولی امر دسته بندی را تقریباً غیر ممکن می داند.
حال آنکه روانشناسان و علوم اعصاب شناسان این داستان را بر عکس بیان می کنند: بدین صورت که در سیستم های بینایی بیولوژیک، طی پروسه بازشناسی، دسته بندی به نظر مرحله ای ساده تر و مقدم تر
نسبت به شناسایی به شمار می رود.
تئوری های بازشناسی اشیاء، بر یک پدیده مشترک تحت عنوان بازنمایی استوارند.
باور عمومی بر این است که، یک بازنمایی خوب، منجر به بازشناسی کامل می شود و دیگر امور مربوط به بینایی را نیز تسریع می کند.
برای حل مسئله بازنمایی نوعی تطابق بین مجموعه اشیاء بیرونی و اجزاء داخلی باید در نظر گرفته شود.
در میان مدلهای بیولوژیکی بازشناسی اشیاء، تفاوت اصلی بین سیستم های پیشرو و فیدبک و بین سیستم های «object - centered» و «view - centered» است.
تمرکز این مقاله بازنگری، بر روی مدلهای پیشرو «view - centered» است، که با شواهد نورو بیولوژیکی سازگاری بیشتری دارند.
بخش 2 و 3 پیش زمینه ای برای سیستم های بینایی بیولوژیکی و بازنمایی های ممکن برای اجسام خارجی در یک سیستم بازشناسی را ارائه می دهد.
بخش 4 سه نوع مختلف تئوری های بازشناسی اشیاء بررسی می کند.
بخش 5 مدلهای بازشناسی اشیاء، مبتنی بر تئوریهای ذکر شده را شرح می دهد و بخش 6 خلاصه ای از مقاله را ارائه می کند.
2 بازشناسی اشیاء در مغز:
سیستم بینایی انسان سلسله مراتب از نواحی چند گانه مغزی است که محاسبات نورونی پیشرو بر روی سیگنالهای بینایی ورودی را انجام می دهند.
در مراحل اولیه، قشرهای بینایی V1 و V2 عمل شناسایی خط و لبه را انجام می دهند.
در مرحله بالاتر پردازش، ناحیه V4 ، اشکال تقریباً پیچیده را با اطلاعاتی درباره توضیحات ساختاری ویژگی های حاصل شده، بازنمایی می کنند.
مرحله نهایی پردازش بینایی، «IT» یا قشر تحتانی می باشد که گمان می رود بازشناسی بینایی اشیاء را انجام می دهد.
3 بازنمایی:
بازنمایی و اهداف آن به طور کلی می توانند دو دسته در نظر گرفته شوند.
در نتیجه بازنمایی به یک نوع نگاشت تبدیل می شود.
این نگاشت، تطابقی بین ویژگی های خارجی و دسته اجزاء داخلی می باشد؛ ولی این تطابق از کدام گونه از ارتباطات باید باشد؟
3ـ1 تناظر درجه اول و دوم: دو نوع نگاشت مختلف بین دامنه و برد بازنمایی ها وجود دارد.
بهترین حالت، تطابق یک به یک (Isomorphism) است.
یک حالت نا مطلوب اما اجتناب ناپذیر، نگاشت چند به یک (Homomorphism) است.
اجتناب ناپذیر است، زیرا از سیستم هایی با منابع محدود سر چشمه می گیرد که توانایی بازنمایی تمامی خواص محرک های فیزیکی را با دقیق ترین جزئیات ندارد.
یک نکته مهم این است که، تناظر باید بین الف: یک شیء خاص و ب: بازنمایی های داخلی متقابل آن برقرار شود (روابط درجه اول).
اما در روابط درجه دوم تناظر بین الف) روابط میان اشیاء خارجی و ب) روابط میان بازنمایی های خارجی متقابل آنها است.
بنابراین، محققان به این نتیجه رسیده اند که تناظر درجه اول مانند بازنمایی به وسیله تشابه، در سیستم هایی با منابع محدود ما برای پیاده سازی مناسب نمی باشند.
در همین راستا، تئوریسین ها تناظر را نه بین اجزاء خاص بلکه بین ساختارها بیان می کنند (تناظر درجه دوم) به طور خلاصه، در بازنمایی تناظر درجه دوم فقط روابط خاص بین اشیاء، نیاز به بازنمایی دارد؛ نه شکل ظاهری خود اشیاء.
شکل 1 ـ بازنمایی، تناظر درجه دوم: در اینجا تناظر بین فاصله در دو فضا است.
توابع فاصله خارجی و داخلی هستند.
توجه کنید که بازنمایی، متشکل از چند نماد است که به اشیاء خارجی اشاره می کند؛ ولی خود آنها را بازنمایی نمی کند، بلکه آنها را به عنوان بخشی از ساختار فواصل نشان می دهد.
4ـ تئوریهای محاسباتی بازشناسی اشیاء: در حقیقت سه رویکرد اصلی در تئوریهای محاسباتی بازشناسی وجود دارد: 1ـ تجزیه ساختاری 2ـ ویژگی های هندسی 3ـ فضاهای ویژگی چند بعدی که در ادامه مروری بر هر یک از این روشها خواهیم داشت.
4ـ1 ـ تئوری تجزیه ساختاری: در یک مدل تئوری ساختاری، یک شیء توسط تعداد محدودی از اجزاء نوعی بازنمایی می شود همانطور که از اسم این تئوری انتظار می رود، ساختار شیء به اشکال اولیه تجزیه می شود.
تجزیه ای ساختاری که مطابق با همان اجزاء نوعی ذکر شده است.
به کمک این اصطلاحات، تئوری تجزیه ساختاری در دسته تناظر یک به یک قرار می گیرد.
یک بحث در این تئوری، استاندارد سازی عناصر اولیه و ارتباطات آنها است، که به ما اجازه می دهد که نسبت به اشیاء جدید همانند اشیاء شناخته شده عمل کنیم.
روشهای ساختاری در بازشناسی بصری اشیاء، یادآور تئوری های مشابه مطرح شده در پردازش زبان هستند که در آنها جملات، متناظر با اشیاء و کلمات نیز متناظر با اجزاء آن اشیاء هستند.
بنابراین تجزیه یک شی ء ، مثل شکستن یک جمله است.
مقایسه بعدی بین توصیفات ساختاری اشیاء است که به طور ریاضی، دسته بندی نظیر به نظیر نموداری انجام می دهد.
این بدین معناست که حجم محاسبات لازم برای رسیدن به یک راه حل، به طور نمایی به اندازه آن مسئله وابسته است؛ برای این مثال اجزاء یک شیء که قرار است با هم هماهنگ شوند.
هنگام بررسی کارایی این تئوری، باید به این واقعیت دقت کنیم که محدودیت ما مربوط به خود تئوری ساختاری است؛ نه الگوریتم پیاده سازی آن.
چند مدل بر اساس این تئوری پیشنهاد شده است، مانند مدل «بازشناسی از روی اجزاء» که معروفترین مدل از تئوری است تجزیه ساختاری است و تأکید آن بر تجزیه یک شیء به اشکال هندسی ساده در آن، یادآور روش پیشنهادی توسط آقایان Marr و Nishiara است.
4ـ1ـ1ـ مشکلات محاسباتی تجزیه ساختاری: سه مشکل عمده برای تئوری تجزیه ساختاری وجود دارد: 1ـ نیاز به اطلاعات متریک؛ 2ـ سختی بازیابی اجزاء؛ 3ـ ناپایداری توصیفات مربوط به اجزاء هر بخش؛ شکل 2 این کمبود را در رابطه با تئوری تجزیه ساختاری نشان می دهد.
شکل 2 ـ مشکلات محاسباتی بازنمایی ساختاری: الف) توصیفات ساختاری باید همراه با اطلاعات متریک باشند، تا بتوانند تفاوت های بین دسته هایی که به وفور مشاهده می شوند را بازنمایی کنند.
در برداشتن جزئیات متریک، توانایی متدهای ساختاری را در مواجه با اشیاء جدید کاهش می دهد.
ب) تصویری از یک گاری است که همانطور که آقای «Biderman» پیشنهاد می دهد، ممکن است با آن شکل در سیستم بینایی تجزیه ساختاری شود.
در عین حال تا کنون هیچ روش قابل اعتمادی برای نگاشت یک تصویر سیاه و سفید، یک مجموعه است اجزاء اولیه بر حسب خورده وجود ندارد.
ج) حتی در اعماق ساده تر، مانند بازشناسی حروف که شکل براحتی قابل جداسازی از زمینه است، استخراج یک توصیف ساختاری مشکل ساز است.
مشکل از آنجا ناشی می شود که امکان تخصیص توصیف های ساختاری چند گانه، به یک تصویر وجود دارد.
د) در بعضی کارها حتی در ارائه یک توصیف ساختاری نیز با مشکل مواجه می شویم.
برای مثال چگونه می توان یک کفش را به وسیله ساختارهای پایه مدل (R b c) بازنمایی کرد.
4ـ2ـ تئوریهای مبتنی بر ویژگی های هندسی: در حالی که متدهای ساختاری، بسیاری از اطلاعات کمی موجود در ویژگی های اشیاء را نادیده می گیرند؛ متدهای هندسی مانند «alignment» از این اطلاعات استفاده می کنند، تا اشیاء را شناسایی و موقعیت آنها را نسبت به ناظر محاسبه می کنند.
تئوریهای مبتنی بر هندسه، لیستی از محورهایی با ویژگی های متمایز (با قابلیت شناسایی آسان) و متناظر با اشیاء را به منظور بازنمایی آنها تهیه می کنند.
در نتیجه، بازنمایی یک مستطیل در دو بعد، لیستی از هشت علامت که مختصات (x,y) چهار گوشه آن است را، تشکیل می دهد.
با توجه به اصطلاحات اخیر ما، روش های بازنمایی هندسی در دسته تناظر درجه اول قرار می گیرد.
مدلهای مبتنی بر این تئوری مشکلات اساسی دارد.
یکی از مشکلات اصلی این مدلها وابستگی به اندازه و زاویه دید است.
به عنوان مثال، در یک سیستم بازشناسی چهره مبتنی بر تئوری هندسی اگر در اندازه یک تغییر کوچک ایجاد کنیم؛ تمام ویژگی های هندسی مثل فاصله بین دو چشم و یا طول بینی تغییر خواهند کرد و این بحرانی جدید، برای کارایی سیستم است و سبب عملکرد نادرست سیستم می شود.
4ـ3ـ فضای ویژگی چند بعدی: گفتیم که روش ساختاری به بازنمایی از طریق جزئیات متریک اشیاء زیاد اهمیت نمی دهد، در حالی که روشهای هندسی خیلی به این گونه جزئیات وابسته هستند.
انتخاب یک فضای ویژگی چند بعدی به عنوان ابزار بازنمایی به ایجاد نوعی از تئوریها منجر می شود که این تئوریها در حد واسط دو تئوری قبلی حرکت می کنند.
از میان سه نوع تئوری بررسی شده تا کنون، فضای ویژگی چند بعدی تنها تئوری است که لزوماً در دسته تناظر درجه اول قرار نمی گیرد.
هر چند که اطلاعات هندسی، می توانند برای تعریف ابعاد یک فضای ویژگی استفاده شوند، اما این تنها روش نیست؛ بلکه می توان یک نوع مستطیل را، به عنوان مثال، به خوبی توسط مختصات (قطر و نسبت طول و عرض) بازنمایی کرد.
در حقیقت، معمولاً محدودیت هایی که از لحاظ محاسباتی و پیاده سازی داریم، سبب می شود که از ویژگی های هندسی بسیار مفید، به خاطر بازیابی مشکل آنها استفاده نشود.
در نتیجه یک فضای ویژگی برای بازنمایی و پوشش دادن اعمال بینایی باید از یک تناظر درجه دوم، برای دنیای اشکال برخوردار باشد.
4ـ3ـ1ـ مشکلات محاسباتی فضای ویژگی: اولین مشکل، دشواری یادگیری از نمونه ها در فضای چند بعدی است.
از آنجا که باید یادگیری بازنمایی های آماری صورت بگیرد، ابعاد نقش اساسی در قابلیت پیاده سازی آن ایفا می کنند.
یادگیری از نمونه ها در فضایی با ابعاد بالا، به لحاظ محاسباتی مشکل ساز است.
مشکل دیگر، کاهش ابعاد در عین حفظ توانایی سیستم بازنمایی در مواجه با اشیاء تازه، بدون نیاز به ویژگی های جدید است.
اما مشکل اصلی روشهای فضای ویژگی، یافتن ویژگی هایی است که قادر باشند با ضریب اطمینان بالا، بین اشیاء مشابه تفاوت قائل شوند و در عین حال با وجود تغییرات در یک شکل ناشی از عوامل مختلف، بازنمایی صحیح را انجام دهند.
به اختصار می توان گفت، متد فضای ویژگی در صورتیکه برای رسیدن به تغییر نا پذیری، قابلیت تشخیص ویژگی ها را از دست ندهیم و همچنین اگر ابعاد فضای بازنمایی برای یادگیری کارا و قابل تعمیم به اندازه کافی کوچک شود، به یک تئوری جذاب تر تبدیل می شود.
5ـ مدل های محاسباتی بازشناسی اشیاء: تا کنون مدلهایی بر اساس تئوریهای بازشناسی اشیاء که در بخش قبل مطرح شد، پیشنهاد شده است.
مدل های بازشناسی اشیاء (به جز مدلهایی مبتنی بر ویژگی های هندسی به خاطر مشکلات عمده ای که دارد) به طور کلی می توانند به دو دسته تقسیم شوند: 1ـ «object – centered»؛ که بر تئوری تجزیه ساختاری استوار است.
2ـ «view – based»؛ که در چهارچوب کلی فضای ویژگی قرار می گیرد.
توجه کنید که این دو گروه اصلی مدلها، می توانند بر اساس پیشرو بودن یا استفاده از فیدبک نیز دسته بندی شوند، که البته این مورد فقط برای فرایند بازشناسی است و در فاز یادگیری که در آن سیگنالهای بالا به پایین آموزشی استفاده می شوند، انجام نمی شود.
مدلهای فیدبک شامل اصول ساختاری هستند که بازشناسی را با استفاده از روش فرضیه و تست انجام می دهند، به این ترتیب که ابتدا سیستم در مورد شیء ای که ممکن است در تصویر باشد، یک حدس می زند؛ آنگاه بر اساس حافظه ذخیره شده اش، نوعی بازنمایی نورونی انجام می دهد.
سپس فاصله بین فرض و ورودی بصری واقعی را اندازه می گیرد و این کار را تا تصحیح فرضیه اولیه ادامه می دهد.
به عنوان نمونه می توان از مدلهای: «Rao& Ballard» ، «Mumford» و در بخشهایی از مدل «ullman’s» نام برد، که جزئی از این دسته بندی به شمار می آیند.
مدلهای دیگر، از کنترل فیدبک برای نرمالیزه کردن مجدد موقعیت و اندازه تصویر ورودی استفاده می کنند و این مرحله قبل از تطابق تصویر ورودی با یک بانک داده از اشیاء ذخیره شده، صورت می گیرد.
این در حالی است که پردازش فیدبک در گروه قبلی مدلها، رکن اساسی بود.
دیگر مدلهای «Image – based» فقط مبتنی بر پردازش پیشرو می باشند.
در این بخش ما مدلهایی از «object - centered» و «view - centered» در بازشناسی اشیاء را مورد بررسی قرار می دهیم.
مدل اول بازشناسی توسط اجزاء (Rbc) است که در مجموعه «object - centered» قرار می گیرد و مدل دوم یک مدل سلسله مراتبی بازشناسی اشیاء، در قشر مغز است که از عملکرد «MAX» استفاده می کند.
(HMAX).
5ـ1ـ بازشناسی از طریق اجزاء (Rbc): تئوری بازشناسی از طریق اشیاء «Biderman» یک تئوری ساختاری نوعی است که مجموعه ای شامل حدود 30 شکل اولیه را فرض می کند و ادعا می کند که بخاطر خواص غیر تصادفی که دارند، براحتی قابل شناسایی هستند.
در واقع فرض اساسی مدل (Rbc) این است که، گروهی از اشکال اولیه را براحتی می توان از روی 5 خاصیت موجود در لبه ها، در یک تصویر دو بعدی نتیجه گرفت: انحنا، ، تقارن، توازی، ،.
موارد ذکر شده ویژگی های تصاویر دو بعدی هستند که می توانند، استنتاج و نتایجی درباره ساختار سه بعدی شیء به ما بدهند.
شناسایی این خواص معمولاً با تغییر زاویه دید و کیفیت تصویر، دستخوش تغییر نشده و در نتیجه منجر به بازشناسی صحیح اشیاء می شود.
حتی زمانیکه از زاویه دید جدیدی نگریسته شوند.
یک نمونه از این ویژگی ها، موازی بودن دو خط است.
از آنجا که تطبیق تصویر دو قسمت که در فضای سه بعدی موازی نیستند نا محتمل است، دو خط موازی در تصویر، نشانگر خوبی از وجود یک شکل اولیه سه بعدی مانند یک استوار است.
استفاده از ویژگی های غیر تصادفی، برای استنتاج وجود شکل اولیه و همچنین محاسبات گسترده ساختار گرافی شیء ورودی، از اجزاء اصلی پیاده سازی (Rbc) که در [11] شرح داده شده است.
این عمل، نشان دهنده ی توانایی شبکه عصبی چند لایه، در استخراج بازنمایی های ساختاری از نقاشی های بر چسب خورده است.
در این حال همانطور که در شکل 2 نیز اشاره شد، می توان به نقص های (Rbc) در جهات مختلف، اذعان کرد.