پیدایش علوم و فنون جدید، جوامع بشری را با شکلهای مختلفی از اطلاعات روبرو نموده است. سطح توسعه یک جامعه را می توان با مقدار اطلاعات و دانش تولید شده در آن ارزیابی کرد. تولید فزاینده اطلاعات به شکلهای مختلف صورت می گیرد و با درجات متفاوتی از پیچیدگی همراه میباشد. در نتیجه نیاز به سیستمهای پردازش اطلاعات بصورت روزافزون افزایش می یابد. یکی از مسائل مهم در طراحی سیستمهای مدرن اطلاعاتی، بازشناسی خودکار الگوها است.
1-1- شناسایی الگو
شناسایی الگو، شاخه ای از هوش مصنوعی است که با طبقه بندی و توصیف مشاهدات سروکار دارد.شناسایی الگو به ما کمک میکند داده ها (الگوها) را با تکیه بر دانش قبلی یا اطلاعات آماری استخراج شده از الگوها، طبقه بندی نماییم. الگوهایی که می بایست طبقه بندی شوند، معمولاً گروهی از سنجش ها یامشاهدات هستند که مجموعه نقاطی را در یک فضای چند بعدی مناسب تعریف می نمایند.یک سیستم شناسایی الگوی کامل متشکل است از یک حسگر ،که مشاهداتی را که می بایست توصیف یا طبقه بندی شوند جمع آوری می نماید، یک سازوکار برای استخراج ویژگی ها که اطلاعات عددی یا نمادین را از مشاهدات، محاسبه می کند، (این اطلاعات عددی را با یک بردار بنام بردار ویژگیها نمایش می دهند)؛ ویک نظام طبقه بندی یا توصیف که وظیفه اصلی طبقه بندی یا توصیف الگوها را با تکیه بر ویژگی های استخراج شده عهده داراست.
شکل 1-1 نمودار بلوکی یک سیستم شناسایی الگو را نشان می دهد. همانطوری که از پیکان های برگشتی مشخص است، این بلوک ها لزوماً مستقل نیستند و بسته به نتایج حاصله گاهی لازم است که
بلوک های اولیه مجدداً طراحی گردند تا راندمان کلی سیستم بهبود یابد.
نظام کلاسه بندی یا توصیف معمولا مبتنی بر وجود یک مجموعه از الگوهایی است که قبلا کلاسه بندی یا توصیف شده اند. این مجموعه الگوها را مجموعه آموزشی و قانون یادگیری منتج شده را قانون یادگیری باسرپرستی(با نظارت) می نامند همچنین یادگیری میتواند بصورت بدون نظارت باشد و این در حالی است که الگوهایی از قبل به سیستم داده نشده اند و در مقابل، سیستم خود براساس قواعد آماری الگوها، کلاسها را پایه گذاری میکند.
-2- کاربردهای بازشناسی الگو
بازشناسی الگو در بسیاری از زمینه ها نقش کاربردی دارد . بازشناسی حروف، بازشناسی نویسنده، تصدیق امضاء ، طبقه بندی اثر انگشت و بازشناسی گفتار نمونه هایی از این کاربردها هستند. شناسایی الگو برای تحلیل داده های پزشکی نیز بکار گرفته شده است. برای مثال تفسیر الکتروکاردیوگرام، تحلیل تصاویر و طبقه بندی کروموزمها را میتوان نام برد. نمونه های دیگری از این کاربردها شامل طبقه بندی x اشعه مناطق زراعی، مطالعه آلودگی آبها، آشکار کردن منابع زیرزمینی و پیش بینی آب و هواست. در این نوع کاربردها، تصاویر ارسال شده از ماهواره و تصاویرهوایی به کمک روشهای بازشناسی الگو تفسیر می شوند. بازرسی تصویری و بازشناسی قطعات ماشینی، از کاربردهای صنعتی شناسایی الگو هستند. تحلیل بافت، آشکارسازی هدف در سیگنالهای برگشتی رادار یا سونار ، طبقه بندی امواج زلزله و تشخیص ذرات شیمیائی کاربردهای دیگری ازبازشناسی الگو می باشند.
1-3- طرح پژوهش
در چند دهه گذشته مسأله بازشناسی الگوهای نوشتاری شامل حروف، ارقام و سایر نمادهای متداول دراسناد مکتوب شده به زبانهای مختلف، توسط گروههای مختلفی از محققین مورد مطالعه و بررسی قرار گرفته است. نتیجه این تحقیقات منجر به پیدایش مجموعه ای از روشهای سریع و تا حدزیادی مطمئن بمنظور وارد نمودن اطلاعات موجود دراسناد، مدارک، کتابها و سایر مکتوبات چاپی یا تایپ موسوم بهOCR شده و حتی دستنویس به داخل کامپیوتر شده است. مسئله بازشناسی حروف الفبای فارسی سابقه ای نه چندان طولانی به همراه دارد. نخستین گزارشهای رسمی منتشر شده از تلاشهای انجام گرفته در این راه، مربوط به سالیان نخست دهه 1980 میلادی است.
به رغم فراگیری نسبی کاربرد الفبای فارسی در میان ملل مختلف قاره آسیا،بررسیهای انجام شده در خصوص یافتن روشهایی برای بازشناسی حروف این الفبا بسیار محدود بوده است. بواسطه وجود تفاوتهای اساسی بین نحوه نگارش کلمات فارسی و کلمات لاتین نظیرچسبیده بودن حروف سازنده یک کلمه به یکدیگر و تغییر شکل حروف بر اساس موقعیت نسبی قرارگیری آن در یک کلمه فارسی، امکان اعمال مستقیم روشهای متداول در بازشناسی حروف انگلیسی بمنظور شناسایی حروف تشکیل دهنده کلمات فارسی وجود ندارد.
اکثر کارهای انجام شده در زمینه« اُْسی آر » در رابطه با متون لاتین، چینی و ژاپنی بوده است » نرم افزارهای تجاری « اُْسی آر » لاتین در سالهای اخیر پیشرفت کیفی قابل ملاحظه ای داشته اند. اما« اُْسی آر » فارسی با وجود حجم نسبتاً وسیع تحقیقات دانشگاهی و نیاز شدید بازار تجاری به آن، هنوز هم از جایگاه مورد نظر فاصله بسیاری دارد و تاکنون هیچ سیستم « اُْسی آر » کارآمدی که ازنظر دقت و کیفیت محیط نرم افزاری، قابل مقایسه با سیستم های « اُْسی آر » لاتین باشد، عرضه نگردیده است. در نتیجه ضرورت انجام تحقیقات بیشتر در زمینه متون فارسی و عربی کاملاً احساس می شود.
هدف از انجام این پروژه آزمایش توانایی تکنیک آنالیز اجزای اصلی جهت استخراج ویژگیهای مربوط به ارقام فارسی و کاربرد آن جهت شناسایی است که این امر در فصل آخر محقق شده است. امید است انجام این پروژه افقهایی نو را در مبحث آنالیز اسناد بگشاید.
فصل دوم- مروری بر سیتمهای OCR
2-1-بخشهای مختلف سیستمهای ocr
در ادامه ماهیت سیستمهای ocr، تاریخچه وبخشهای مختلف آن مورد بررسی قرار میگیرد.
2-1-1- بازشناسی نوری حروف
اصطلاح « اُْسی آر »به تکنیک هایی اطلاق می شود که در تصاویر اسکن یا فکس شده، نواحی متنی را تشخیص می دهند و سپس این نواحی(تصویری) را به متن قابل ویرایش تبدیل می نمایند .با دستگاهی به نام اسکنر می توان تصویر یک صفحه کاغذ را به صورت یک فایل گرافیکی(تصویری)، به رایانه ارسال و در آن ذخیره نمود. بدین ترتیب کاربر م یتواند با یک نر م افزار مناسب نمایش دهنده تصاویر، تصویر صفحه اسکن شده را بر روی نمایشگر رایانه خود ملاحظه نماید یا آن را چاپ کند؛ اما قادر نخواهد بود که متن موجود در تصویر سند را ویرایش کند یا آن را مورد جستجو قرار دهد . یک نرم افزار « اُْسی آر » تصویر اسکن شده را میخواند، محتویات آن (شامل متن، خطوط، تصاویر، جداول، ...)را شناسایی می نماید، و سپس آن را به یک قالب قابل ویرایش(در واژ ه پردازها) تبدیل می کند. امروزه بیشتر دستگاههای اسکنر به نرم افزارهای « اُْسی آر » مجهز گردیده اند و قادرند متن موجود در یک سند اسکن شده را تشخیص دهند و آن را با همان نحوه قالب بندی، ستون بندی، جدول بندی ونوع فونت مطابق با سند کاغذی اصلی، در قالب یک فایل متنی با قالب بندی مناسب ذخیره نمایند.
استفاده از سیستم های « اُْسی آر » دو مزیت عمده دارد :
الف. افزایش چشمگیر سرعت دسترسی به اطلاعات؛
زیرا در متن بر خلاف تصویر، امکان جستجو و ویرایش وجود دارد.
ب. کاهش فضای ذخیره سازی؛
زیرا حجم فایل متنی استخراج شده از یک تصویر، معمولاً بسیار کمتر از حجم خود فایل تصویری است.
چنین قابلیتی امکان استفاده گسترده از رایانه را در پردازش سریع حجم وسیعی از داد ههای مکتوب شرکت ها و مؤسسات مختلف(نظیر بانک ها، شرکت های بیمه، مؤسسات خدمات عمومی، اداره پست، و دیگر نهادهایی که سالانه با میلیون ها مورد پرداخت، دریافت و حسابرسی امور مشتریان خود مواجه اند) فراهم می آورد.
2-1-2- تاریخچه سیستم های « اُْسی آر »
از جنبه تاریخی، سیستم های « اُْسی آر » تا کنون سه مرحله تکاملی را پشت سر گذاشته اند
الف. مرحله تکوین(از 1900 تا 1980): رد پای اولیه اقدامات صورت گرفته در زمینه بازشناسی حروف را در سال های اول دهه 1900 می توان یافت و آن زمانی است که « تیورینگ»دانشمند روسی بر آن بود که به افراد مبتلا به نارسایی های بینایی کمک نماید. اولین اختراع های ثبت شده در این زمینه مربوط به سال های 1929و 19 میلادی هستند این سیستمها حروف چاپی را با روش تطابق قالبی شناسایی می کردند؛ به این صورت که ماسک های مکانیکی مختلفی از مقابل تصویر حرف عبور می کردند(مکانیکی) و نور از یکسو به آن تابانده می شد و از سوی دیگر توسط یک آشکارساز نوری دریافت می گردید(اپتیکی). وقتی یک انطباق کامل صورت می گرفت، نور به آشکارساز میرسید و حرف ورودی بازشناسی می شد. این اختراع به دلیل فناوری اپتومکانیکی مورد استفاده در آن، کاربردی نبود. تصور دسترسی به دستگاهی برای بازشناسی حروف تا دهه 1940 میلادی و ظهور رایانه های دیجیتال، به صورت یک رؤیا باقی ماند.
اقدامات اولیه در زمینه بازشناسی حروف، بر متون چاپی یا مجموعه کوچکی از حروف و نمادهای دستنوشت که براحتی قابل تشخیص بودند، متمرکز گردیده بود. سیستم های بازشناسی حروف چاپی که در این مقطع زمانی عرضه شدند، عمدتاً از روش تطابق قالبی استفاده می نمودند که در آن، تصویر ورودی با مجموعه بزرگی از تصاویر حروف، مورد مقایسه قرار م یگرفت. در مورد متون دستنوشت نیز الگوریتم های پردازش تصویر که ویژگی های سطح پایین (ویژگی هایی که مستقیماً و بدون اعمال هیچ تبدیلی، از تصاویر استخراج می شوند) را از تصاویر استخراج می کنند، در مورد تصاویر دوسطحی اعمال می شدند تا بردارهای ویژگی استخراج گردند. سپس این بردارهای ویژگی به طبقه بندی کننده های آماری سپرده می شدند. در این دوره، تحقیقات موفق اما مقید (منظور از مقید، مفروض دانستن شرایط و پی شفرض های خاص برای کاراکترهای ورودی است)، بیشتر بر روی حروف و اعداد لاتین انجام گرفت. با این حال مطالعات چندی نیز بر روی حروف ژاپنی، چینی، عبری، هندی، سیریلیکی، یونانی و عربی در هر دو زمینه حروف چاپی و دستنوشت آغاز گردید. با ظهور صفحات رقومی کننده در دهه 1950 که قادر به تشخیص مختصات حرکتی تجاری نیز امکان عرضه یافتند. این نوآوری سبب شد « اُسی آر » نوک یک قلم مخصوص بودند، سیستم های که محققان بتوانند در زمینه بازشناسی برخط حروف دستنوشت، فعالیت خود را آغاز نمایند. منبع مناسب درباره اقدامات صورت گرفته بر روی بازشناسی برخط حروف تا سال 1980 می باشد.
ب. مرحله توسعه (از 1980 تا 1990): مطالعات صورت گرفته تا قبل از سال 1980 بدلیل فقدان سخت افزارهای رایانه ای قدرتمند و دستگاه های اخذ داده ها با مشکل همراه بودند. در این دهه بواسطه رشد انفجارگونه فناوری اطلاعات، وضعیت بسیار مناسبی برای تحقیقات مختلف از جمله بازشناسی حروف فراهم گردید. روش های ساختاری به همراه روش های آماری در بسیاری از سیستم ها استفاده شدند. تحقیقات در اساساً به توسعه روش های بازشناسی معطوف گردید، بی آنکه مسئله استفاده از اطلاعات « اُسی آر » زمینه معناشناختی به منظور افزایش دقت بازشناسی مورد توجه قرار گیرد. این امر سبب گردید که دقت بازشناسی) نرخ بازشناسی)از یک حد خاص فراتر نرود، که در بسیاری از کاربردهای « اُسی آر » قابل قبول نبود.