دانلود مقاله روش جدید برای لب‌خوانی با استفاده از پردازش تصویر

Word 800 KB 18379 19
مشخص نشده مشخص نشده کامپیوتر - IT

قیمت قدیم:۱۶,۰۰۰ تومان

قیمت: ۱۲,۸۰۰ تومان

دانلود فایل

بخشی از محتوا
وضعیت فهرست و منابع

بازشناسی تصویری گفتار به عنوان فرآیندی برای کمک به افرادی که دچار آسیب در سیستم صوتی شده‌اند، در سالهای اخیر مورد توجه محققین قرار گرفته‌ است.

در این مقاله سعی در این بوده که سه روش برای استخراج ویژگی شکل لب ارائه شود : استخراج کانتور لب ، قطعه‌بندیWatershed ، پارامترهای پویانمایی چهره .

سپس برای شناسایی گفتار از روی حرکات لب از الگوریتم HMM و شبکه‌های عصبی پرسپترون دولایه با ساختاری ساده استفاده شده است.
سامانه‌ی لب‌خوانی رایانه‌ای به معلولینی کمک می کند که دچار آسیب در سیستم صوتی بوده و قادر به برقراری ارتباط با دیگران نیستند.

این افراد معمولا توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایده‌آل می‌توان با انجام لب‌خوانی به مقصود آنها پی برد.

این نرم‌افزار به معلولینی که از صندلی چرخدار استفاده می‌کنند و فقط توانایی انجام صحیح حرکات لبشان را دارند کمک می‌کند؛ بدین ترتیب که با کمک دوربین فیلمبرداری حرکات لب آنها ثبت می‌شود و پس از آنالیز ، فرامین لازم به ویلچر داده می‌شود.
از جمله کاربرد های این سامانه می‌توان به تشخیص فرامین ناتوانان گفتاری ،تشخیص برخی کلمات خاص، مکمل بازشناسی گفتار صوتی و همچنین کاربرد‌های نظامی و اطلاعاتی ذکر کرد .در کاربرد حفاظتی ، این سامانه می‌تواند با بهره‌گیری از حرکات لب و بدون ثبت سیگنال صوتی ،کلمات خاصی را شناسایی و تصویر گوینده‌ی آن را در مراکز عمومی و محل‌های تردد ثبت کند.
فرآیند بازشناسی تصویری گفتار شامل دو مرحله‌ی استخراج ویژگی از دنباله تصاویر لب و طبقه‌بندی ویژگی‌های بدست آمده است.

ویژگی گفتاری تصویر حرکات لب معلولین که دارای رنگ پوست و ظاهر متفاوتی هستند ، به کمک طراحی یک الگوریتم جدید استخراج شده و در مرحله‌ی بعد با استفاده از الگوریتم مدل مخفی مارکوف ، حرکات و گفتار تصویری تشخیص داده می‌شود .

بهره‌گیری از اطلاعات تصویری از شکل‌های لب و حرکات آن ، دقت و اطمینان سیستم‌های تشخیص اتوماتیک گفتار صوتی را خصوصا در محیط‌های نویزی بطور قابل توجهی بهبود می بخشد .
آزمایش این نرم‌فزار بر روی مجموعه‌ی دادگان جمع‌آوری شده ،شامل 20 نفر زن و مردِ 20 تا50 سال صورت گرفته و روی 6 واژه گفتاری 1،2،3،4،5،6 با 91درصد موفقیت ، بازشناسی گفتار انجام شده است .

این پژوهش‌ها در مراحل تکمیلی می توانند با افزایش تعداد کلماتِ قابل شناسایی ، محدوده‌ی تشخیص را هر چه بیشتر افزایش دهند .

2- استخراج کانتورلب
به منظوراستخراج ویژگیهای تصویری مربوط به تولید گفتار،استخراج دقیق شکل لب حیاتی می باشد.استفاده ازرویکردهای مبتنی برلبه برای استخراج لب دارای مشکلات فراوانی می باشد؛ زیرانگاشتهای بدست آمده براساس ویژگی لبه معمولأ دارای نویزواشتباهات فراوانی می باشد.

به علاوه لبه هااغلب درمرزلب مفقود بوده یاازنظردامنه خیلی ضعیف هستند.باتوجه به این مشکلات، رویکرد استخراج کانتورلب مابه آشکارسازی لبه هادرلب استناد نکرده است، بلکه هدف ماتقسیم بندی تصاویرلب داده شده به ناحیه لب وغیرلب براساس شدت روشنایی ورنگ پیکسلهامی باشد.دراین روش،فرض نمی شود که لب دارای یک رنگ خاص باشد بلکه جستجو بر اساس تفاوت شدت روشنایی ورنگ بین نواحی لب وغیرلب صورت می گیرد.درادامه درابتدا مدل پیشنهادی باجزئیات شرح داده می شود.سپس تابع هزینه برای پیداکردن بهینه مرزبین ناحیه لب وغیرلب ولگوریتم بهینه سازی پارامترهای مدل توضیح داده می شود.
3-2- مدل لب
ازمدلهای انعطاف پذیرهندسی برای مدل کردن شکل لب استفاده شده است .مدل هندسی به شکل لب اجازه می دهد که بوسیله یک مجموعه کوچکی ازپارامترهاباتفسیرفیزیکی توصیف شود.

مدل هندسی لب درشکل (1) نشان داده شده است وبامعادلات(1) و(2) توصیف می شود:
ازمدلهای انعطاف پذیرهندسی برای مدل کردن شکل لب استفاده شده است .مدل هندسی به شکل لب اجازه می دهد که بوسیله یک مجموعه کوچکی ازپارامترهاباتفسیرفیزیکی توصیف شود.

مدل هندسی لب درشکل (1) نشان داده شده است وبامعادلات(1) و(2) توصیف می شود: (1) و (2) تفسیرفیزیکی پارامترهادرشکل نشان داده شده است.پارامترs انحراف شکل لب رانشان می دهد.

پارمترs انحراف منحنی ازحالت چهارگوش راتوصیف می کند.s به توان دورسیده وبایک جمع شده تاهمیشه مثبت باشد.همچنین پارامترs اجازه می دهد که مدل لب برروی تصاویرلب بادرجه متفاوت خمیدگی منطبق شود.اگرچه لب گوینده وحرکات لب به طورکلی متقارن نمی باشد اما انحراف ازحالت متقارن بودن معمولأ دارای اهمیت نمی باشد.

شکل1-مدل لب هندسی 2-2- فرمول بندی تابع هزینه برای بدست آوردن یک مدل دقیق،تابع هزینه برای تعیین پارامترهای مدل به طریقه ای که پیکسلهای دارای ناحیه لب دارای احتمال پایین باشند،تعریف می شود وفرض می شود که ناحیه لب وخارج لب هم پوشانی نداشته باشند.مرزاین ناحیه زمانی بدست می آید که این تابع هزینه مینیمم شود.تابع هزینه بصورت (3) تعریف می شود: (3) که ) B) 1R و) B)R 2 به ترتیب ناحیه لب وغیرلب می باشند و Prob1 (m,n) احتمال اینکه پیکسل درمکان (m,n) ،پیکسل غیرلب باشد رامشخص می کند.

مرز بهینه B با مینیم سازی C(B)به طریقه‌ای که R1(B) شامل پیکسلهایی با Prob1(m,n) بالا و R2(B) شامل پیکسلهایی با Prob2( m,n) بالا باشد،مشخص می شود.با لگاریتم گرفتن ازمعادله بالا وساده سازی رابطه (4) بدست می آید: (4) که (5) ازآنجاکه درمعادلات(3)و(4)،m وn گسسته هستند بنابراین مرزB نیزگسسته بدست می آید.

اما این موضوع برای مامطلوب نیست زیرامایک مرزپیوسته نیازداریم.بنابراین برای حل این مشکل معادله (4) رادرحوزه پیوسته بسط می دهیم.درابتداm وn به x وy پیوسته بسط داده می شود.

اکنون مرزB پیوسته شده است ومی تواند هرشکل دلخواهی رافرض کند.سپس ،ما داریم: (6) (m,n)f باانتگرال گیری از(x,y)g روی سطح واحد (m,n)مرکزآن می باشد)بدست می آید.

سپس معادله (4) بصورت زیربسط داده می شود: (7) که مرزB پیوسته می باشد و بوسیله مدل لب مامشخص می شود.سپس پارامترهای بهینه مدل با مینیمم سازی تابع هزینه زیر بدست می آید : (8) g(x,y)dydx که x2 (p)=xc+wcos wcos + xc = (P) x2 نقاط گوشه راست وچپ لب، P ، مجموعه پارامترهای مدل می باشند .(p,x) y1 و y2(p;x) دو نقطه مرز عمودی خطx هستند.

پس با داشتن نگاشت احتمال Prob(m,n) ، f(m,n) بوسیله معادله (5) بدست می‌آید.

سپس سطح هزینه پیوسته g(x,y) درمعادله (8) باید ایجاد شود.اگرچهارنقطه zjk , zj +1k, zj +1,k+1,zjk+1 راداشته باشیم.

سطح درون یابی دوسویه شده بطریقه زیربدست می آید: (9) gjk (x,y) = (1+j-x) (1+k-y) zjk+(x-j)(1+k-y) zj+1k+(x-j)(y-k)zj+1k+1+(1+j-x)(y-k)zjk+1 بنابراین ایجاد سطح (x,y)g به مسئله تعیین } zm,n { تبدیل می شود.بااستفاده ازمعادله (6) و(9) وبعد ازتعدادی محاسبات جبری ، می توان نشان داد که f(m,n) و zm,n بوسیله معادله کانولوشن گسسته زیر هم باهم ارتباط دارند : (10) که ماسک کانولوشن(m,n)h، باماتریس زیربیان می شود: (11) درحوزه فرکانس معادله (10) بصورت زیرمی باشد : (12) بنابراین } m,n‍{ بامعکوس تبدیل فوریه بدست می آید : (13) Z(w1,w2) = f(w1,w2) /H (w1,w2) 2-3- نگاشت احتمال تصاویرلب ارزیابی (P)E نیازبه نگاشت احتمال تصاویرلب دارد که این نگاشت ،احتمال این رامشخص می کند که پیکسل،پیکسل لب هست یانه؟

الگوریتم خوشه بندی فازی]11[ برای ایجاد چنین نگاشت احتمالی استفاده می شود .این یک روش یادگیری بدون سرپرستی می باشد ونه فرض اولیه ای درمورد توضیع ویژگیهادرنظرمی گیرد ونه آموزش مورد نیازمی باشد.الگوریتم تلاش می کند برای هرپیکسل براساس توزیع بردارهای ویژگی هرپیکسل درفضای ویژگی واثرمتقابل هرپیکسل با8 تاازهمسایگی اش، یک مقداراحتمال مناسب برای هرپیکسل مشخص کند.

استفاده تنهاازشدت روشنایی درتصاویرلب،کنتراست کافی برای تفاوت قائل شدن یک پیکسل لب وغیرلب راندارد.بنابراین ازشدت روشنایی ورنگ به عنوان ورودی برای الگوریتمهای خوشه بندی استفاده می شود.ابتداتصاویردرفضای رنگ غیریکنواخت RGB تبدیل به فضای رنگ یکنواخت CIELAB می شود[12] .

این فضای رنگی یک دیاگرام رنگی یکنواختی دارد بنابراین هردورنگ یک تفاوت ادراکی دارد ودراین فضای رنگ ، اطلاعات روشنایی از اطلاعات رنگ جدامی باشند.

درشکل (2- الف) تصویراولیه ازلب نشان داده شده است همانطورکه مشاهده می شود کنتراست بین ناحیه لب وغیرلبب بسیارپایین می باشد.خوشه بندی بااستفاده ازویژگیهای رنگ (L*.a*,b*) ماراقادرمی سازد که یک نگاشت احتمال قابل قبولی بدست آوریم.درشکل (2- ب) نگاشت احتمال نشان داده شده است .

2 -4 – بهینه سازی پارامترهای مدل برای مینیمم سازی تابع هزینه ازروتین بهینه سازی کاهش گرادیان استفاده می شود.درنتیجه ازمعادله (8) نسبت به هرپارامترمشتق گرفته می شود.می توان نشان داد که مشتق گیری بوسیله معادله زیرصورت می گیرد : (14) که p1=xc,p2=yc,p3=w,… , p8=s,p9=0 می باشد.به این نکته توجه شود که انتگرال گیری ازمعادله(14) درامتداد منحنیهای لب y1 و y2 انجام می شود.

3- قطعه بندی Watershed این قطعه بندی براساس مفاهیمی همچون بهبود تباین وتبدیل Wastershed می باشد.

مراحل الگوریتم عبارتند از: 1.

خواندن تصویر 2.

حداکثرتباین برای اینکه لبه هایی که توسط تبدیل Watershed استفاده می شود کمینه گردد; می بایست تباین بین اشیاء مورد نظرماکزیمم گردد،روش معمول برای بهبود تباین استفاده ازتبدیلات bottom hot و top hat برروی تصویرمی باشد.

تبدیل top hot به عنوان تفاوت بین تصویراصلی وتصویری که بوسیله فیلترهای ایجاد شده باز گردیده است،تعریف می گردد.

تبدیل bottom hat به عنوان تفاوت بین تصویراصلی وتصویری که بوسیل ه فیلترهای ایجاد شده بسته گردیده است،تعریف می گردد.

3.

تفریق تصاویرایجاد شده توسط مرحله دوم الگوریتم می باشد.

تصویر top hat شامل نقاط نوک تیزاشیاء است وتصویرbottom hat فاصله های بین اشیاء مورد نظررانشان می دهد.

برای حداکثرکردن تباین بین اشیاء وفاصله هایی که بین آنها وجود دارد می بایستی طبق فرمول(15) عمل کرد.

Ienhance = imsubtract(imadd(Itop,afm),Ibot) (15) ) 4.

تبدیل اشیاء مورد نظر برای اینکه دریک تصویرشدت لبه هاآشکارگردد،می بایست ازمتمم تصویراستفاده شود تابتوان اشیاء مورد نظررادرمراحل بعد بهترتفکیک کرد.

5 .

آشکارسازی شدت لبه همه شدت لبه هابایک آستانه خاص باتابع imextendedmin آشکارمی شود وسپس باتابع imimposemin مکانهایی ازتصویراصلی که بهبود یافته وبه عنوان شدت لبه آشکارشده است تغییرداده می شود.

6 .

قطعه بندی Watershed Morphology قطعه بندی این قطعه بندی براساس مفاهیمی همچون آشکارسازی لبه، اشیاء ساخت یافته ، Erosion، قطعه بندی می باشد .مراحل الگوریتم عبارتند از: 1: خواندن تصویر 2.

آشکارکردن شی ء بطورکامل آشکارکردن شی ء بطورکامل براساس یکی ازالگوریتم های آشکارکننده لبه صورت می گیرد.

لازم به ذکراست که این الگوریتم برروی تصاویری که نویزندارند بکارمی روند.

3 .

آشکارسازی اشیاء بااستفاده ازلبه هایی که توسط مرحله دوم الگوریتم بدست آمده است، صورت می گیرد.

4 .

پهن کردن لبه هادرتصویر 5 .

پرکردن اشیاء بدست آمده، 6 .

پاک نمودن اشیائی که درحاشی ه تصویرقراردارند.

دراین مقاله ازتمامی مراحل قطعه بندی Wastershed به غیرازمرحله آخرآن استفاده شده است وهمچنین ازمراحل 5 و6 ،قطعه بندی Morphology استفاده گردید ودرنهایت ازیک سری فیلتر های خاص استفاده شد.

بامشاهده ،نتایج بدست آمده ملاحظه گردید،مرزهای لب بسیارتیزشده وباشکل اصلی تفاوت زیادی دارد برای اینکه قطعه بندی انجام شده برای تشخیص لب دقیق ترگردد ازفیلترهای خاص ازپیش تعریف شده Matlab بانام های motion وdisk به اندازه های متناسب بااندازه تصویر استفاده گردید که اثراین فیلترهارادرشکل 3 زیرمشاهده می شود.

مراحل انجام قطعه بندی برروی تصویردر مقاله درشکل زیرمشاهده می شود دراین روش ازدوطرف تصویربه طرف مرکزتصویرحرکت کرده ابتدادرتحلیل ستونی یک نقطه سفید راپیداکرده وسپس درهمان ستون باطی کردن نقاط سفید،می بایست نقطه سیاه جستجوشود، اگرنقطه سیاه پیدانشد پس گوشه لب درآن ستون قرارندارد درغیراین صورت گوشه لب درآن ستون قراردارد وسطرمربوط به گوشه لب ازنقطه میانی نقاط سفید موجود درآن ستون بدست می آید.این عملکرددرشکل زیرمشاهده می شود.

برای تشخیص حالت لب برای تمایزبین حرکات لب تصمیم گرفته شد که لب به یک 6 ضلعی نگاشت شود.برای بدست آوردن 6 ضلعی وباداشتن گوشه های لب بدین گونه عمل می شود که ابتداباداشتن گوشه های چپ وراست لب ، پهنای لب طبق فرمول (16) بدست می آید.

Width = left – lip(x)- right – lip (x) (16) 3-1- بدست آوردن 6 ضلعی تخمینی معادل حاشیه لب بعد ازبدست آوردن پهنای لب، برای بدست آوردن اضلاع دیگر6 ضلعی ، طبق مراحل زیر عمل می شود : 1) بدست آوردن قسمت سمت چپ بالای لب : برای بدست آوردن این نقطه ،ابتدااشاره گربه اندازه 2/0 پهنای لب ازگوشه چپ لب به سمت راست می رود.طبق فرمول (17) عرض نقطه شروع قسمت سمت چپ بالای لب بدست می آید؛ حال برای بدست آوردن ارتفاع نقطه شروع قسمت سمت چپ بالای لب ، بدین صورت عمل می شود که ابتدا معادله خط دوگوشه لب راتشکیل داده وعرض نقطه رادرمعادله قرارداده، تا ارتفاع نقطه شروع بدست آید، که مطابق فرمول (18) بدست می آید.

Tpis[x] = left – lip (x) + (o.2 * Width) (17) (18) برای بدست آوردن شروع تختی سمت چپ بالای لب بدینگونه عمل می شود؛که ابتداازنقطه بدست آمده به سمت بالا رفته تامرزلب بدست آید ومقدارارتفاع بدست آمده برابرTPLS[y] قرارداده می شود.حال باحرکات متوالی 05/0 پهنای لب به سمت راست رفته ونقطه مرزی متناسب باآن بدست می آید ودرهرمرحله باداشتن مختصات نقطه آن مرحله ومرحله قبلی زاویه تغییررابدست آورده وباحداقل زاویه تشخیص تختی بالای لب مقایسه می شود،اگر زاویه جدید از زاویه مرحله قبل بیشتربود، الگوریتم به کارخود ادامه می دهد ودرغیراین صورت نقطه ماقبل آخرین نقطه بدست آمده نقطه نهایی قسمت سمت چپ بالای لب می باشد که مطابق فرمول (19) دست می آید.

(19) 2) بدست آوردن قسمت سمت راست بالای لب : .طبق فرمول (20) عرض نقطه شروع قسمت سمت راست بالایی لب بدست می آید؛حال برای بدست آوردن ارتفاع نقطه شروع قسمت سمت راست بالای لب که مطابق فرمول (20) بدست می آید.

(20) Tprs[x]= right – lip(x) – (0.2*Width) (21) برای بدست آوردن شروع تختی سمت راست بالای لب که مطابق فرمول (22) بدست می آید.

(22) 3) بدست آوردن قسمت سمت چپ پایین لب : برای بدست آوردن این نقطه .

طبق فرمول (23) عرض نقطه شروع قسمت سمت چپ پایین لب بدست می آید؛حال برای بدست آوردن ارتفاع نقطه شروع قسمت سمت چپ پایین لب که مطابق فرمول (24) بدست می آید.

Dols[x]=left – lip(x)+(0.1*Width) (23) Dols[y] (24) برای بدست آوردن شروع تختی سمت چپ پایین لب که فیلم مطابق فرمول(25) بدست می آید.

Degree_limit=│Dosi[y]-Dolsi-1[y]│/0.05*width (25) 4) بدست آوردن قسمت سمت راست پایین لب : Dors[x]=right-lip(x)-(0.1*Width) (26) (27) پس ازبدست آوردن 6 ضلعی ، برای تحلیل تغییرات لب معیارهای زیررامحاسبه نموده ودر تمایزحرکات لب دریک تصویربکاربرده می شود.

1- پهنای قطراصلی 6 ضلعی : که درشکل زیرهمان Width می باشد.مقدارآن طبق فرمول (26) بدست می آید.

2- میانگین زوایای چپ وراست بالایی : که درشکل بالاهمان میانگین a1.a2 می باشد.مقدارآن مطابق فرمول (28) می باشد.

مقدارآن مطابق فرمول (28) می باشد.

(28) 2/ α =(α1+α2) 3 – میانگین زوایای چپ وراست پایینی : که درشکل بالا همان میانگین B,B می باشد مقدارآن مطابق فرمول (29) می باشد.

(29) 2 / ( β + β ) = β 4- انتخاب فریم برای اینکه حرکات لب تشخیص داده شود ابتدامی بایست ازفیلم ورودی فریم حالت ساکن لب را تشخیص داده وپس ازآن ، حالت بیشترین تغییرات لب که درواقع تلفظ یک عدد خاص می باشد تعیین شود(شکل زیر) براساس معیارهای بالا برطبق تغییرات این دوفریم بدست آمد ، تصمیمهای لازم اخذ می گردد.

درنتیجه فرمولها به صورت زیربیان می شوند: D_width=(widthf –widths )/widthf *100 (30) D_Degreetop=(αf – αs)/αf*100 (31) D_DegreeDown=(βf – βs)/βf*100 (32) برای اینکه این معیارهادرنهایت می بایست برای افراد مختلف بکاربرده شود،براساس آزمایشهایی که برروی تصاویرمختلف انجام گردید،این نتیجه حاصل شد که ازمعیارهای نسبی اختلاف دوفریم استفاده شود.

4-1 پارامترهای پویانمایی چهره یکی ازروش های مدلسازی وپویانمایی استفاده ازاستاندارد MPEG4 است که یک مدل چهره را درحالت عادی آن نشان می دهد.برای تعریف صورت وبدن مجازی انسان دراستاندارد MPEG4 ،پارامترهای تعریف چهره وبدن ونیزپارامترهای متحرک سازی چهره وبدن تعریف شده است.دراین استاندارد 84 نقطه ی مشخصه برای توصیف چهره تعریف شده است.FDP شکل، اندازه وبافت چهره راارائه می دهند وfap نیزمیزان تغییرات انجام یافته درچهره رانگه می دارند.نقاط مشخصه ی مورد استفاده درمقاله درشکل 1،نشان داده شده است.

شکل .5.

نقاط مشخصه ی چهره مورد استفاده دراین مقاله ازآن جایی که FAP هاباید چهره های بااندازه ی متفاوت راتحت تأثیرقراردهند،مقدارآنهابر اساس واحدهای FAPU بیان می گردد.

5 – ردیابی علائم یکی ازقسمت های مهم وکلیدی درطول فرآیند آموزش یک مدل پویانمایی چهره،تولید یک روند اتوماتیک برای ردیابی نقاط کنترلی چهره است.این ردیاب هابه حدی باید مطمئن کارکنند که نظارت دستی درآنهابه حداقل برسد.یکی ازروش های ردیابی نیزاستفاده ازعلائم درردیابی نقاط کنترلی چهره است.

شکل .6.

گوینده ازروبرو(1) ونیمرخ (ب) ،باعلائم رنگی نصب شده 5-1 الگوریتم پیشنهادی دراین الگوریتم مبنای مقایسه برای ردیابی علائم درفریم های ویدئویی،مختصات علائم درفریم اولیه یامبنااست.فریم اولیه، فریمی است که درآن حالت چهره ی گوینده حالت عادی تعریف شده دراستاندارد باید باشد .تعیین مختصات علائم دراین فریم به صورت دستی انجام شده وسپس در همسایگی مختصات مربوط به هرعلامت میانگین گیری برای هریک ازنگ های G,R وB انجام می شود.باتوجه به RGB به دست آمده برای هرعلامت بازه ای مشخص می کنیم تابا استفاده ازآن درفریم های بعدی بتوانیم محل علائم راتشخیص دهیم.بنابراین مراحل پیش پردازش الگوریتم رابدین صورت فهرست می کنیم.

1- تعیین دستی (x,y,z)علامت I ام دردوفریم اولیه روبروونیمرخ.

2- میانگین گیری RGB درهمسایگی (x,y)روبرو و(y,z)نیمرخ.

3- تعیین بازه ی RGB هابه ازای هرعلامت ونگهداری دریک آرایه.

(علت نگهداری بازه های RGB متفاوت برای فریم های روبرو ونیمرخ جلوگیری ازایجاد مشکلات نورپردازی ازدوجهت است).

درهرمرحله الگوریتم برای یافتن مختصات جدید علائم درفریم های بعدی، براساس یک معیار شباهت فضای جستجورابررسی می کنیم.

معیارشباهتی که درروش ارائه شده به کاررفته، براساس قرارگرفتن RGB نقاط فضادربازه ی RGB به دست آمده درمرحله ی پیش پردازش برای هرعلامت می باشد.به این معنی که فضای جستجوراگشته ومرکزثقل نقاطی راکه در بازه ی RGB می گنجند به عنوان مختصات جدید علامت مورد نظراعلام می شوند.فضای جستجو برای علائم مختلف متفاوت درنظرگرفته می شود: هدف : پیداکردن محل علامت ویژه ی i ،درفریم n ام.

1- مختصات علامت i درفریم اولیه را(x,y) درنظربگیرید.

2- فضای جستجوی علامت i: a ) غیرلب : فضای جستجوی (x-m:x+m,y-m:y+m) b) گوشه چپ لب : فضای جستجو(x-1:x+h,y-1,y+1) طوریکه 1 d) لب بالا : فضای جستجو(x-1:x+1,y-1,y+h) طوریکه 1 e) لب پائین : فضای جستجو(x-1:x+1,y-h,y+1) طوریکه 1 3 – درفضای جستجو مرکزثفل نقاطی راکه RGB آنهارابازه های RGB تعیین شده برای علامت I درپیش پردازش می گنجند، به دست آورید.

مختصات به دست آمده رامحل علامت i درفریم n ام قراردهید.

6 – طبقه بندی ازالگوریتم HMM برای شناسایی گفتارازروی حرکات لب استفاده می گردد[10].

بدین ترتیب که برای W لغت موجود دردایره لغات ،هدف ، طراحی یک HMM باN حالت مجزامی باشد.

سیگنال تصویری مربوط به گفتارهرلغت به صورت سری زمانی بردارهای ویژگی نمایش داده می شود.بنابراین برای هرلغت عیک سری آموزشی وجود دارد که شامل تعدادی تکرارازآن لغت توسط یک یاچند گوینده می باشد.اولین قدم،ساخت مدل های لغت مجزااست؛ تاپارامتهای مدل هرلغت به صورت بهینه ای تخمین زده شوند.نهایتأ،هنگامی که مجموعه W مدل HMM طراحی شد،بازشناسی لغت مجهول صورت می گیردتاباداشتن سری مشاهدات مورد تست، نمره ای به مدل هرلغت داده شود ولغتی که نمره آن ازبقیه بالاتراست انتخاب شود.درنتیجه،برای بازشناسی لغات می بایست کارهای زیرصورت پذیرد : 1- برای هرلغت V دردایره لغات بابهره گیری ازسری آموزشی واستفاده ازالگوریتم بام – ولش یک مدل HMM ساخته می شود.

به عبارت دیگر،باید پارمترهای مدل (A,B, )راکه احتمال بردارهای مشاهده مجموعه آموزشی مربوط به لغت V ام رابیشینه می نمایند،تخمین زد.

2 – برای هرلغت ناشناخته که می بایست بازشناسی شود،روند شکل (4) اعمال می شود که درابتدا،سری مشاهده {O1,O2,…..Ot} = 0،ازطریق استخراج بردارویژگیهای گفتارمربوط به آن لغت به دست می آید.سپس احتمالات بااستفاده ازالگوریتم ویتربی برای همه مدلهای وجود (1 ضمنأ دراین آزمونهاباساختن طبقه بندی کننده های HMM پیوسته،یعنی درنظرگرفتن یک یا چند تابع گاوسی برای تولید خروجی توسط هرحالت درمدل مربوطه به هرطبقه ازدادگان،عملکرد HMM پیوسته ،درطبقه بندی ویژگیهای مربوط به هرکلمه بررسی می شود.

درتعلیم مدل ها،ماتریس کوواریانس قطری درنظرگرفته شده وبااستفاده ازالگوریتم k-means توابع گاوسی باوزن معینی ،برای هرحالت تولید می شود که این هابه عنوان مقادیراولیه برای مدل هادرنظر گرفته شده وتعلیم می یابند.ضمنأ مقادیراولیه پارامترهای مدل HMM به صورت تصادفی وبدون هیچ پیش فرضی درنظرگرفته شده است.

ساختارمدل HMM ،چپ به راست است ودنباله حالت مدل به این گونه است که افزایش زمان باعث افزایش شماره حالت سیستم می شود.

این روش مدلسازی، برای سیگنال هایی که حالت متغیردرزمان دارند مناسب می باشد.

شکل (7) : بلوک دیاگرام یک تشخیص دهنده کلمات جداازهم بااستفاده ازHMM 7 – نگاشت ویژگی های گفتاربه چهره دراین روش ازشبکه های عصبی پرسپترون دولایه با ساختاری ساده برای نگاست بین ضرائب سیگنال گفتاروویژگی های چهره استفاده شده است.درسیستم پیاده سازی شده تعداد ورودی های شبکه هابایک ویاسه بردارویژگی گفتاری است وتعداد نرونهادرلایه های میانی شبکه متفاوت می باشد.شبکه هایی که یک بردارویژگی گفتاررابه عنوان ورودی دریافت می کنند درلایه ی میانی خود 30،60 ویا90 نرون دارند.شبکه هایی که سه بردارویژگی گفتاری دریافت می کنند دارای 90، 120 ویا150 نرون درلایه ی میانی می باشند.براساس تعداد ورودی هاوتعداد نرون های قرارگرفته درلایه ی نهان،ونیزانواع ورودی های MFCC,LPC وDelta MFCC ، 18 شبکه ی مختلف برای آموزش ایجاد می شوند.

یعنی برای هرنوع بردارویژگی گفتاری انتخاب شده شش شبکه ی مختلف درنظرگرفته می شود.

8- نتیجه ‌گیری: برای آموزش وتست شبکه های مورد استفاده تعداد 37 جمله متفاوت ازیک گوینده انتخاب شده است که 30 جمله برای آموزش و7 جمله برای تست وارزیابی به کارگرفته شده است.

برای سنجش کارایی روش ،معیاری به نام G اتخاذ شده است.

ازاین معیاربرای ارزیابی کارکرد هر کدام ازپارامترهای کنترلی چهره استفاده می شود.معیاربه گونه ای است که هرچه عدد آن به یک نزدیکترباشد آن پارامترکارکرد بهتری داشته است.

(33) دررابطه ی (33)، P(K) مقدارپارامترکنترلی چهره ی استخراج شده برای فریم K ام تصویردر فازتست،b(k) مقدارصحیح این پارامترکه ازراه ردیابی به دست آمده وN تعداد کل فریم های مجموعه تست می باشد.مقدارمیانگین و واریانس مقدارپارامترهاکنترلی چهره به دست آمده ازردیابی است .

درشکل8 نمودارهای عملکرد شبکه عصبی برای دوپارمترکنترلی چهره درمقایسه باحرکت واقعی این پارامترهاکه ازردیابی علائم حاصل می‌شوند،نمایش داده شده است.

ازآنجایی دهان پیچیده ترین ومهمترین ویژگی صورت برای نمایش ادای گفتاراست،عملکرد سیستم دراین قسمت مهمترین قسمت به نظرمی رسد.درروش ارائه شده 8 علامت برلب های گوینده نصب می شود، که همه ی این علائم به علت محدودیتی که برای ادای گفتاردرگوینده ایجاد می کند،برروی لب بیرونی قرارداده می شوند واین امرباعث شده که ردیابی نقاط لب داخلی انجام نگیرد وبه روش تخمین ازروی حرکات لب بیرونی حرکت این نقاط پیش بینی شود.

شکل 8.

حرکت نقطه ی بین نوک لب بیرونی پایین وگوشه راست لب مراجع [1] Movellan.JR,"Visual speech recognition with stochastic networks", Advanced in Neural Information Processing System , Vol.7 , MIT Press, Cambridge,1995 [2] CIE,Colorimetry,CIE Pub.No.15.2,Bureau Central dela CIE, Vienna , Austria,1986 [3] www.mobtaker.ir [4] www.wikipedia.com [5] www.aftab.ae

کلمات کلیدی: استخراج کانتور لب - بازشناسی تصویری گفتار - پویانمایی چهره - ردیابی علائم - قطعه‌بندی Watershed - لب‌خوانی - لب‌خوانی با پردازش تصویر

دانلود مقاله طراحی سیستمهای مدرن اطلاعاتی، بازشناسی خودکار الگوها

۶۶

پيدايش علوم و فنون جديد، جوامع بشري را با شکلهاي مختلفي از اطلاعات روبرو نموده است. سطح توسعه يک جامعه را مي توان با مقدار اطلاعات و دانش توليد شده در آن ارزيابي کرد. توليد فزاينده اطلاعات به شکلهاي مختلف صورت مي گيرد و با درجات متفاوتي از پيچيدگي ه

دانلود مقاله تصویر دیجیتال

۱۲۷

1-1 : مقدمه پردازش تصویر دیجیتال[1] دانش جدیدی است که سابقه آن به پس از اختراع رایانه های دیجیتال باز می گردد . با این حال این علم نوپا در چند دهه اخیر از هر دو جنبه نظری و عملی پیشرفت های چشمگیری داشته است . سرعت این پیشرفت به اندازه ای بوده است که هم اکنون و پس از این مدت نسبتاً کوتاه ، به راحتی می توان رد پای پردازش تصویر دیجیتال را در بسیاری از علوم و صنایع مشاهده نمود . ...

دانلود مقاله دیجیتال واترمارک (Digital watermark)

۲۰

با گسترش سيستمهاي چند رسانه اي تحت شبکه شده احساس نياز به امنيت اطلاعات حمايت از کپي رايت در رسانه هاي ديجيتالي مختلف مانند تصوير ، کليپ هاي صوتي ، ويدئو شدت گرفته است. ويکي از روشهاي مناسب جهت رسيدن به اين اهداف ديجيتال واترمارک مي باشد که عبارت اس

دانلود مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز

۱۴

سيزهمين کنفرانس مهندسي برق ايران 20-22 ارديبهشت 1384 ترکيب روشهاي مبتني بر مدل و پردازش چندباندي گفتار براي مقاوم سازي بازشناسي گفتار نسبت به نويز بابک ناصرشريف – دانشگاه علم و صنعت ايران Nasser_s@iust.ac.it محمدمهدي همايونپور - دانشگاه صنعت

دانلود مقاله نشانه شناسی بازیگر تأویل کنش

۸۱

نشانه چیست؟ «به گفته امبرتو اکو «نشانه تمامی آن چیزهایی است که بر پایه قراردادی اجتماعی و از پیش نهاده، چیزی را به جای چیز دیگری معرفی میکنند. نشانه شناسی نظریه ای است درباره دروغ»[1] «عناصر یک نمایش دراماتیک- از جمله زبان گفتگوها، دکور، حرکت های بازیگران، لباس، چهره آرایی، زیر و بم صدای بازیگران و بسیاری از نشانه های دیگر هر یک به روش خود به پیدایش معنای آن نمایش یاری میرساند. ...

دانلود تحقیق نشانه شناسی در فرایند بازیگری

۶۱

چکیده: هدف از این پژوهش استفاده از نشانه شناسی در فرایند بازیگری، به خصوص کنش وی و بازخورد آن در تاویل کنش توسط مخاطبان میباشد. این مقاله سعی دارد به سوالات زیر پاسخ دهید: 1.درام، برای انتقال پیامهایش از چه نشانه هایی استفاده میکند و تماشاگران چگونه معناهای آن را در می یابند؟ 2.نشانه شناسی چه علمی است و الگوهای کنشی کدامند؟ 3.چگونه میتوان به یک ساختار سه بعدی از کنش دست یافت؟ ...

دانلود مقاله آلرژی

۲۲

* چرا در فصل بهار آلرژی شایع است ؟ از علل مهم افزایش حساسیت یا آلرژی فصلی ، گرده های گلها و گیاهان است که در اثر گرده افشانی ایجاد می گردد . گرده افشانی درختان مانند نارون ، گردو ، تبریزی ،‌افرا ، چنار ، زبان گنجشک در اسفند ماه شروع شده که تا اواسط بهار ادامه می یابد ولی علوفه ها از ماههای اردیبهشت و خرداد گرده افشانی می کنند که تا اواسط مرداد ماه ادامه می یابد ولی علفهای هرز در ...

دانلود تحقیق روش‌های تشخیص هویت بیومتریک (Biometric Methods)

۲۷

يکي از مباحث مهم در جامعه امروزي که دغدغه بسياري از کارشناسان و همچنين کاربران مي‌باشد بحث امنيت و تشخيص و تاييد هويت است. امروزه در امور مربوط به امنيت اماکني مانند دانشگاه ها، فرودگاه ها، وزارتخانه ها و حتي شبکه‌هاي کامپيوتري استفاده از روش هاي

دانلود تحقیق سیر تحول خط ایران

۱۲

پیشگفتار: دیرزمانی است که مردم جهان به اهمیت پیدایش خط والفبای آن پی برده، خواسته اندبدانند،کی وکجاوچگونه اختراع شده است.ولی باوجودتحقیقات وآراء مختلف این بحث هنوزبه مرتبه قطعیت نرسیده وتحقیقات همچنان ادامه دارد. باشگفتی مشاهده می کنیم علیرغم دگرگونی ورشدوتحولات خط درطول تاریخ بازهم امروزدرزندگی روزمره ازانواع سیاق های موجوددرطول تاریخ خط،استفاده می شود. سرزمین پهناورایران نیزکه ...

دانلود تحقیق شبکه های عصبی مصنوعی

۱۳

چکیده: شبکه‌های عصبی مصنوعی از مباحث جدیدی است که دانشمندان علوم کامپیوتر به آن علاقمند شده‌اند و برای پیشرفت هرچه بیشتر علوم کامپیوتر وقت و هزینه بسیاری را صرف آن کرده و می‌کنند. این موضوع با ایده گرفتن از سیستم عصبی بدن انسان و با هدف شبیه‌سازی هرچه بیشتر کامپیوتر به انسان شکل گرفت و تا حال به خوبی پیشرفته است. از جمله کاربردهای این بحث می‌توان از شناسایی الگوها, پردازش تصویر ...

ثبت سفارش

تعداد

عنوان محصول

قیمت