بازشناسی تصویری گفتار به عنوان فرآیندی برای کمک به افرادی که دچار آسیب در سیستم صوتی شدهاند، در سالهای اخیر مورد توجه محققین قرار گرفته است.
در این مقاله سعی در این بوده که سه روش برای استخراج ویژگی شکل لب ارائه شود : استخراج کانتور لب ، قطعهبندیWatershed ، پارامترهای پویانمایی چهره .
سپس برای شناسایی گفتار از روی حرکات لب از الگوریتم HMM و شبکههای عصبی پرسپترون دولایه با ساختاری ساده استفاده شده است.
سامانهی لبخوانی رایانهای به معلولینی کمک می کند که دچار آسیب در سیستم صوتی بوده و قادر به برقراری ارتباط با دیگران نیستند.
این افراد معمولا توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایدهآل میتوان با انجام لبخوانی به مقصود آنها پی برد.
این نرمافزار به معلولینی که از صندلی چرخدار استفاده میکنند و فقط توانایی انجام صحیح حرکات لبشان را دارند کمک میکند؛ بدین ترتیب که با کمک دوربین فیلمبرداری حرکات لب آنها ثبت میشود و پس از آنالیز ، فرامین لازم به ویلچر داده میشود.
از جمله کاربرد های این سامانه میتوان به تشخیص فرامین ناتوانان گفتاری ،تشخیص برخی کلمات خاص، مکمل بازشناسی گفتار صوتی و همچنین کاربردهای نظامی و اطلاعاتی ذکر کرد .در کاربرد حفاظتی ، این سامانه میتواند با بهرهگیری از حرکات لب و بدون ثبت سیگنال صوتی ،کلمات خاصی را شناسایی و تصویر گویندهی آن را در مراکز عمومی و محلهای تردد ثبت کند.
فرآیند بازشناسی تصویری گفتار شامل دو مرحلهی استخراج ویژگی از دنباله تصاویر لب و طبقهبندی ویژگیهای بدست آمده است.
ویژگی گفتاری تصویر حرکات لب معلولین که دارای رنگ پوست و ظاهر متفاوتی هستند ، به کمک طراحی یک الگوریتم جدید استخراج شده و در مرحلهی بعد با استفاده از الگوریتم مدل مخفی مارکوف ، حرکات و گفتار تصویری تشخیص داده میشود .
بهرهگیری از اطلاعات تصویری از شکلهای لب و حرکات آن ، دقت و اطمینان سیستمهای تشخیص اتوماتیک گفتار صوتی را خصوصا در محیطهای نویزی بطور قابل توجهی بهبود می بخشد .
آزمایش این نرمفزار بر روی مجموعهی دادگان جمعآوری شده ،شامل 20 نفر زن و مردِ 20 تا50 سال صورت گرفته و روی 6 واژه گفتاری 1،2،3،4،5،6 با 91درصد موفقیت ، بازشناسی گفتار انجام شده است .
این پژوهشها در مراحل تکمیلی می توانند با افزایش تعداد کلماتِ قابل شناسایی ، محدودهی تشخیص را هر چه بیشتر افزایش دهند .
2- استخراج کانتورلب
به منظوراستخراج ویژگیهای تصویری مربوط به تولید گفتار،استخراج دقیق شکل لب حیاتی می باشد.استفاده ازرویکردهای مبتنی برلبه برای استخراج لب دارای مشکلات فراوانی می باشد؛ زیرانگاشتهای بدست آمده براساس ویژگی لبه معمولأ دارای نویزواشتباهات فراوانی می باشد.
به علاوه لبه هااغلب درمرزلب مفقود بوده یاازنظردامنه خیلی ضعیف هستند.باتوجه به این مشکلات، رویکرد استخراج کانتورلب مابه آشکارسازی لبه هادرلب استناد نکرده است، بلکه هدف ماتقسیم بندی تصاویرلب داده شده به ناحیه لب وغیرلب براساس شدت روشنایی ورنگ پیکسلهامی باشد.دراین روش،فرض نمی شود که لب دارای یک رنگ خاص باشد بلکه جستجو بر اساس تفاوت شدت روشنایی ورنگ بین نواحی لب وغیرلب صورت می گیرد.درادامه درابتدا مدل پیشنهادی باجزئیات شرح داده می شود.سپس تابع هزینه برای پیداکردن بهینه مرزبین ناحیه لب وغیرلب ولگوریتم بهینه سازی پارامترهای مدل توضیح داده می شود.
3-2- مدل لب
ازمدلهای انعطاف پذیرهندسی برای مدل کردن شکل لب استفاده شده است .مدل هندسی به شکل لب اجازه می دهد که بوسیله یک مجموعه کوچکی ازپارامترهاباتفسیرفیزیکی توصیف شود.
مدل هندسی لب درشکل (1) نشان داده شده است وبامعادلات(1) و(2) توصیف می شود:
ازمدلهای انعطاف پذیرهندسی برای مدل کردن شکل لب استفاده شده است .مدل هندسی به شکل لب اجازه می دهد که بوسیله یک مجموعه کوچکی ازپارامترهاباتفسیرفیزیکی توصیف شود.
مدل هندسی لب درشکل (1) نشان داده شده است وبامعادلات(1) و(2) توصیف می شود: (1) و (2) تفسیرفیزیکی پارامترهادرشکل نشان داده شده است.پارامترs انحراف شکل لب رانشان می دهد.
پارمترs انحراف منحنی ازحالت چهارگوش راتوصیف می کند.s به توان دورسیده وبایک جمع شده تاهمیشه مثبت باشد.همچنین پارامترs اجازه می دهد که مدل لب برروی تصاویرلب بادرجه متفاوت خمیدگی منطبق شود.اگرچه لب گوینده وحرکات لب به طورکلی متقارن نمی باشد اما انحراف ازحالت متقارن بودن معمولأ دارای اهمیت نمی باشد.
شکل1-مدل لب هندسی 2-2- فرمول بندی تابع هزینه برای بدست آوردن یک مدل دقیق،تابع هزینه برای تعیین پارامترهای مدل به طریقه ای که پیکسلهای دارای ناحیه لب دارای احتمال پایین باشند،تعریف می شود وفرض می شود که ناحیه لب وخارج لب هم پوشانی نداشته باشند.مرزاین ناحیه زمانی بدست می آید که این تابع هزینه مینیمم شود.تابع هزینه بصورت (3) تعریف می شود: (3) که ) B) 1R و) B)R 2 به ترتیب ناحیه لب وغیرلب می باشند و Prob1 (m,n) احتمال اینکه پیکسل درمکان (m,n) ،پیکسل غیرلب باشد رامشخص می کند.
مرز بهینه B با مینیم سازی C(B)به طریقهای که R1(B) شامل پیکسلهایی با Prob1(m,n) بالا و R2(B) شامل پیکسلهایی با Prob2( m,n) بالا باشد،مشخص می شود.با لگاریتم گرفتن ازمعادله بالا وساده سازی رابطه (4) بدست می آید: (4) که (5) ازآنجاکه درمعادلات(3)و(4)،m وn گسسته هستند بنابراین مرزB نیزگسسته بدست می آید.
اما این موضوع برای مامطلوب نیست زیرامایک مرزپیوسته نیازداریم.بنابراین برای حل این مشکل معادله (4) رادرحوزه پیوسته بسط می دهیم.درابتداm وn به x وy پیوسته بسط داده می شود.
اکنون مرزB پیوسته شده است ومی تواند هرشکل دلخواهی رافرض کند.سپس ،ما داریم: (6) (m,n)f باانتگرال گیری از(x,y)g روی سطح واحد (m,n)مرکزآن می باشد)بدست می آید.
سپس معادله (4) بصورت زیربسط داده می شود: (7) که مرزB پیوسته می باشد و بوسیله مدل لب مامشخص می شود.سپس پارامترهای بهینه مدل با مینیمم سازی تابع هزینه زیر بدست می آید : (8) g(x,y)dydx که x2 (p)=xc+wcos wcos + xc = (P) x2 نقاط گوشه راست وچپ لب، P ، مجموعه پارامترهای مدل می باشند .(p,x) y1 و y2(p;x) دو نقطه مرز عمودی خطx هستند.
پس با داشتن نگاشت احتمال Prob(m,n) ، f(m,n) بوسیله معادله (5) بدست میآید.
سپس سطح هزینه پیوسته g(x,y) درمعادله (8) باید ایجاد شود.اگرچهارنقطه zjk , zj +1k, zj +1,k+1,zjk+1 راداشته باشیم.
سطح درون یابی دوسویه شده بطریقه زیربدست می آید: (9) gjk (x,y) = (1+j-x) (1+k-y) zjk+(x-j)(1+k-y) zj+1k+(x-j)(y-k)zj+1k+1+(1+j-x)(y-k)zjk+1 بنابراین ایجاد سطح (x,y)g به مسئله تعیین } zm,n { تبدیل می شود.بااستفاده ازمعادله (6) و(9) وبعد ازتعدادی محاسبات جبری ، می توان نشان داد که f(m,n) و zm,n بوسیله معادله کانولوشن گسسته زیر هم باهم ارتباط دارند : (10) که ماسک کانولوشن(m,n)h، باماتریس زیربیان می شود: (11) درحوزه فرکانس معادله (10) بصورت زیرمی باشد : (12) بنابراین } m,n{ بامعکوس تبدیل فوریه بدست می آید : (13) Z(w1,w2) = f(w1,w2) /H (w1,w2) 2-3- نگاشت احتمال تصاویرلب ارزیابی (P)E نیازبه نگاشت احتمال تصاویرلب دارد که این نگاشت ،احتمال این رامشخص می کند که پیکسل،پیکسل لب هست یانه؟
الگوریتم خوشه بندی فازی]11[ برای ایجاد چنین نگاشت احتمالی استفاده می شود .این یک روش یادگیری بدون سرپرستی می باشد ونه فرض اولیه ای درمورد توضیع ویژگیهادرنظرمی گیرد ونه آموزش مورد نیازمی باشد.الگوریتم تلاش می کند برای هرپیکسل براساس توزیع بردارهای ویژگی هرپیکسل درفضای ویژگی واثرمتقابل هرپیکسل با8 تاازهمسایگی اش، یک مقداراحتمال مناسب برای هرپیکسل مشخص کند.
استفاده تنهاازشدت روشنایی درتصاویرلب،کنتراست کافی برای تفاوت قائل شدن یک پیکسل لب وغیرلب راندارد.بنابراین ازشدت روشنایی ورنگ به عنوان ورودی برای الگوریتمهای خوشه بندی استفاده می شود.ابتداتصاویردرفضای رنگ غیریکنواخت RGB تبدیل به فضای رنگ یکنواخت CIELAB می شود[12] .
این فضای رنگی یک دیاگرام رنگی یکنواختی دارد بنابراین هردورنگ یک تفاوت ادراکی دارد ودراین فضای رنگ ، اطلاعات روشنایی از اطلاعات رنگ جدامی باشند.
درشکل (2- الف) تصویراولیه ازلب نشان داده شده است همانطورکه مشاهده می شود کنتراست بین ناحیه لب وغیرلبب بسیارپایین می باشد.خوشه بندی بااستفاده ازویژگیهای رنگ (L*.a*,b*) ماراقادرمی سازد که یک نگاشت احتمال قابل قبولی بدست آوریم.درشکل (2- ب) نگاشت احتمال نشان داده شده است .
2 -4 – بهینه سازی پارامترهای مدل برای مینیمم سازی تابع هزینه ازروتین بهینه سازی کاهش گرادیان استفاده می شود.درنتیجه ازمعادله (8) نسبت به هرپارامترمشتق گرفته می شود.می توان نشان داد که مشتق گیری بوسیله معادله زیرصورت می گیرد : (14) که p1=xc,p2=yc,p3=w,… , p8=s,p9=0 می باشد.به این نکته توجه شود که انتگرال گیری ازمعادله(14) درامتداد منحنیهای لب y1 و y2 انجام می شود.
3- قطعه بندی Watershed این قطعه بندی براساس مفاهیمی همچون بهبود تباین وتبدیل Wastershed می باشد.
مراحل الگوریتم عبارتند از: 1.
خواندن تصویر 2.
حداکثرتباین برای اینکه لبه هایی که توسط تبدیل Watershed استفاده می شود کمینه گردد; می بایست تباین بین اشیاء مورد نظرماکزیمم گردد،روش معمول برای بهبود تباین استفاده ازتبدیلات bottom hot و top hat برروی تصویرمی باشد.
تبدیل top hot به عنوان تفاوت بین تصویراصلی وتصویری که بوسیله فیلترهای ایجاد شده باز گردیده است،تعریف می گردد.
تبدیل bottom hat به عنوان تفاوت بین تصویراصلی وتصویری که بوسیل ه فیلترهای ایجاد شده بسته گردیده است،تعریف می گردد.
3.
تفریق تصاویرایجاد شده توسط مرحله دوم الگوریتم می باشد.
تصویر top hat شامل نقاط نوک تیزاشیاء است وتصویرbottom hat فاصله های بین اشیاء مورد نظررانشان می دهد.
برای حداکثرکردن تباین بین اشیاء وفاصله هایی که بین آنها وجود دارد می بایستی طبق فرمول(15) عمل کرد.
Ienhance = imsubtract(imadd(Itop,afm),Ibot) (15) ) 4.
تبدیل اشیاء مورد نظر برای اینکه دریک تصویرشدت لبه هاآشکارگردد،می بایست ازمتمم تصویراستفاده شود تابتوان اشیاء مورد نظررادرمراحل بعد بهترتفکیک کرد.
5 .
آشکارسازی شدت لبه همه شدت لبه هابایک آستانه خاص باتابع imextendedmin آشکارمی شود وسپس باتابع imimposemin مکانهایی ازتصویراصلی که بهبود یافته وبه عنوان شدت لبه آشکارشده است تغییرداده می شود.
6 .
قطعه بندی Watershed Morphology قطعه بندی این قطعه بندی براساس مفاهیمی همچون آشکارسازی لبه، اشیاء ساخت یافته ، Erosion، قطعه بندی می باشد .مراحل الگوریتم عبارتند از: 1: خواندن تصویر 2.
آشکارکردن شی ء بطورکامل آشکارکردن شی ء بطورکامل براساس یکی ازالگوریتم های آشکارکننده لبه صورت می گیرد.
لازم به ذکراست که این الگوریتم برروی تصاویری که نویزندارند بکارمی روند.
3 .
آشکارسازی اشیاء بااستفاده ازلبه هایی که توسط مرحله دوم الگوریتم بدست آمده است، صورت می گیرد.
4 .
پهن کردن لبه هادرتصویر 5 .
پرکردن اشیاء بدست آمده، 6 .
پاک نمودن اشیائی که درحاشی ه تصویرقراردارند.
دراین مقاله ازتمامی مراحل قطعه بندی Wastershed به غیرازمرحله آخرآن استفاده شده است وهمچنین ازمراحل 5 و6 ،قطعه بندی Morphology استفاده گردید ودرنهایت ازیک سری فیلتر های خاص استفاده شد.
بامشاهده ،نتایج بدست آمده ملاحظه گردید،مرزهای لب بسیارتیزشده وباشکل اصلی تفاوت زیادی دارد برای اینکه قطعه بندی انجام شده برای تشخیص لب دقیق ترگردد ازفیلترهای خاص ازپیش تعریف شده Matlab بانام های motion وdisk به اندازه های متناسب بااندازه تصویر استفاده گردید که اثراین فیلترهارادرشکل 3 زیرمشاهده می شود.
مراحل انجام قطعه بندی برروی تصویردر مقاله درشکل زیرمشاهده می شود دراین روش ازدوطرف تصویربه طرف مرکزتصویرحرکت کرده ابتدادرتحلیل ستونی یک نقطه سفید راپیداکرده وسپس درهمان ستون باطی کردن نقاط سفید،می بایست نقطه سیاه جستجوشود، اگرنقطه سیاه پیدانشد پس گوشه لب درآن ستون قرارندارد درغیراین صورت گوشه لب درآن ستون قراردارد وسطرمربوط به گوشه لب ازنقطه میانی نقاط سفید موجود درآن ستون بدست می آید.این عملکرددرشکل زیرمشاهده می شود.
برای تشخیص حالت لب برای تمایزبین حرکات لب تصمیم گرفته شد که لب به یک 6 ضلعی نگاشت شود.برای بدست آوردن 6 ضلعی وباداشتن گوشه های لب بدین گونه عمل می شود که ابتداباداشتن گوشه های چپ وراست لب ، پهنای لب طبق فرمول (16) بدست می آید.
Width = left – lip(x)- right – lip (x) (16) 3-1- بدست آوردن 6 ضلعی تخمینی معادل حاشیه لب بعد ازبدست آوردن پهنای لب، برای بدست آوردن اضلاع دیگر6 ضلعی ، طبق مراحل زیر عمل می شود : 1) بدست آوردن قسمت سمت چپ بالای لب : برای بدست آوردن این نقطه ،ابتدااشاره گربه اندازه 2/0 پهنای لب ازگوشه چپ لب به سمت راست می رود.طبق فرمول (17) عرض نقطه شروع قسمت سمت چپ بالای لب بدست می آید؛ حال برای بدست آوردن ارتفاع نقطه شروع قسمت سمت چپ بالای لب ، بدین صورت عمل می شود که ابتدا معادله خط دوگوشه لب راتشکیل داده وعرض نقطه رادرمعادله قرارداده، تا ارتفاع نقطه شروع بدست آید، که مطابق فرمول (18) بدست می آید.
Tpis[x] = left – lip (x) + (o.2 * Width) (17) (18) برای بدست آوردن شروع تختی سمت چپ بالای لب بدینگونه عمل می شود؛که ابتداازنقطه بدست آمده به سمت بالا رفته تامرزلب بدست آید ومقدارارتفاع بدست آمده برابرTPLS[y] قرارداده می شود.حال باحرکات متوالی 05/0 پهنای لب به سمت راست رفته ونقطه مرزی متناسب باآن بدست می آید ودرهرمرحله باداشتن مختصات نقطه آن مرحله ومرحله قبلی زاویه تغییررابدست آورده وباحداقل زاویه تشخیص تختی بالای لب مقایسه می شود،اگر زاویه جدید از زاویه مرحله قبل بیشتربود، الگوریتم به کارخود ادامه می دهد ودرغیراین صورت نقطه ماقبل آخرین نقطه بدست آمده نقطه نهایی قسمت سمت چپ بالای لب می باشد که مطابق فرمول (19) دست می آید.
(19) 2) بدست آوردن قسمت سمت راست بالای لب : .طبق فرمول (20) عرض نقطه شروع قسمت سمت راست بالایی لب بدست می آید؛حال برای بدست آوردن ارتفاع نقطه شروع قسمت سمت راست بالای لب که مطابق فرمول (20) بدست می آید.
(20) Tprs[x]= right – lip(x) – (0.2*Width) (21) برای بدست آوردن شروع تختی سمت راست بالای لب که مطابق فرمول (22) بدست می آید.
(22) 3) بدست آوردن قسمت سمت چپ پایین لب : برای بدست آوردن این نقطه .
طبق فرمول (23) عرض نقطه شروع قسمت سمت چپ پایین لب بدست می آید؛حال برای بدست آوردن ارتفاع نقطه شروع قسمت سمت چپ پایین لب که مطابق فرمول (24) بدست می آید.
Dols[x]=left – lip(x)+(0.1*Width) (23) Dols[y] (24) برای بدست آوردن شروع تختی سمت چپ پایین لب که فیلم مطابق فرمول(25) بدست می آید.
Degree_limit=│Dosi[y]-Dolsi-1[y]│/0.05*width (25) 4) بدست آوردن قسمت سمت راست پایین لب : Dors[x]=right-lip(x)-(0.1*Width) (26) (27) پس ازبدست آوردن 6 ضلعی ، برای تحلیل تغییرات لب معیارهای زیررامحاسبه نموده ودر تمایزحرکات لب دریک تصویربکاربرده می شود.
1- پهنای قطراصلی 6 ضلعی : که درشکل زیرهمان Width می باشد.مقدارآن طبق فرمول (26) بدست می آید.
2- میانگین زوایای چپ وراست بالایی : که درشکل بالاهمان میانگین a1.a2 می باشد.مقدارآن مطابق فرمول (28) می باشد.
مقدارآن مطابق فرمول (28) می باشد.
(28) 2/ α =(α1+α2) 3 – میانگین زوایای چپ وراست پایینی : که درشکل بالا همان میانگین B,B می باشد مقدارآن مطابق فرمول (29) می باشد.
(29) 2 / ( β + β ) = β 4- انتخاب فریم برای اینکه حرکات لب تشخیص داده شود ابتدامی بایست ازفیلم ورودی فریم حالت ساکن لب را تشخیص داده وپس ازآن ، حالت بیشترین تغییرات لب که درواقع تلفظ یک عدد خاص می باشد تعیین شود(شکل زیر) براساس معیارهای بالا برطبق تغییرات این دوفریم بدست آمد ، تصمیمهای لازم اخذ می گردد.
درنتیجه فرمولها به صورت زیربیان می شوند: D_width=(widthf –widths )/widthf *100 (30) D_Degreetop=(αf – αs)/αf*100 (31) D_DegreeDown=(βf – βs)/βf*100 (32) برای اینکه این معیارهادرنهایت می بایست برای افراد مختلف بکاربرده شود،براساس آزمایشهایی که برروی تصاویرمختلف انجام گردید،این نتیجه حاصل شد که ازمعیارهای نسبی اختلاف دوفریم استفاده شود.
4-1 پارامترهای پویانمایی چهره یکی ازروش های مدلسازی وپویانمایی استفاده ازاستاندارد MPEG4 است که یک مدل چهره را درحالت عادی آن نشان می دهد.برای تعریف صورت وبدن مجازی انسان دراستاندارد MPEG4 ،پارامترهای تعریف چهره وبدن ونیزپارامترهای متحرک سازی چهره وبدن تعریف شده است.دراین استاندارد 84 نقطه ی مشخصه برای توصیف چهره تعریف شده است.FDP شکل، اندازه وبافت چهره راارائه می دهند وfap نیزمیزان تغییرات انجام یافته درچهره رانگه می دارند.نقاط مشخصه ی مورد استفاده درمقاله درشکل 1،نشان داده شده است.
شکل .5.
نقاط مشخصه ی چهره مورد استفاده دراین مقاله ازآن جایی که FAP هاباید چهره های بااندازه ی متفاوت راتحت تأثیرقراردهند،مقدارآنهابر اساس واحدهای FAPU بیان می گردد.
5 – ردیابی علائم یکی ازقسمت های مهم وکلیدی درطول فرآیند آموزش یک مدل پویانمایی چهره،تولید یک روند اتوماتیک برای ردیابی نقاط کنترلی چهره است.این ردیاب هابه حدی باید مطمئن کارکنند که نظارت دستی درآنهابه حداقل برسد.یکی ازروش های ردیابی نیزاستفاده ازعلائم درردیابی نقاط کنترلی چهره است.
شکل .6.
گوینده ازروبرو(1) ونیمرخ (ب) ،باعلائم رنگی نصب شده 5-1 الگوریتم پیشنهادی دراین الگوریتم مبنای مقایسه برای ردیابی علائم درفریم های ویدئویی،مختصات علائم درفریم اولیه یامبنااست.فریم اولیه، فریمی است که درآن حالت چهره ی گوینده حالت عادی تعریف شده دراستاندارد باید باشد .تعیین مختصات علائم دراین فریم به صورت دستی انجام شده وسپس در همسایگی مختصات مربوط به هرعلامت میانگین گیری برای هریک ازنگ های G,R وB انجام می شود.باتوجه به RGB به دست آمده برای هرعلامت بازه ای مشخص می کنیم تابا استفاده ازآن درفریم های بعدی بتوانیم محل علائم راتشخیص دهیم.بنابراین مراحل پیش پردازش الگوریتم رابدین صورت فهرست می کنیم.
1- تعیین دستی (x,y,z)علامت I ام دردوفریم اولیه روبروونیمرخ.
2- میانگین گیری RGB درهمسایگی (x,y)روبرو و(y,z)نیمرخ.
3- تعیین بازه ی RGB هابه ازای هرعلامت ونگهداری دریک آرایه.
(علت نگهداری بازه های RGB متفاوت برای فریم های روبرو ونیمرخ جلوگیری ازایجاد مشکلات نورپردازی ازدوجهت است).
درهرمرحله الگوریتم برای یافتن مختصات جدید علائم درفریم های بعدی، براساس یک معیار شباهت فضای جستجورابررسی می کنیم.
معیارشباهتی که درروش ارائه شده به کاررفته، براساس قرارگرفتن RGB نقاط فضادربازه ی RGB به دست آمده درمرحله ی پیش پردازش برای هرعلامت می باشد.به این معنی که فضای جستجوراگشته ومرکزثقل نقاطی راکه در بازه ی RGB می گنجند به عنوان مختصات جدید علامت مورد نظراعلام می شوند.فضای جستجو برای علائم مختلف متفاوت درنظرگرفته می شود: هدف : پیداکردن محل علامت ویژه ی i ،درفریم n ام.
1- مختصات علامت i درفریم اولیه را(x,y) درنظربگیرید.
2- فضای جستجوی علامت i: a ) غیرلب : فضای جستجوی (x-m:x+m,y-m:y+m) b) گوشه چپ لب : فضای جستجو(x-1:x+h,y-1,y+1) طوریکه 1 d) لب بالا : فضای جستجو(x-1:x+1,y-1,y+h) طوریکه 1 e) لب پائین : فضای جستجو(x-1:x+1,y-h,y+1) طوریکه 1 3 – درفضای جستجو مرکزثفل نقاطی راکه RGB آنهارابازه های RGB تعیین شده برای علامت I درپیش پردازش می گنجند، به دست آورید.
مختصات به دست آمده رامحل علامت i درفریم n ام قراردهید.
6 – طبقه بندی ازالگوریتم HMM برای شناسایی گفتارازروی حرکات لب استفاده می گردد[10].
بدین ترتیب که برای W لغت موجود دردایره لغات ،هدف ، طراحی یک HMM باN حالت مجزامی باشد.
سیگنال تصویری مربوط به گفتارهرلغت به صورت سری زمانی بردارهای ویژگی نمایش داده می شود.بنابراین برای هرلغت عیک سری آموزشی وجود دارد که شامل تعدادی تکرارازآن لغت توسط یک یاچند گوینده می باشد.اولین قدم،ساخت مدل های لغت مجزااست؛ تاپارامتهای مدل هرلغت به صورت بهینه ای تخمین زده شوند.نهایتأ،هنگامی که مجموعه W مدل HMM طراحی شد،بازشناسی لغت مجهول صورت می گیردتاباداشتن سری مشاهدات مورد تست، نمره ای به مدل هرلغت داده شود ولغتی که نمره آن ازبقیه بالاتراست انتخاب شود.درنتیجه،برای بازشناسی لغات می بایست کارهای زیرصورت پذیرد : 1- برای هرلغت V دردایره لغات بابهره گیری ازسری آموزشی واستفاده ازالگوریتم بام – ولش یک مدل HMM ساخته می شود.
به عبارت دیگر،باید پارمترهای مدل (A,B, )راکه احتمال بردارهای مشاهده مجموعه آموزشی مربوط به لغت V ام رابیشینه می نمایند،تخمین زد.
2 – برای هرلغت ناشناخته که می بایست بازشناسی شود،روند شکل (4) اعمال می شود که درابتدا،سری مشاهده {O1,O2,…..Ot} = 0،ازطریق استخراج بردارویژگیهای گفتارمربوط به آن لغت به دست می آید.سپس احتمالات بااستفاده ازالگوریتم ویتربی برای همه مدلهای وجود (1 ضمنأ دراین آزمونهاباساختن طبقه بندی کننده های HMM پیوسته،یعنی درنظرگرفتن یک یا چند تابع گاوسی برای تولید خروجی توسط هرحالت درمدل مربوطه به هرطبقه ازدادگان،عملکرد HMM پیوسته ،درطبقه بندی ویژگیهای مربوط به هرکلمه بررسی می شود.
درتعلیم مدل ها،ماتریس کوواریانس قطری درنظرگرفته شده وبااستفاده ازالگوریتم k-means توابع گاوسی باوزن معینی ،برای هرحالت تولید می شود که این هابه عنوان مقادیراولیه برای مدل هادرنظر گرفته شده وتعلیم می یابند.ضمنأ مقادیراولیه پارامترهای مدل HMM به صورت تصادفی وبدون هیچ پیش فرضی درنظرگرفته شده است.
ساختارمدل HMM ،چپ به راست است ودنباله حالت مدل به این گونه است که افزایش زمان باعث افزایش شماره حالت سیستم می شود.
این روش مدلسازی، برای سیگنال هایی که حالت متغیردرزمان دارند مناسب می باشد.
شکل (7) : بلوک دیاگرام یک تشخیص دهنده کلمات جداازهم بااستفاده ازHMM 7 – نگاشت ویژگی های گفتاربه چهره دراین روش ازشبکه های عصبی پرسپترون دولایه با ساختاری ساده برای نگاست بین ضرائب سیگنال گفتاروویژگی های چهره استفاده شده است.درسیستم پیاده سازی شده تعداد ورودی های شبکه هابایک ویاسه بردارویژگی گفتاری است وتعداد نرونهادرلایه های میانی شبکه متفاوت می باشد.شبکه هایی که یک بردارویژگی گفتاررابه عنوان ورودی دریافت می کنند درلایه ی میانی خود 30،60 ویا90 نرون دارند.شبکه هایی که سه بردارویژگی گفتاری دریافت می کنند دارای 90، 120 ویا150 نرون درلایه ی میانی می باشند.براساس تعداد ورودی هاوتعداد نرون های قرارگرفته درلایه ی نهان،ونیزانواع ورودی های MFCC,LPC وDelta MFCC ، 18 شبکه ی مختلف برای آموزش ایجاد می شوند.
یعنی برای هرنوع بردارویژگی گفتاری انتخاب شده شش شبکه ی مختلف درنظرگرفته می شود.
8- نتیجه گیری: برای آموزش وتست شبکه های مورد استفاده تعداد 37 جمله متفاوت ازیک گوینده انتخاب شده است که 30 جمله برای آموزش و7 جمله برای تست وارزیابی به کارگرفته شده است.
برای سنجش کارایی روش ،معیاری به نام G اتخاذ شده است.
ازاین معیاربرای ارزیابی کارکرد هر کدام ازپارامترهای کنترلی چهره استفاده می شود.معیاربه گونه ای است که هرچه عدد آن به یک نزدیکترباشد آن پارامترکارکرد بهتری داشته است.
(33) دررابطه ی (33)، P(K) مقدارپارامترکنترلی چهره ی استخراج شده برای فریم K ام تصویردر فازتست،b(k) مقدارصحیح این پارامترکه ازراه ردیابی به دست آمده وN تعداد کل فریم های مجموعه تست می باشد.مقدارمیانگین و واریانس مقدارپارامترهاکنترلی چهره به دست آمده ازردیابی است .
درشکل8 نمودارهای عملکرد شبکه عصبی برای دوپارمترکنترلی چهره درمقایسه باحرکت واقعی این پارامترهاکه ازردیابی علائم حاصل میشوند،نمایش داده شده است.
ازآنجایی دهان پیچیده ترین ومهمترین ویژگی صورت برای نمایش ادای گفتاراست،عملکرد سیستم دراین قسمت مهمترین قسمت به نظرمی رسد.درروش ارائه شده 8 علامت برلب های گوینده نصب می شود، که همه ی این علائم به علت محدودیتی که برای ادای گفتاردرگوینده ایجاد می کند،برروی لب بیرونی قرارداده می شوند واین امرباعث شده که ردیابی نقاط لب داخلی انجام نگیرد وبه روش تخمین ازروی حرکات لب بیرونی حرکت این نقاط پیش بینی شود.
شکل 8.
حرکت نقطه ی بین نوک لب بیرونی پایین وگوشه راست لب مراجع [1] Movellan.JR,"Visual speech recognition with stochastic networks", Advanced in Neural Information Processing System , Vol.7 , MIT Press, Cambridge,1995 [2] CIE,Colorimetry,CIE Pub.No.15.2,Bureau Central dela CIE, Vienna , Austria,1986 [3] www.mobtaker.ir [4] www.wikipedia.com [5] www.aftab.ae