تشخیص حروف صدا دار از روی تصاویر لب

دسته بندي : کالاهای دیجیتال » رشته برق و مخابرات (آموزش_و_پژوهش)

فرمت فایل:PDF

تعداد صفحه:132

فهرست مطالب :

(به هم ریختگی و نامرتبی متن ها به دلیل فرمت آن ها در سایت میباشد در فایل اصلی مرتب و واضح میباشد)

چكيده . ................................................................ 1
مقدمه . ...................................................................... 2
فصل اول .............................................................. 3
مروري بر روشها ............................................................... 3
مقدمه . ................................................................... 4
-1 مروري بر تحقيقات انجام شده .................................................. 5
-1 استخراج مشخصههاي ديداري براي لبخواني .......................................... 7 -1
-1 روش پايين به بالا . .......................................................... 7 -1 -1
-1-1 كانتور فعال ....................................................... 8 -1 -1
-2-1 لبخواني با كمك اطلاعات شدت نور . ..................................... 8 -1 -1
-3-1 آناليز فضاي رنگ .................................................................. 9 -1 -1
-2 روش بالا به پايين . ............................................................. 10 -1 -1
-1-2 روش مبتني برالگوهاي انعطاف پذير......................................... 11 -1 -1
-2-2 مدل سازيهاي شكل فعال ..................................................... 11 -1 -1
-3-2 آشكارسازي لب مبتني بر مدل دگرديسپذير........................................ 11 -1 -1
-4-2 تكنيكهاي مبتني بر زمينه تصادفي ماركوف ................................... 13 -1 -1
-5-2 روشهاي مبتني بر خوشهبندي فازي ............................................. 14 -1 -1
-2 دستهبندي و تشخيص كلمات ........................................... 16 -1
- تشخيص واكه با كمك شبكههاي عصبي .............................................. 16
-3 معرفي سيستم ارائه شده ......................................... 18 -1
فصل دوم . ......................................................................... 20
مكانيابي و بازنمايي ناحيه لب . ..................................................... 20
مقدمه . ....................................................................... 21
-1 مكانيابي لب ............................................... 22
-1 تشخيص چهره .......................................................... 24 -1
-2 مكانيابي لب ................................................ 24 -1
-2 مسائل مرتبط با رنگ . ......................................................... 26
-1 توصيف انواع مدل هاي رنگ ............................................ 27 -2
27 .................................................................. Huncell - مدل
قرمز، سبز، آبي) ............................................................. 28 ) RGB - مدل
29 ........................................................ RGB - مدل نرماليزه شده
30 ............................................................................ . CMY - مدل
30 ..................................................................................... . XYZ - مدل
31 ........................................................................................ xyz - مدل
-1 فضاي رنگ ادراكي .......................................................... 31 -1 -2
32 .................................................................................. YUV - مدل
32 ....................................................................... HSI - مدل
-2 فضاي رنگ يكنواخت ادراكي . ........................................... 34 -1 -2
-3 مراحل پيشپردازش تصوير لب ..................................................... 38
فصل سوم . ............................................................ 41
استخراج ناحيه مربوط به لب . ............................................................. 41
مقدمه . ........................................................................... 42
1 –خوشهبندي . ............................................. 43 -3
46 ............................................. K-Means -1 الگوريتم -1 -3
ميانگين فازي . ..................................................... 47 -c -2 الگوريتم -1 -3
48 .............................................FCM و K-Means -3 مقايسه الگوريتم -1 -3
ميانگين فازي با ارتباط مكاني ...................... 53 -c -4 الگوريتم -1 -3
-5 پس پردازش ............................................................. 58 -1 -3
-1-5 شكلشناسي ......................................................... 58 -1 -3
-2-5 قرينهسازي . ....................................................................... 60 -1 -3
-3-5 روشنايي ............................................................................ 61 -1 -3
-4-5 شكلدهي . ................................................................ 61 -1 -3
-2 تبديل موجك .......................................................................... 63 -3
- الگوريتم مبتني بر تبديل موجك . ............................................... 65
فصل چهارم ................................................................ 69
استخراج ويژگيهاي مناسب و طبقهبندي آنها ................................................. 69
مقدمه . ................................................................................... 70
-1 استخراج مشخصههاي ديداري ................................................................ 71 -4
-1 جداسازي ناحيه لب .................................................................... 71 -1 -4
-2 مشخصههاي ديداري مورد استفاده ......................................................... 72 -1 -4
-1-2 پارامترهاي معمول( پارامترهاي طولي) .................................................. 73 -1 -4
-2-2 پارامترهاي جديد(پارامترهاي زاويهاي) ............................................ 74 -1 -4
-2 دستهبندي و تشخيص كلمات ................................................................. 75 -4
-1 پرسپترون . .......................................................................... 75 -2 -4
-2 تصديق تقاطعي . ............................................................ 77 -2 -4
فصل پنجم . ....................................................................... 82
نتايج و مشاهدات تجربي .................................................................. 82
-1 بانكهاي داده . ....................................................................... 83 -5
-2 تعيين خطاي بخشبندي . .................................................................... 86 -5
-3 استفاده از پارامترهاي طولي . ....................................... 87 -5
-4 وزندهي خروجي شبكهها به منظور افزايش دقت . ............................... 89 -5
فصل ششم . ............................................................ 91
نتيجهگيري و پيشنهادات . .................................................. 91
نتيجهگيري . ....................................................................... 92
منابع و ماخذ ............................................................... 95
فهرست منابع فارسي . ................................................................... 95
فهرست منابع لاتين . ........................................................................... 96
چكيده انگليسي . ............................................................................... 100

چکیده :

از ديرباز تشخيص و بازشناسي صحبت به عنوان اولين وسيله ارتباطي بين انسان ها از اهميت بسياري
برخوردار بوده است. تاكنون تكنيكهاي بازشناسي صحبت با استفاده از پردازش صوت با تنوع بسيار و با موفقيت
نسبي بكار گرفته شدهاند. اما وجود نويز در برخي شرايط، عامل اصلي بروز اشتباهات اساسي در تشخيص بوده
است كه در اين گونه موارد استفاده از پردازش تصوير و به ويژه بررسي شكل لبها و حركت آنها ميتواند ب راي
ارتقاء نتايج مورد استفاده قرار گيرد. فرآيند لبخواني و به عبارت ديگر تشخيص ديداري گفتار دو مرحله اصلي
قابل بررسي دارد. مرحله اول جداسازي ناحيه دهان و بطور كلي استخراج مشخصه هاي ديداري و مرحله دوم
دستهبندي و تشخيص كلمات ميباشد. در اين پروژه براي استخراج مشخصه هاي ديداري دو روش استفاده
و در روش دوم از روش مبتني بر تبديل موجك بهره جسته ايم . در SFCM نمودهايم. در روش اول از الگوريتم
مرحله بعد توسط پارامترهاي تعريف شده، يكسري ويژگي مربوط به تصاوير لب را استخراج مي نماييم . در آخر
توسط شبكه عصبي به دستهبندي ويژگيها و تشخيص واكهها ميپردازيم.
كلمات كليدي: لبخواني، بخشبندي، استخراج ويژگي، دستهبندي، تبديل موجك
مقدمه
كارايي ضعيف سيستمهاي تشخيص صوت و سيستمهاي تصديق گوينده در محيطهاي نويزي سبب شد تا
محققان به فكر استفاده از اطلاعات ديداري در اين سيستمها باشند به همين دليل آناليز تصاوير لب، توجه
زيادي را به خود جلب نمود. اولين گام در آناليز تصاوير لب، استخراج 1 ناحيه مربوط به لب در تصاوير مي باشد .
افزايش علاقه در استخراج اين اطلاعات توسط بخشبندي تصاوير لب سبب بوجود آمدن روش هاي گوناگون و
بهبود عملكرد سيستمهاي صوتي - تصويري در تشخيص صوت گرديد . بزرگترين مشكل در سيستم ه اي
لبخواني 2 توصيف كمي لب ميباشد. معمولاً روشهاي توصيف لب را به دو دسته، يكي روشهاي سطح پايين
(روشهاي مبتني بر تصوير) و ديگري روشهاي سطح بالا (روشهاي مبتني بر مدل) تقسيم مينمايند . دقت و
مقاوم بودن در اين فرآيند، مهمترين كليد براي پردازشهاي مراحل بعدي ميباشد زيرا هر چه اين مرحله با
دقت بيشتري انجام شود و بخشبندي ناحيه لب در تصاوير بهتر صورت گيرد مدل نمودن لب راحت تر خواهد
بود و با سهولت بيشتري ميتوان ويژگيهاي لب را استخراج نمود. گام بعدي بعد از استخراج ويژگي هاي لب،
دسته بندي و تشخيص ويژگي ها ميباشد. در پروژه جاري ما نيز به بررسي تك تك اين مراحل و ارائه راهكار
براي بهبود اين مراحل ميپردازيم.

از ديرباز تشخيص و بازشناسي صحبت به عنوان اولين وسيله ارتباطي بين انسان ها از اهميت بسياري
برخوردار بوده است. تاكنون تكنيكهاي بازشناسي صحبت با استفاده از پردازش صوت با تنوع بسيار و با موفقيت
نسبي بكار گرفته شدهاند[ 1]. اما وجود نويز در برخي شرايط عامل اصلي بروز اشتباهات اساسي در تشخيص
بوده است كه در اين گونه موارد استفاده از پردازش تصوير و به ويژه بررسي شكل لبها و حركت آنها مي تواند
براي ارتقاء نتايج مورد استفاده قرار گيرد[ 2]. استخراج اطلاعات ديداري از تصاوير لب كمك شاياني به تشخيص
صوت و تصديق گوينده بويژه در محيطهاي نويزي را فراهم آورده است به همين دليل توجه زيادي را به خود
جلب نموده است در اين فصل يك مروركلي بر روي روشهاي انجام شده تا به حال صورت خواهيم داد و در
مورد دستهبنديهاي موجود براي روشها صحبت خواهيم كرد.

مروري بر تحقيقات انجام شده
فرآيند لبخواني و به عبارت ديگر تشخيص ديداري گفتار دو مرحله اصلي ق اب ل بررسي دارد . مرحله اول
جداسازي ناحيه دهان و بطور كلي استخراج مشخصههاي ديداري و مرحله دوم دستهبندي و تشخيص كلمات
ميباشد. لذا محققين زيادي نيز در سالهاي متمادي و در مراحل مختلف تحقيقات خود به اين دو مرحله توجه
داشته و به صورت مستقل و يا همزمان به بررسي در زمينه استخراج مشخصه هاي ديداري و يا دسته بندي
كلمات پرداختهاند. در اين فصل ما به بررسي تحقيقات انجام شده در زمينه لبخواني ميپردازيم.

و...

 

دسته بندی: کالاهای دیجیتال » رشته برق و مخابرات (آموزش_و_پژوهش)

تعداد مشاهده: 2986 مشاهده

فرمت فایل دانلودی:.zip

فرمت فایل اصلی: pdf

تعداد صفحات: 132

حجم فایل:1,612 کیلوبایت

 قیمت: 65,000 تومان
پس از پرداخت، لینک دانلود فایل برای شما نشان داده می شود.   پرداخت و دریافت فایل