علیرضا ناظریه
 
 
چکیده
در سالهای اخیر، شناخت حالات گفتار انسانی بعلت تنوع کاربردهای آن، موجب افزایش استفاده از
چنین تکنولوژی شده است. در این تحقیق ابتدا تعریفی از حالت ارائه شده، سپس به برخی مشکلات
موجود در این کار که تشخیص را سختتر میکند پرداخته و راهحلهای متفاوت ارائه شده در این زمینه
معرفی میشود. بعد از آن به الگوریتمها و روشهای ارائه شده در زمینه بازشناسی حالت در گفتار
پرداخته و چند نمونه از تحقیقاتی که در این زمینه صورت گرفته ارائه شده است. همچنین به برخی مزایا
و معایب هر روش و اینکه هر کدام از این روشها برای چه شرایطی مفیدترند نیز، اشاره خواهد شد. در
نهایت برخی کاربردهای آن نیز مورد بررسی قرار میگیرد. در این تحقیق از شبکه های عصبیARTMAP 
فازی برای شناسایی چهار حالت عادی، خشم، شادی، و پرسشی و با استفاده از 52 ویژگی استفاده شده
است. نتایج نشان میدهد که شبکههای عصبی میتوانند بهعنوان یک دستهبندی کننده خوب برای
شناسایی حالت گفتار استفاده شوند. نتایج این روشها زمانی بهتر خواهد بود که حالت گفتار ذکر شده
دارای تفاوتهای قابل توجهی نسبت به سایر حالات باشد.
بر این اساس دقت شناسایی حالت برای حالت عادی 87/76%، برای حالت سوالی 51/74%، حالت شادی 76/13%، و حالت خشم 93/65% به دست آمد.
مقدمه
چارلز داروین نخستین کتاب درباره بیان احساسات انسان و حیوان را در قرن نوزدهم نگاشت. پس از این
اثر مهم روانشناسان و متخصصان هوش مصنوعی به تدریج به جمعآوری دانش و اطلاعات در این زمینه
پرداختند. این مسئله موج جدیدی از توجه روانشناسان و متخصصان هوش مصنوعی را برانگیخته است.
که بعضی از دلایل آن عبارتند از:
پیشرفت فناوری در ثبت، ذخیره و تحلیل اطلاعات صوتی و تصویری، بالا رفتن سطح فناوری ارتباط
انسان و رایانه از نقطه و کلیک به حس و عاطفه و نرمافزارهای زندهوار مخصوص کمک به انسان و
های شرکت سونی که قادر به AIBO ، های شرکت تایگر FURBI روباتهای حیوان شکل خانگی از قبیل
درک و بیان احساسات میباشند. به تازگی زمینههای تحقیقاتی جدیدی در هوش مصنوعی تحت عنوان
محاسبه عاطفی ایجاد شده است. درحوزه رمزگشایی و توصیف و به تصویر کشیدن حالات در گفتار،
تاکنون روانشناسان به آزمایشات تجربی بسیاری دست زده و فرضیههایی ارائه دادهاند. از طرف دیگر
محققان هوش مصنوعی نیز در شاخههای زیر تحقیقات ارزندهای انجام دادهاند:
ساخت و ترکیب حالات گفتار، بازشناسی حالات گفتار و استفاده از نرمافزارهایی برای رمزگشایی و بیان
حالات استفاده میشوند. هدف، تحقیق و کاوش در راههای استفاده از بازشناسی حالات گفتار است که
درتجارت، یک کاربرد بالقوه آن، میتواند تشخیص حالت گفتاری، در یک مکالمه تلفنی و ایجاد فیدبک
به یک اپراتور یا سرپرست، به منظور نمایش باشد. کاربرد دیگر آن ذخیره پیامهای صوتی طبق حالت بیان
شده توسط تماس گیرنده میباشد. کاربردی دیگر از آن، استفاده از محتوای حالت احساسی مکالمات،
جهت ارزیابی عملکرد اپراتور است.
شناسایی خودکارحالت گفتار، با توجه با حالات صورت، حرکات بدن و یا ویژگیهای گفتار یکی از
روشهای

 

برای دانلود متن کامل پایان نامه ها اینجا کلیک کنید

بازشناسی حالت گفتار میباشد. بخصوص در زمینه سیستمهای امنیتی علاقهمندیهای بسیاری
مشاهده شده است.
حال باید دید، منظور از حالت در گفتار چیست؟ اگر تاکنون در چند سخنرانی شرکت کرده باشید
خواهید دید که برخی از سخنرانیها جذاب و برخی خستهکننده میباشند. این مشکل علاوه بر موضوع
سخنرانی به نحوه بیان سخنران نیز بستگی دارد. اگر سخنران گفتاری یکنواخت داشته باشد همانند یک
روبات خواهد بود، که باعث خوابآلودگی شنونده میشود. بنابراین سخنرانان حرفهای با تغییر آهنگ
گفتار خویش و با حرکات به موقع دست، سر و بدن خویش، با تاکید روی برخی کلمات، بیان برخی
جملات با تعجب برخی با افسوس و… حال و هوای سخنرانی را تغییر میدهند. این تغییرات در نحوه
بیان جملات و کلمات را “حالت در گفتار” گویند. بعبارت دیگر ادای جملات به هر شکلی غیر از حالت
عادی و یکنواخت بعنوان یک حالت شناخته میشود. حالات مختلف از قبیل: خشم، تنفر، ترس، شادی،
غم، هیجان، آرامش، کسالت، افسردگی و … میباشند. حتی در برخی از مواقع در مورد میزان یک حالت
بحث میشود، مثلا شاد با خیلی شاد در نظر گرفته میشود. اضافه کردن حالت عادی به این حالتها
معقول بنظر میرسد تا هر کدام از این حالتها درک شوند. یعنی برای در نظر گرفتن یک حالت جدید
یک سری تغییرات باید نسبت به یک مبدا وجود داشته باشد و در اینگونه کارها مبنا حالت عادی و بدون
حالت میباشد. این طبقهبندی بعنوان اساس مقایسه استفاده میشود. امروزه آمار عمومی از یک عبارت
بعنوان اساس کار است، اگر چه سعی در استفاده از ویژگیهای ذاتی موجود را دارند.
برای اطمینان از تشخیص صحیح، معقول است که تعداد و نوع حالتهای قابل تشخیص محدود و
متناسب با نیاز در آن کاربرد خاص باشد(برای طبقهبندی مناسب). هنوز بصورت فنی هیچ استاندارد
مشخصی برای تشخیص و طبقهبندی حالتهای گفتار موجود نیست. اغلب تمیز دادن، میان یک مجموعه
تعریف شده از حالتهای گفتار مجزا است، و برای تعداد و اسامی آنها ایدهء یکسانی موجود نیست. از
طرفی این تحقیقات در هر زبان و لهجهای خاص خود میباشد و چنانچه برای سایر زبانها استفاده شود،
دقت بازشناسی کاهش مییابد. مثلا نمیتوان سیستمی که برای زبان انگلیسی طراحی شده است را برای
زبان فارسی بکار برد. زیرا پایگاه دادهای که برای زبان انگلیسی طراحی شده ویژگیهای خاص خود را
دارد که برای زبان فارسی متفاوت است و کاربردی ندارد. البته ممکن است الگوریتم کاری آنها مشابه
باشد.
افراد با استفاده از اطلاعات حالت یا عاطفی راحتتر با یکدیگر ارتباط برقرار میکنند. و اهمیت آن در
برخی مواقع بیش از اطلاعات کلامی میباشد. با افزایش اهمیت اطلاعات غیر کلامی در زمینه رابطه
انسان با ماشین، مدتی است که این امر بعنوان موضوع تحقیقی در حوزه مهندسی مورد بحث و بررسی
قرار گرفته است. اگر رایانهای بتواند هیجانات و حالات انسانی را بهخوبی خود انسانها درک کند رابطه
فوق بهبود خواهد داشت.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...