تشخیص گفتار احساسی مبتنی بر پردازش دوگوشی و طبقهبندی احساس
Emotional Speech Recognition Based on Binaural Processing and Emotion Classification
/میثم بشیرپور
: مهندسی برق و کامپیوتر
، ۱۳۹۸
، عباسپور
چاپی
۱۱۴ص
دکتری
مهندسی برق گرایش مخابرات سیستم
۱۳۹۸/۰۶/۲۰
تبریز
حالات احساسی مختلف مانند عصبانیت، خوشحالی، نفرت، ترس و غم، بخش عمدهصای از زندگی انسان را در بر میصگیرند .حالت احساسی یک فرد، بر روی رفتار و گفتار او تاثیر داشته و کیفیت و نحوه واکنشصصهای فرد را تغییر میصدهد .بطور خاص، نحوه بیان و گفتار انسان، بسته به حالت احساسی او، دچار تغییر میصشود .بنابراین، سیگنال گفتار انسان اطلاعات مربوط به احساس یا حالت گوینده را نیز، علاوه بر انتقال پیغام، در بر میصگیرد .کارایی سیستمصهای پردازش گفتار موجود، در پردازش گفتار احساسی در شرایط محیطی واقعی) نویزی (بسیار ضعیف است .تشخیص احساس از گفتار (SER) و تشخیص گفتار در حالت احساسی (EASR) دو موضوع مهم در پردازش گفتار احساسی هستند .حالات احساسی و شرایط محیطی مانند نویز، باعث تغییر در پارامترهای گفتار شده و کارایی سیستمصهای پردازش خودکار گفتار (ASR) را کاهش میصدهند .این مساله موجب محدویت در کاربرد این سیستمصها میصشود .مطالعات قبلی در تشخیص گفتار احساسی، بر روی تشخیص گفتار احساسی در شرایط محیطی عاری از نویز) شرایط استودیو (متمرکز است .در این رساله، به مسئل مقاومصسازی سیستمصهای تشخیص گفتار در حالت احساسی و شرایط محیطی واقعی پرداخته شده است .از آنجایی که سیستم شنوایی انسان به دلیل وجود قابلیتصهایی مانند پردازش دوگوشی ، در مقابل اختلالصها و شرایط محیطی مختلف بسیار مقاوم است، در این رساله، تلاش شده است مدلصهای ارائهصشده برای سیستم شنوایی انسان با سیستمصهای تشخیص گفتار ترکیب داده شوند، تا اینکه این سیستمصها در تشخیص گفتار احساسی در شرایط نویزی و تداخلصهای با توزیع فضایی مقاومصتر گردند .در این راستا، در ابتدا، به منظور بهبود عملکرد سیستم تشخیص احساس در شرایط نویزی، یک بررسی روی ویژگیصهای مقاوم در مقابل نویز انجام و نشان داده شده است که ویژگی PNCC عملکرد بهتری در شرایط مختلف محیطی در مقایسه با سایر ویژگیصهای بررسیصشده، دارد .در ادامه، به منظور بهبود عملکرد سیستمصصهای تشخیص گفتار برای گفتار احساسی، رویکرد جدیدی مبتنی بر CASA و پردازش تکصگوشی ارائه شده است .مدل پیشنهادی مبتنی بر تشخیص احساس سیگنال با استفاده از ویژگی PNCC و حذف آن نواحی از سیگنال گفتار در نمایش زمان-فرکانسی است که از حالت احساسی انسان بیشتر دچار تغییر شدهصاند .این مدل، با بکارگیری اید ماسک شنوایی محقق میصشود که برحسب میزان شباهت هر ناحی زمان-فرکانسی به حالت احساسی یا خنثی تخمین زده میصشود .در نهایت، مدل پیشنهادی، به منظور مقاومصبودن در شرایط محیطی واقعی) نویزی(، با افزودن پردازش دوگوشی، به مدل دوگوشی توسعه داده میصشود .در مدل بدستصآمده، پردازش دوگوشی، جداسازی سیگنال گفتار از نویز را با ایجاد یک ماسک باینری فراهم میصکند و با تخمین و اعمال ماسک احساسی، نواحی زمان-فرکانسی متاثر از احساس در سیگنال گفتار جداسازی شده، حذف میصشوند .به عبارت دیگر، روش پیشنهادی، دو ماسک برای حذف نواحی نویزی و همچنین، نواحی تغییرصیافته از احساس را ترکیب میصکند تا نرخ خطا را در سیستم تشخیص گفتار برای گفتار احساسی در شرایط نویزی بهبود دهد .عملکرد سیستمصهای پیشنهادی تکصگوشی و دوگوشی تشخیص گفتار احساسی، در دو شرایط محیطی مختلف شامل شرایط تمیز و عاری از نویز و شرایط نویزی ارزیابی شده است .برای شرایط نویزی، ۴ شرایط محیطی مختلف شامل نویزهای سفید ، همهمه ، شبه-گفتار و نویز کارخانه با مقادیر SNR متغیر بین۵ - تا ۲۰ دسیبل در نظر گرفته شده است .در این ارزیابیصها، برای دادهصهای گفتاری، از دادگان احساسی زبان فارسی با عنوان Persian ESD استفاده شده است .ارزیابیصهای انجامصشده نشان داده است که مدلصهای پیشنهادی تکصگوشی و دوصگوشی در مقایسه با سیستمصهای پایه، عملکرد بهتری داشته و نرخ خطا را در تشخیص گفتار احساسی بهبود بخشیدهصاند
10 to 30 dB are considered. In these evaluations, Persian ESD data are used for speech data. Evaluations have shown that the proposed monaural and binaural models perform well compared to baseline systems and also improve the error rate in emotional speech recognition. -shaped and factory noises with variable SNR values between -free conditions. For noisy conditions, four different environmental conditions, including white, babble, speech-frequency regions affected by the emotional state. In other words, the proposed method combines two masks to remove noisy areas as well as most emotionally affected areas to improve the word error rate in the speech recognition system for emotional speech in noisy conditions. The performances of monaural and binaural emotional speech recognition systems have been evaluated under two different environmental conditions, including noise-world (i.e., noisy) conditions. In the proposed model, binaural processing provides the separation of the speech signal from the noise by generating a binary mask and then by estimating and applying the emotional mask to the time-temporal region to the emotional or neutral state. At the end, the proposed monaural model is extended to the binaural model in order to make it robust in real-temporal regions of speech signal that are more affected by the human emotional state. This model is realized by applying the idea of auditory mask, which is estimated based on the likelihood of each spectro-based approach is presented. The proposed monaural model is based on the recognition of speech underlying emotion using the PNCC feature and the removal of spectro-robustness of features and it has been shown that the PNCC feature performs better than other investigated features under different environmental conditions. As a next work, in order to improve the performance of speech recognition systems for emotional speech, a new CASA-Various emotional states such as anger, happiness, disgust, fear, and sadness encompass a large part of human life. An individual's emotional state affects his or her speech and behavior, and also, changes the quality and manner of one's reactions. In particular, the way a person speaks, changes depending on his or her emotional state. Thus, the human speech signal includes information about the emotional state of the speaker in addition to conveying the message. The performance of existing speech processing systems is very poor in emotional speech processing under real (noise) environmental conditions. Speech emotion recognition (SER) and emotion affected speech recognition (EASR) are two important issues in emotional speech processing. Emotional states and environmental conditions, such as noise, alter the speech parameters and reduce the performance of the ASR systems. This limits the use of these systems. Previous studies in emotional speech recognition have focused on emotional speech recognition in clean conditions (controlled studio setting). In this dissertation, the robustness issue of speech recognition systems in emotional and real environmental conditions is discussed. Since the human auditory system is robust to various distortions and environmental conditions due to capabilities such as binaural processing, this dissertation attempts to present combined models of the human auditory system with speech recognition system so that these systems become more robust in detecting emotional speech under noisy conditions and spatially distributed interference. In this regard, firstly, to improve the performance of the emotion recognition system in noisy conditions, a study has been performed on noise
Emotional Speech Recognition Based on Binaural Processing and Emotion Classification