یک روش انتقال یادگیری در سطح ویژگی برای بازشناسی احساس گفتار
Title Proper
A Feature level Transfer Learning method for Speech Emotion Recognition
.PUBLICATION, DISTRIBUTION, ETC
Place of Publication, Distribution, etc.
تهران
PHYSICAL DESCRIPTION
Other Physical Details
۴۷ ص.
NOTES PERTAINING TO TITLE AND STATEMENT OF RESPONSIBILITY
Text of Note
بابک ناصرشریف
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Body granting the degree
صنعتی خواجه نصیرالدین طوسی
Date of degree
۱۴۰۰
Discipline of degree
کامپیوتر
SUMMARY OR ABSTRACT
Text of Note
بازشناسی احساس گفتار به دلیل بهبود تعامل ماشین با انسان مورد توجه بسیاری از پژوهشگران قرار گرفته است. یکی از مسائل مطرح در این حوزه دادههای گفتاری میباشد که از جنبههای مختلف از جمله زبان، گوینده، شرایط ضبط و غیره با هم تفاوت دارند و این امر موجب تفاوت توزیع دادههای آموزش (منبع) از دادههای آزمایش (هدف) میشود و به عنوان یک چالش مهم در این حوزه شناخته میشود. همچنین در برخی از زبانها با کمبود داده مواجه هستیم که این امر فرآیند آموزش را با مشکل مواجه میکند. برای رفع این چالشها میتوان از روشهای انتقال یادگیری و تطبیق دامنه استفاده کرد. در این پایاننامه، یک روش تطبیق دامنه عمیق مبتنی بر اختلاف را برای خودرمزگذار و خودرمزگذار متغیر پیشنهاد میشود که هدف آن استخراج یک فضای ویژگی مشترک برای تشخیص احساسات گفتاری در یک زوج زبان متفاوت است. به این ترتیب، برای هر دامنه منبع (گفتار یک زبان) و هدف (گفتار با زبان یا شرایط ضبط دیگر) یک خودرمزگذار در نظر گرفته میصشود. سپس خودرمزگذارها با استفاده از تابع خطای استانداردشان (خطای بازسازی و خطای relbieL-kcablluK) با دخیل کردن خطای عدم تطابق دامنه آموزش میصبینند. خطای عدم تطابق بر اساس حداکثر اختلاف میانگین (DMM) بین لایه گلوگاه خودرمزگذارهای منبع و هدف محاسبه میصشود که به منظور نزدیک کردن توزیع ویژگیهای دامنههای منبع و هدف و استخراج فضای ویژگی مشترک در نظر گرفته شده است. در روش پیشنهادی دیگر DMM بین تمام لایههای بخش کدگذار خودرمزگذار به منظور بهبود فرآیند استخراج ویژگی و فضای ویژگی مشترک حاصل محاسبه میصشود. برای ارزیابی روشها دو دستهبند حافظه کوتاه مدت ماندگار(MTSL) و ماشین بردار پشتیبان (MVS) استفاده شدهاند که فقط بر روی دادگان منبع آموزش میصبینند. نتایج تجربی نشان میدهد بهترین حالت مربوط به خودرمزگذار مبتنی بر محاسبه DMM میان چند لایه میباشد. در مورد دادگان PACOMEI (زبان انگلیسی - دادگان منبع) و BDOME (زبان آلمانی - دادگان هدف)، دقت بر روی دادگان هدف نسبت به حالت پایه برای دستهبند %47.8 ،MTSL و برای دستهبند %80.6 ،MVS افزایش یافته است. در مورد دادگان OVOME (زبان ایتالیایی - دادگان منبع) و BDOME (دادگان هدف)، دقت بازشناسی احساس بر روی دادگان هدف نسبت به حالت پایه برای دستهبند %79.5 ،MTSL و برای دستهبند %27.01 ،MVS افزایش یافته است. در نهایت در مورد دادگان OMEHS (زبان فارسی - دادگان منبع) و UDRU (زبان اردو - دادگان هدف) دقت بازشناسی احساس بر روی دادگان هدف نسبت به حالت پایه برای دستهبند %88.11 ،MTSL و برای دستهبند %93.11 ،MVS افزایش داشته است.
Text of Note
Speech emotion recognition can improve human-computer interactions and this motivates researchers to pay more attention to this branch. One important challenge in speech emotion recognition systems is the mismatch between the training )source( and the test )target( corpora due to variations in spoken languages, speakers, and recording environments. Also, another challenge is a lack of enough training data for low-resource languages. Transfer learning and domain adaptation methods can be used to face these challenges. In this thesis, we propose a deep domain adaptation method for ordinary and variational auto-encoders to extract domain invariant features for cross-corpus speech emotion recognition. In this way, we consider an auto-encoder for each source and target domain dataset. Then, we propose to train auto-encoders using their conventional loss )reconstruction and Kullback-Leibler based losses( in addition to a domain adaptation loss. The domain adaptation loss is based on the maximum mean discrepancy between bottleneck layers of source and target auto-encoders to bring closer the distributions of target and source domain features and obtain the domain invariant feature space. In another proposed method, the maximum mean discrepancy is computed between all other layers of auto-encoders to improve the feature extraction process and common feature space. For evaluation of proposed methods, LSTM and SVM are used as classifiers trained only on the source dataset. Experimental results show that the multilayer MMD method for training auto-encoders has the best results among the proposed methods. In the case of IEMOCAP )English language as source data( and EMODB )German Language as target data(, speech emotion accuracy has increased in comparison to the baseline system as 8.74% and 6.08% using LSTM and SVM classifiers, respectively. In the case of EMOVO )Italian language as source data( and EMODB )target data(, speech emotion accuracy has increased in comparison to the baseline system as 5.97% and 10.72%% using LSTM and SVM classifiers, respectively. Finally, In the case of SEHMO )Persian language as source data( and URDU )Urdu language as target data(, speech emotion accuracy has increased in comparison to the baseline system as 11.88% and 11.39% for LSTM and SVM classifiers, respectively