• Home
  • Advanced Search
  • Directory of Libraries
  • About lib.ir
  • Contact Us
  • History
  • ورود / ثبت نام

عنوان
تشخیص گفتار احساسی مبتنی بر پردازش دوگوشی و طبقه‌بندی احساس,‮‭Emotional Speech Recognition Based on Binaural Processing and Emotion Classification‬

پدید آورنده
/میثم بشیرپور

موضوع

رده

کتابخانه
University of Tabriz Library, Documentation and Publication Center

محل استقرار
استان: East Azarbaijan ـ شهر: Tabriz

University of Tabriz Library, Documentation and Publication Center

تماس با کتابخانه : 04133294120-04133294118

NATIONAL BIBLIOGRAPHY NUMBER

Number
‭۲۳۷۳۳پ‬

LANGUAGE OF THE ITEM

.Language of Text, Soundtrack etc
per

TITLE AND STATEMENT OF RESPONSIBILITY

Title Proper
تشخیص گفتار احساسی مبتنی بر پردازش دوگوشی و طبقه‌بندی احساس
Parallel Title Proper
‮‭Emotional Speech Recognition Based on Binaural Processing and Emotion Classification‬
First Statement of Responsibility
/میثم بشیرپور

.PUBLICATION, DISTRIBUTION, ETC

Name of Publisher, Distributor, etc.
: مهندسی برق و کامپیوتر
Date of Publication, Distribution, etc.
، ‮‭۱۳۹۸‬
Name of Manufacturer
، عباسپور

NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.

Text of Note
چاپی

NOTES PERTAINING TO PHYSICAL DESCRIPTION

Text of Note
‮‭۱۱۴‬ص

DISSERTATION (THESIS) NOTE

Dissertation or thesis details and type of degree
دکتری
Discipline of degree
مهندسی برق گرایش مخابرات سیستم
Date of degree
‮‭۱۳۹۸/۰۶/۲۰‬
Body granting the degree
تبریز

SUMMARY OR ABSTRACT

Text of Note
حالات احساسی مختلف مانند عصبانیت، خوشحالی، نفرت، ترس و غم، بخش عمده‌صای از زندگی انسان را در بر می‌صگیرند .حالت احساسی یک فرد، بر روی رفتار و گفتار او تاثیر داشته و کیفیت و نحوه واکنش‌صصهای فرد را تغییر می‌صدهد .بطور خاص، نحوه بیان و گفتار انسان، بسته به حالت احساسی او، دچار تغییر می‌صشود .بنابراین، سیگنال گفتار انسان اطلاعات مربوط به احساس یا حالت گوینده را نیز، علاوه بر انتقال پیغام، در بر می‌صگیرد .کارایی سیستم‌صهای پردازش گفتار موجود، در پردازش گفتار احساسی در شرایط محیطی واقعی) نویزی (بسیار ضعیف است .تشخیص احساس از گفتار ‮‭(SER)‬ و تشخیص گفتار در حالت احساسی ‮‭(EASR)‬ دو موضوع مهم در پردازش گفتار احساسی هستند .حالات احساسی و شرایط محیطی مانند نویز، باعث تغییر در پارامترهای گفتار شده و کارایی سیستم‌صهای پردازش خودکار گفتار ‮‭(ASR)‬ را کاهش می‌صدهند .این مساله موجب محدویت در کاربرد این سیستم‌صها می‌صشود .مطالعات قبلی در تشخیص گفتار احساسی، بر روی تشخیص گفتار احساسی در شرایط محیطی عاری از نویز) شرایط استودیو (متمرکز است .در این رساله، به مسئل‍ مقاوم‌صسازی سیستم‌صهای تشخیص گفتار در حالت احساسی و شرایط محیطی واقعی پرداخته شده است .از آنجایی که سیستم شنوایی انسان به دلیل وجود قابلیت‌صهایی مانند پردازش دوگوشی ، در مقابل اختلال‌صها و شرایط محیطی مختلف بسیار مقاوم است، در این رساله، تلاش شده است مدل‌صهای ارائه‌صشده برای سیستم شنوایی انسان با سیستم‌صهای تشخیص گفتار ترکیب داده شوند، تا اینکه این سیستم‌صها در تشخیص گفتار احساسی در شرایط نویزی و تداخل‌صهای با توزیع فضایی مقاوم‌صتر گردند .در این راستا، در ابتدا، به منظور بهبود عملکرد سیستم تشخیص احساس در شرایط نویزی، یک بررسی روی ویژگی‌صهای مقاوم در مقابل نویز انجام و نشان داده شده است که ویژگی ‮‭PNCC‬ عملکرد بهتری در شرایط مختلف محیطی در مقایسه با سایر ویژگی‌صهای بررسی‌صشده، دارد .در ادامه، به منظور بهبود عملکرد سیستم‌صصهای تشخیص گفتار برای گفتار احساسی، رویکرد جدیدی مبتنی بر ‮‭CASA‬ و پردازش تک‌صگوشی ارائه شده است .مدل پیشنهادی مبتنی بر تشخیص احساس سیگنال با استفاده از ویژگی ‮‭PNCC‬ و حذف آن نواحی از سیگنال گفتار در نمایش زمان-فرکانسی است که از حالت احساسی انسان بیشتر دچار تغییر شده‌صاند .این مدل، با بکارگیری اید ماسک شنوایی محقق می‌صشود که برحسب میزان شباهت هر ناحی‍ زمان-فرکانسی به حالت احساسی یا خنثی تخمین زده می‌صشود .در نهایت، مدل پیشنهادی، به منظور مقاوم‌صبودن در شرایط محیطی واقعی) نویزی(، با افزودن پردازش دوگوشی، به مدل دوگوشی توسعه داده می‌صشود .در مدل بدست‌صآمده، پردازش دوگوشی، جداسازی سیگنال گفتار از نویز را با ایجاد یک ماسک باینری فراهم می‌صکند و با تخمین و اعمال ماسک احساسی، نواحی زمان-فرکانسی متاثر از احساس در سیگنال گفتار جداسازی شده، حذف می‌صشوند .به عبارت دیگر، روش پیشنهادی، دو ماسک برای حذف نواحی نویزی و همچنین، نواحی تغییرصیافته از احساس را ترکیب می‌صکند تا نرخ خطا را در سیستم تشخیص گفتار برای گفتار احساسی در شرایط نویزی بهبود دهد .عملکرد سیستم‌صهای پیشنهادی تک‌صگوشی و دوگوشی تشخیص گفتار احساسی، در دو شرایط محیطی مختلف شامل شرایط تمیز و عاری از نویز و شرایط نویزی ارزیابی شده است .برای شرایط نویزی، ‮‭۴‬ شرایط محیطی مختلف شامل نویزهای سفید ، همهمه ، شبه-گفتار و نویز کارخانه با مقادیر ‮‭SNR‬ متغیر بین‮‭۵‬ - تا ‮‭۲۰‬ دسیبل در نظر گرفته شده است .در این ارزیابی‌صها، برای داده‌صهای گفتاری، از دادگان احساسی زبان فارسی با عنوان ‮‭Persian ESD‬ استفاده شده است .ارزیابی‌صهای انجام‌صشده نشان داده است که مدل‌صهای پیشنهادی تک‌صگوشی و دوصگوشی در مقایسه با سیستم‌صهای پایه، عملکرد بهتری داشته و نرخ خطا را در تشخیص گفتار احساسی بهبود بخشیده‌صاند
Text of Note
10 to 30 dB are considered. In these evaluations, Persian ESD data are used for speech data. Evaluations have shown that the proposed monaural and binaural models perform well compared to baseline systems and also improve the error rate in emotional speech recognition. -shaped and factory noises with variable SNR values between -free conditions. For noisy conditions, four different environmental conditions, including white, babble, speech-frequency regions affected by the emotional state. In other words, the proposed method combines two masks to remove noisy areas as well as most emotionally affected areas to improve the word error rate in the speech recognition system for emotional speech in noisy conditions. The performances of monaural and binaural emotional speech recognition systems have been evaluated under two different environmental conditions, including noise-world (i.e., noisy) conditions. In the proposed model, binaural processing provides the separation of the speech signal from the noise by generating a binary mask and then by estimating and applying the emotional mask to the time-temporal region to the emotional or neutral state. At the end, the proposed monaural model is extended to the binaural model in order to make it robust in real-temporal regions of speech signal that are more affected by the human emotional state. This model is realized by applying the idea of auditory mask, which is estimated based on the likelihood of each spectro-based approach is presented. The proposed monaural model is based on the recognition of speech underlying emotion using the PNCC feature and the removal of spectro-robustness of features and it has been shown that the PNCC feature performs better than other investigated features under different environmental conditions. As a next work, in order to improve the performance of speech recognition systems for emotional speech, a new CASA-Various emotional states such as anger, happiness, disgust, fear, and sadness encompass a large part of human life. An individual's emotional state affects his or her speech and behavior, and also, changes the quality and manner of one's reactions. In particular, the way a person speaks, changes depending on his or her emotional state. Thus, the human speech signal includes information about the emotional state of the speaker in addition to conveying the message. The performance of existing speech processing systems is very poor in emotional speech processing under real (noise) environmental conditions. Speech emotion recognition (SER) and emotion affected speech recognition (EASR) are two important issues in emotional speech processing. Emotional states and environmental conditions, such as noise, alter the speech parameters and reduce the performance of the ASR systems. This limits the use of these systems. Previous studies in emotional speech recognition have focused on emotional speech recognition in clean conditions (controlled studio setting). In this dissertation, the robustness issue of speech recognition systems in emotional and real environmental conditions is discussed. Since the human auditory system is robust to various distortions and environmental conditions due to capabilities such as binaural processing, this dissertation attempts to present combined models of the human auditory system with speech recognition system so that these systems become more robust in detecting emotional speech under noisy conditions and spatially distributed interference. In this regard, firstly, to improve the performance of the emotion recognition system in noisy conditions, a study has been performed on noise

PARALLEL TITLE PROPER

Parallel Title
‮‭Emotional Speech Recognition Based on Binaural Processing and Emotion Classification‬

PERSONAL NAME - PRIMARY RESPONSIBILITY

بشیرپور، میثم
Bashirpour, Meysam

ELECTRONIC LOCATION AND ACCESS

Public note
سیاه و سفید

نمایه‌سازی قبلی

Proposal/Bug Report

Warning! Enter The Information Carefully
Send Cancel
This website is managed by Dar Al-Hadith Scientific-Cultural Institute and Computer Research Center of Islamic Sciences (also known as Noor)
Libraries are responsible for the validity of information, and the spiritual rights of information are reserved for them
Best Searcher - The 5th Digital Media Festival