پیشگویی قابلیت فهم گفتار مبتنی بر مدل ادراکی میکروسکوپی
First Statement of Responsibility
/فرزانه قویمی
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
: مهندسی برق و کامپیوتر
NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.
Text of Note
چاپی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
مهندسی برق گرایش مخابرات - سیستم
Date of degree
۱۳۹۲/۱۱/۲۵
Body granting the degree
تبریز
SUMMARY OR ABSTRACT
Text of Note
کاهش قابلیت فهم گفتار در شرایط نویزی یکی از متداولصترین مشکلات شنوندهصها، به ویژه افراد دارای ضعف شنوایی است .توانایی پیش بینی قابلیت فهم میصتواند باعث بهبود طراحی سیستمصهای صوتی و توسعه الگوریتمصهای کمک شنوایی در امر توانبخشی شود .روش های معمول برای پیش بینی قابلیت فهم، به شکل ماکروسکوپی عمل میصکنند، به این معنی که ویژگیصهای ماکروسکوپی سیگنال، مانند طیف بلند مدت یا نسبت سیگنال-به-نویز (SNR) در باندهای فرکانسی مختلف برای محاسبه استفاده می شوند .در مقابل، یک روش میکروسکوپی محاسبات خود را براساس ویژگیصهای طیفی- زمانی گفتار که شنونده درک میصکند، قرار میصدهد .در مدل میکروسکوپی، ساختار خاص طیفی- زمانی سیگنال صحبت احتمالا به گونهصای پردازش میصشود که بسیار مشابه سیستم شنوایی انسان است .در این پایانصنامه، یک مدل میکروسکوپی دوگوشی برای پیشگویی قابلیت فهم گفتار پیشنهاد شده است .ساختار مدل بر مبنای مدل تکصگوشی ادراکیJ ی rgens et al. [۵]و مدل پیشنهادی دوگوشی با استفاده از سلولصهای تحریک و ممانعت (EI cells) [۲۶] قرار دارد .ساختار مدل شامل دو مرحله آموزش و تست میصباشد .در مرحله آموزش، ابتدا، سیگنالصهای گفتار الگو برای گوشصهای چپ و راست با نویز پسصزمینه جمعصشونده دلخواه، به عنوان ورودی به واحد پیشصپردازش اعمال میصشود، این پیشصپردازش شامل فیلتربانک گاماتون، مدل سلول مویی و حلقهصهای انطباق می-باشد .سپس، سیگنالهای پیشصپردازش شده گوشصهای چپ و راست، وارد واحد پردازش دوگوشی میصگردند .درنهایت ، سیگنالصهای بدست آمده از مسیرهای تکصگوشی و دوگوشی توسط فیلتربانک مدولاسیون بطور جداگانه پردازش می-شوند .حاصل این مراحل پردازش، نمایشصهای درونی (IRs) برای سیگنالصهای الگوی تکصگوشی و دوگوشی است .به طریق مشابه در مرحله تست، برای سیگنالصهای ورودی تست گوشصهای چپ و راست نیز مراحل پردازشی ذکرصشده در بالا اعمال شده و نمایشصهای درونی (IRs) برای سیگنالصهای تکصگوشی و دوگوشی تست بدست میصآیند .در نهایت، نمایشصهای درونی بدست آمده برای سیگنالصهای الگو و تست توسط سیستم بازشناسی گفتار DTW مقایسه میصشوند تا سیگنال الگویی از مجموعه الگوهای ممکن دردسترس که کمترین فاصله را با سیگنالصص تست دارد، به عنوان سیگنال تشخیص دادهصشده انتخاب شود .میزان پیشگویی قابلیت فهم گفتار بر اساس نسبت تعداد سیگنالصهای درست تشخیص دادهصشده به تعداد کل سیگنالصهای الگو محاسبه میصشود .ارزیابی مدل تحت انواع مختلف نویز) نویز شبهصگفتار، همهمه، و گفتار معکوس (و چیدمانصهای مختلف فضایی منابع تداخل) بعبارتی، مکانصهای متفاوت منابع اخلال (انجام میصگیرد .به منظور تعیین دقت نتایج، پیشگوییصهای مدل با نتایج آزمایشات شنوایی بر حسب آستانه دریافت گفتار (SRT) مقایسه میصشود .برای انجام آزمایشات شنوایی، ۹ شنونده در فرآیند آزمایشات روانصادراکی شرکت دارند تا مقادیر SRT را در شرایط شنوایی گوناگون اندازهصگیری شود .در مورد نویز شبهصگفتار، سه نوع آزمایش با بکارگیری یک منبع ، دو منبع و سه منبع نویز انجام میصشود .ارزیابی نتایج برای این نوع نویز تطابق خوبی را در مورد مقادیر پیشگویی مدل با مقادیر اندازهصگیری شنوایی ذهنی نشان داده و کارآیی بالای مدل را تایید میصکند .برای نویزصهای همهمه و گفتار معکوس، تنها یک منبع نویز در آزمایشصها بکار رفته است .اما، برخلاف نویز شبهصگفتار، در مورد این نوع از نویزها، هماهنگی خوبی بین پیشگوییصهای مدل و اندازهصگیری-های ذهنی مشاهده نمیصشود
Text of Note
rgens et al.'s monaural perception model [۵] and a proposed binaural model using the excitation-inhibition cells (EI cells) [۲۶]. The model consists of two stages, namely, the training and the testing stages. In the training stage, first, template speech signals for left and right ears with optionally added background noise serves as input to the preprocessing stage. The preprocessing consists of a Gammatone filterbank, hair cells model, and adaptation loops. Then, the preprocessed signals of left and right ears are applied to a binaural processing unit. Finally, the signals obtained from monaural and binaural paths are processed separately by the modulation filterbank. The result of these processing stages are internal representations (IRs) for monaural and binaural template signals. In the same way, in the testing stage, the above mentioned processing stages are applied to the input test signals of left and right ears, and the IRs for monaural and binaural test signals are obtained. Finaly, the resulting IRs for the template and test signals are compared by the DTW speech recognizer to choose the template from an assortment of possible templates as the recognized one which has the smallest distance from the test signal. The predicted value of speech intelligibility is calculated based on the ratio of the number of correctly detected signals to the total number of template signals.The evaluations of the model is performed under different types of noises (speech-shaped, babble, and reversed-speech) and different spatial set-ups for interferers (i.e., different locations of interferer sources). Model predictions are compared with the results of hearing tests in terms of speech reception threshold (SRT) to determine the accuracy of the results. To perform hearing tests, ۹ subjects are participated in the process of psychoacoustic experiments to measure SRTs in different hearing conditions. For the speech-shaped noise, three types of experiments are conducted using single noise source, two noise sources, and three noise sources. Evaluation of the results show good consistency of model predictions with subjective hearing measurements, and confirms the high performance of the model for this type of noise. For the case of babble and reversed-speech noises, only a single noise source is used in the experiments. However, in contrast to the speech-shaped noise, good agreement between model predictions and subjective measurements is not observed for these types of noisesیDegraded speech intelligibility in noisy situations is one of the most frequent complaints of listeners, specially hearing impaired listeners. The ability to predict intelligibility can improve audio systems design and develop of hearing-aid algorithms for rehabilitation. The methods usually used for speech intelligibility prediction work "macroscopically", which means that macroscopic features of the signal such as the long-term frequency spectrum or the signal-to-noise ratios (SNRs) in different frequency bands are used for the calculation. A microscopic approach, on the contrary, bases its computation on those spectro-temporal features of speech that a listener perceives. In microscopic model, the particular spectro-temporal structure of speech is processed in a way that is presumably very similar to the processing that takes place in the human auditory system. In this thesis, a binaural microscopic model for speech intelligibility prediction is proposed. The structure of the model is based on the J