جداسازي دوگوشی منبع مبتنی بر توجه شن ی داري براي افراد با اختلال شنوایی
سحر ذاکر ي
مهندسی برق و کامپیوتر
۱۴۰۱
۲۲۱ص.
سی دی
دکتری
مهندسی پزشکی
۱۴۰۲/۱۲/۱۵
جداسازی و بهبود گفتار در محیطهای شلوغ برای افراد دارای اختلال شنوایی (HI) یک موضوع چالشبرانگیز است. هدف از این پژوهش، طراحی و ارزیابی الگوریتم¬هایی به کمک مدلهای محاسباتی آنالیز ترکیب شنیداری (CASA) است که توانایی جداسازی سیگنال هدف را برای افراد دارای اختلال شنوایی با بهره¬گیری از مدل¬های تشخیص توجه شنیداری (AAD) داشته باشد. برای دستیابی به این هدف و ارائه یک مدل یکپارچه جداسازی دوگوشی گفتار مبتنی بر تشخیص توجه شنیداری، ابتدا، یک روش بهینه AADمبتنی بر ویژگی با استفاده از سیگنال EEG معرفی میشود. در این روش، ویژگیهای مختلف از سیگنال استخراج شده و سپس، با استفاده از طبقهبندهای مختلف، عمل دستهبندی گفتار توجهشده/توجهنشده صورت میگیرد. نشان داده می¬شود که روش AAD پیشنهادی، بهترین عملکرد را ازنقطهنظر درصد صحت و زمان محاسبات نسبت به دیگر روش¬های پایه، دارا است. روش AAD ارائهشده، در مراحل پیادهسازی زیر، در سیستم کلی جداسازی دوگوشی گفتار مورد استفاده قرار می¬گیرد. در مرحله اول، یک سیستم جداسازی دوگوشی ارائه میشود که در آن به ازای هر گوینده در ترکیب شنوایی، یک شبکه عصبی عمیق (DNN)، با استفاده از ویژگی تکگوشی و ویژگی¬های دوگوشی استخراجشده، برای تخمین ماسک زمانیفرکانسی (TF) نسبتی ایدهآل، آموزش داده میشود. از میان ماسکهای تخمینی گویندگان در ترکیب، ماسک مربوط به گوینده توجهشده با استفاده از AAD انتخاب میشود. درنهایت، گفتار گوینده توجهشده با استفاده از ماسک تخمینی انتخابی توسط AAD بازسازی میشود. در مرحله دوم، سیستم جداسازی دوگوشی مرحله اول برای افراد با اختلال شنوایی تعمیم و توسعه داده میشود. این سیستم با استفاده از آستانههای شنوایی هر شنونده دارای ضعف شنوایی، تقویت الحاقی لازم را برای بهبود گفتار جداشده اعمال میکند. این تقویت با استفاده از روشهای تقویت الحاقی مختلف، نظیرNAL-RP، FIG6، NAL-NL2 و DSL-v5، انجام میشود که هر یک بهرهی الحاقی خاص خود را متناسب با آستانه¬های شنوایی تشخیص دادهشده برای هر فرد دارای ضعف شنوایی اعمال میکند. در مرحله آخر، سیستم پیشنهادی برای شرایط محیطی واقعی آموزش و ارزیابی میشود. محیط واقعی شامل نویز، پژواک و رخدادهای برجسته محیطی است که بهصورت غیرارادی توجه شنونده را میتواند به خود جلب کند. عملکرد سیستم پیشنهادی در هر مرحله، توسط معیارهای عینی مختلفی ازجمله، قابلیت فهم عینی کوتاهمدت (STOI) و قابلیت فهم عینی کوتاهمدت تعمیم¬یافته (ESTOI) برای ارزیابی قابلیت فهم گفتار، معیارهای نرخ سیگنالبهتداخل (SDR) و ارزیابی ادراکی کیفیت گفتار (PESQ) جهت ارزیابی کیفت گفتار و نیز شاخصهای قابلیت فهم و کیفیت ادوات کمک شنوایی (HASPI و HASQI) برای افراد با شنوایی ضعیف، مورد ارزیابی قرار میگیرد. نتایج سیستم پیشنهادی مرحله اول، نشان از برتری عملکرد آن نسبت به سیستمهای پایه با معیارهای STOI، ESTOI، PESQ و SDR دارد. سیستم پیشنهادی مرحله دوم، عملکرد بالاتری نسبت به سیستم جداساز دو¬گوشی بدون اعمال بهره (سیستم مبنا) بر اساس معیارهای ESTOI، PESQ، SNR، HASPI و HASQI از خود نشان میدهد. بر طبق معیارهای HASPI و HASQI، عملکرد این سیستم برای افراد دارای ضعف شنوایی، به ترتیب، بهاندازه %4/34 و %5/38 با روش تقویتی DSL-v5 نسبت به سیستم مبنا افزایش می¬یابد. ساختار سیستم مرحله آخر، به نحوی طراحی شده است که رخدادهای برجسته (غیر گفتار) ورودی را نیز آنالیز میکند، بنابراین، امکان ارزیابی خروجی این سیستم توسط اغلب معیارهای گفته شده در مرحله قبل وجود ندارد. تنها معیاری که میتواند خروجی دو سیستم جداساز صوت برجسته و جداساز گفتار را باهم مقایسه کند، معیار نسبت سیگنالبهنویز (SNR) است. نتایج ارزیابی معیار SNR، توانایی قابل¬توجه سیستم پیشنهادی را در جداسازی صوت ورودی از خود نشان میدهد. مدل ارائهشده در این تحقیق را میتوان بهعنوان یک ابزار پردازشی مهم در ساختار ادوات کمک ¬شنوایی هدایتشوندهی عصبی در سناریوهای مهمانی در نظر گرفت.
Abstract: Separation and enhancement of speech is a challenging issue for hearing-impaired (HI) listeners in crowded environments. The purpose of this research is to design and evaluate algorithms using computational auditory scene analysis (CASA) which is able to separate the target speech for the HI listeners by exploiting auditory attention detection (AAD) models. To achieve this aim and propose a unified binaural speech separation model based on AAD, first, an optimal method of AAD based on informative features is introduced using EEG signals of listeners. Here, different features are extracted from the signal, and then the classification of attended/unattended speech is performed using different classifiers. It is shown that the proposed AAD method has the best performance compared to other baseline methods in terms of accuracy percentage and computational time. The presented AAD approach is used in the following implementation stages of the overall binaural speech separation system. In the first stage, a binaural separation system is introduced, in which for each speaker in the auditory mixture, a deep neural network (DNN) is trained using the extracted monaural and binaural features to estimate an ideal ratio time-frequency (TF) mask. From the estimated masks for the speakers in the mixture, the mask corresponding to the attended speaker is selected by AAD. Finally, the speech of the attended speaker is resynthesized using the estimatd ratio mask selected by AAD. In the second stage, the binaural separation system of the first stage is extended and developed for HI listeners. This system applies the required insertion gain to improve the separated speech using the hearing thresholds (HTs) of each HI listener. This amplification is performed by various insertion gain methods, such as NAL-RP, FIG6, NAL-NL2, and DSL-v5, where each method applies its own specific gain based on detected HTs of each HI subject. In the last stage, the proposed system is trained and evaluated for real environmental conditions. The real environmental includes noise, reverberation, and salient events which can attract involuntarily the listener's attention. The performance of the proposed system each stage is evaluated by various objective measures, including short-time objective intelligibility (STOI) and extended short-time objective intelligibility (ESTOI) to assess speech intelligibility, signal-to-distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) to assess speech quality, as well as the hearing aids speech perception index (HASPI) and hearing aids speech quality index (HASQI) for HI listeners. The results of the proposed system in the first stage show its superioriority performance compared with the baseline systems in terms of STOI, ESTOI, PESQ, and SDR. The proposed system in the second stage achieves higher performance than the binaural separation system without gain (the baseline system) based on ESTOI, PESQ, SNR, HASPI, and HASQI criteria. According to the HASPI and HASQI measures, the performance of the system for the HI listeners increases by 34.4% and 38.5%, respectively, with DSL-v5 amplification method compared to the baseline system. The structure of the system in the last stage is designed in such a way that it also analyzes the input salient events (non-speech), hence, it is not possible to evaluate the output of this system by the most of the criteria mentioned in the previous stage. The only criterion that can be used to compare the outputs of both salient event and speech separation systems is the signal-to-noise ratio (SNR). The results of the SNRs evaluation show the remarkable ability of the proposed system in separating the incoming sound. The model presented in this research can be considered as an important processing tool in the structure of neuro-steered hearing aids in cocktail party scenarios. The performance of the proposed system is evaluated by various objective measures, including short-time objective intelligibility (STOI) and extended short-time objective intelligibility (ESTOI) to assess speech intelligibility, signal-to-interference (SDR) criteria and perceptual evaluation of speech quality (PESQ) to assess speech quality, as well as the hearing aids speech perception index (HASPI) and hearing aids speech quality index (HASQI) for HI listeners. The output results of the proposed system in the first stage show the superioriority performance compared to the baseline systems with STOI, ESTOI, PESQ and SDR. The proposed system in the second stage obtains higher performance than the binaural separation system without gain (the first stage system) based on ESTOI, PESQ, SNR, HASPI, and HASQI measurements. According to the HASPI and HASQI criteria, the performance of the system form HI listeners has increased by 34.4% and 38.5% with DSL-v5 amplification method compared to the baseline system. The structure of the system in the last stage is designed in such a way that it also analyses the input of the salient events (non-speech), therefore, it is not possible to evaluate the output of this system by most of the criteria mentioned in the previous stage. The only criterion that can be used to compare the results of both systems is the signal-to-noise ratio (SNR). The results of the SNRs show the remarkable ability of the proposed system in separating the incoming sound. The model presented in this research can be considered as an important processing tool in the structure of neuro-steered hearing aids in cocktail party scenarios.
Binaural Source Separation based on Auditory Attention for Hearing-Impaired Subjects