بهبود دوگوشی گفتار در شرایط محیطی نامطلوب برای شنوندگان با شنوایی طبیعی و ضعیف مبتنی بر شبکههای عصبی عمیق
پریا دادور
مهندسی برق و کامپیوتر
۱۴۸ص.
سی دی
دکتری
برق گرایش مخابرات (سیستم)
۱۳۹۸/۰۶/۲۰
انسان¬ها توانایی قابل توجهی برای درک گفتار در محیط¬های شنوایی روزمره دارند. با این وجود، نویز پس¬زمینه و پژواک اتاق، انجام این وظیفه را با چالش روبه¬رو می¬سازند. شرایط، در صورتی که نقصی در محیط شنوایی انسان نیز وجود داشته باشد؛ بسیار دشوار می¬شود. در این رساله، ابتدا، یک سیستم پایدار جداسازی دوگوشی گفتار مبتنی بر شبکه عصبی عمیق (DNN) در شرایط محیطی نامطلوب برای شنوندگان با شنوایی طبیعی معرفی می¬شود. سپس، یک سیستم یکپارچه جداسازی و تقویت با هدف بهبود گفتار برای شنوندگان با شنوایی ضعیف ارائه می¬شود. در واقع، سیستم پیشنهادی دوم را می¬توان توسعه سیستم پیشنهادی اول برای کاربرد در ادوات کمک¬شنوایی دانست.سیستم پیشنهادی اول، شامل سه مرحله پردازشی اصلی است. در مرحله پردازش طیفی، ویژگی کاکلی¬گرام چنددقتی (MRCG) از سیگنال پیش¬پردازش¬شده به روش شکل¬دهی پرتو استخراج می¬شود. در مرحله پردازش فضایی، ویژگی جدیدی با نام smITD+smILD با ماسک¬گذاری نرم ویژگی¬های اختلاف زمان بینگوشی (ITD) و اختلاف سطح بینگوشی (ILD) به¬روش داده گم¬شده به¬دست می¬آید. در مرحله آخر، DNN ویژگی¬های به¬هم¬پیوسته طیفی و فضایی را دریافت می¬کند و یک ماسک نسبتی ایدهآل (IRM) طراحی¬شده برای جداسازی گفتار از نویز و پژواک را تخمین می¬زند. عملکرد سیستم پیشنهادی در شرایط نویزی و پژواکی مختلف مورد ارزیابی قرار گرفته و با عملکرد دو سیستم جداسازی دوگوشی گفتار اخیر به عنوان پایه مقایسه می¬شود. به¬علاوه، عملکرد هر مرحله پردازشی مورد بررسی و مقایسه با روش¬های جدید قرار گرفته است. در این آزمایش¬ها، یک همهمه چندگوینده پخشی به¬عنوان سیگنال تداخل در چهار سطح نسبت سیگنال به نویز (SNR) مختلف و اتاق شبیه¬سازی¬شده با چهار زمان پژواک (RT) تطبیق¬یافته و چهار RT تطبیق¬نیافته با آموزش در نظر گرفته می¬شود. نشان داده می¬شود که سیستم پیشنهادی اول در مقایسه با سیستم¬های پایه، در افزایش قابلیت فهم و کیفیت سیگنال¬های گفتار جداشده در شرایط نویزی و پژواکی موفق¬تر عمل می¬کند. به¬علاوه، نتایج آزمایش¬های جانبی، کارایی هر بخش سیستم پیشنهادی را به¬ویژه در شرایط با پژواک بالا تأیید می¬کند. در بخش دوم این رساله، یک الگوریتم جدید یکپارچه برای جداسازی دوگوشی گفتار مبتنی بر یادگیری عمیق و تقویت دوبعدی برای شنوندگان با شنوایی ضعیف ارائه می¬شود. در فاز آموزش سیستم پیشنهادی دوم، ابتدا، ویژگی¬های MRCG، ITD و ILD با استفاده از آنالیز محیطی سیگنال¬های مخلوط استخراج می¬شوند. سپس، یک DNN با استفاده از ویژگی¬های به¬هم¬پیوسته برای تخمین IRMبا محوریت صدای مستقیم آموزش داده می¬شود. در فاز آزمون، ابتدا ماسک IRM تخمین¬ زده می¬شود. سپس، در بخش تقویت، یک اندازه جدید از جذر میانگین مجذور کوتاه¬مدت (ST-RMS) سطح گفتار و نیز آدیوگرام فرد برای محاسبه یک بهره الحاقی (IG) دوبُعدی جدید مبتنی بر فرمول تقویت فشرده¬سازی متعارف با نام FIG6 به¬کار می-رود. در ادامه، بهره جداسازی-تقویت (SAG) پیشنهادی با استفاده از بهره الحاقی محاسبهشده (IGFIG6) و ماسک نسبتی تخمینزدهشده (ERM) بهدست میآید. در مرحله آخر، SAG به کاکلی¬گرام سیگنال مخلوط اعمال میشود و سیگنال جداشده و تقویتشده ساخته میشود. دو آزمایش برای ارزیابی کارایی بخش¬های جداسازی و تقویت سیستم پیشنهادی دوم به اجرا در ¬می¬آید. در آزمایش اول، عملکرد جداسازی ماسک پیشنهادی و چندین ماسک زمانی-فرکانسی مدرن مورد ارزیابی و مقایسه قرار می¬گیرد. در آزمایش دوم، عملکرد سیستم جداسازی-تقویت-سنتز (SAS) پیشنهادی، با عملکرد سیستم پایه جداسازی-سنتز-تقویت (SSA) مقایسه می¬شود. SSA متشکل از سیستم پیشنهادی اول و سیستم تقویت فشرده¬سازی متعارف مبتنی بر فرمول FIG6 است. ارزیابیهای اصولی عینی در شرایط محیطی نویزی-پژواکی مختلف با استفاده از هفت آدیوگرام استاندارد شنوایی ضعیف و یک آدیوگرام طبیعی نشان میدهند که اولاً ماسک پیشنهادی زمانی-فرکانسی در مقایسه با ماسک¬های پایه در افزایش قابلیت فهم و کیفیت گفتار برای شنوندگان با شنوایی طبیعی و ضعیف موفق¬تر عمل میکند. به-علاوه، نتایج آزمایش دوم برتری عملکرد سیستم پیشنهادی SAS را نسبت به سیستم SSA تأیید می¬کند
Human listeners have remarkable capability to understand speech in everyday listening environments. However, background noise and room reverberation make this task challenging. The situation becomes extremely difficult, if there is an impairment in the auditory periphery. In this dissertation, first, a robust binaural speech separation system based on deep neural network (DNN) for normal-hearing (NH) listeners in adverse conditions is proposed. Then, a unified separation and amplification system with the aim of speech enhancement for hearing-impaired (HI) listeners is introduced. Indeed, the second proposed system can be regarded as the extension of the first proposed system to be applicable to hearing-aid devices.The first proposed system has three main processing stages. In the spectral processing stage, the multi-resolution cochleagram (MRCG) feature is extracted from the beamformed signal. In the spatial processing stage, the novel feature of “smITD+smILD” is obtained by soft missing-data masking (sMDM) of interaural time difference (ITD) and interaural level difference (ILD). In the final stage, DNN takes the combined spectral and spatial features and estimates a new ideal ratio mask (IRM) designed to separate speech from noise and reverberation. The performance of the proposed system is evaluated and compared with two recent binaural speech separation systems as baselines in various noisy and reverberant conditions. Furthermore, the performance of each processing stage is explored and compared to those of state-of-the-art approaches. In the experiments, a diffuse multitalker babble interferer at four signal-to-noise ratios (SNRs) and simulated rooms with four matched and four unmatched reverberation times (RTs) are considered. It is shown that the first proposed system outperforms the baseline systems in improving the intelligibility and quality of separated speech signals in reverberant and noisy conditions. Also, the results of additional experiments confirm the efficiency of each system component, especially in highly reverberant scenarios. In the second part of this dissertation, a novel unified algorithm for deep learning-based binaural speech separation and two-dimensional (2D) amplification for the HI listeners is introduced. In the training phase of the second proposed system, first, MRCG, ITD, and ILD features are extracted from the peripheral analysis of the mixture signals. Then, a DNN is trained using the concatenated features to estimate a direct sound-driven IRM. In the testing phase, first IRM is estimated. Then, in the amplification part, a novel short-term root-mean-square (ST-RMS) measure of speech level and the audiogram of the subject are used to calculate a 2D insertion gain (IG) based on the well-known FIG6 compression amplification strategy. Subsequently, the estimated IRM (ERM) and the computed IG (IGFIG6) are utilized to calculate the 2D separation-amplification gain (SAG). Finally, the separated and amplified speech signal is synthesized after applying SAG to the mixture cochleagram. Two experiments are conducted to assess the efficiency of the separation and amplification parts of the second proposed system. In the first experiment, the performance of the proposed time-frequency (T-F) mask is evaluated and compared with those of several state-of-the-art T-F masks. In the second experiment, the proposed separation-amplification-synthesis (SAS) system is compared with a baseline, called separation-synthesis-amplification (SSA) system. SSA is composed of the first proposed system and the conventional FIG6-based amplification system. Systematic objective assessments using seven standard HI audiograms and one NH audiogram in different noisy-reverberant conditions with different RMS speech levels show that the proposed T-F mask outperforms the baseline masks in terms of the speech intelligibility and quality gains for the NH and HI listeners. Furthermore, the results of the second experiment confirms the superiority of the proposed SAS system as compared with SSA
Binaural Speech Enhancement in Adverse Conditions for Normal Hearing and Hearing-Impaired Listeners Based on Deep Neural Networks