جداسازی دو گوشی سیگنال بر اساس مدل سازی پارامترهای درون گوشی
/بابک بهادرنیا
: دانشکده مهندسی برق و کامپیوتر
۱۵۱ص
چاپی
کارشناسی ارشد
در رشته مهندسی برق گرایش مخابرات سیستم
۱۳۹۲/۰۶/۲۵
دانشگاه تبریز
بهنگام شنوایی در محیطصهای دارای نویز و پژواک، شنوندگان انسانی قادر هستند بر روی یک صدای خاص مورد نظر، بدون توجه به دیگر اصوات اخلال، تمرکز داشته باشند .اما کامپیوتر، بعنوان یک شنونده ماشینی، میصتواند این وظیفه را تنها به شکل بسیار محدود آن انجام دهد .در حالیکه سیستمصهای بازشناسی خودکار گفتار و ادوات کمکصشنوایی در شرایط آرام بخوبی کار می-کنند، جداسازی منابع در مورد آنها امری ضروری است تا بتوانند در شرایط پیچیده نویزی و باپژواک نیز عملکرد مناسبی داشته باشند .در این پایانصنامه، روشصهای جدیدی جهت بهبود عملکرد یک سیستم پایه دوگوشی جداسازی منبع، بنام سیستم جداسازی و مکانصیابی مبتنی بر مدل با استفاده از حداکثرسازی صامید ریاضی(EM) ، موسوم بهMESSL، ارائه شده است .در سیستمMESSL ، ابتدا، پارامترهای اختلاف فاز درونصگوشی (IPD) و اختلاف سطح درونصگوشی (ILD) بصورت مدلهای مخلوط گوسی (GMMs) برای هر منبع مدل می-شوند .سپس، با ارزیابی مدل در هر نقطه زمان- فرکانسF)- (T، واحدهای با احتمالات بالا به منبع مورد نظر اختصاص داده می-شوند .به منظور بهبود عملکرد جداسازی، دو روش برای شرایط بدون پژواک و باپژواک پیشنهاد میصشوند .در شرایط بدون پژواک، روش حذف نویز موجک و بدنبال آن روش بهبود گفتار حداقل میانگین مربعات خطا (MMSE) بعنوان یک پسصپردازش دو مرحلهصای برای روش MESSL پیشنهاد میصشود .روش پیشنهادی دوم مرتبط با شرایط باپژواک است .در اینجا، ابتدا، یک ماسک انسجام درونصگوشی (IC mask) تخمین زده شده و به سیگنال مخلوط جهت کاهش اثرات پژواک اعمال میصشود .سپس، یک فرآیند هموارسازی خودکار بکار گرفته میصشود که عمل صافصکردن سریع دادهصهای ILD را با استفاده از تبدیل کسینوسی گسسته (DCT) انجام میصدهد .این مرحله از پردازش برای کاستن اثرات ناخواسته و مصنوعی که ممکن است در جریان اعمال ماسکص IC رخ دهد، ضروری است .انجام شبیهصسازیصهای مختلف نشان میصدهد که روشصهای پیشنهادی، در مقایسه با روش پایهMESSL ، عملکرد بالاتری را در چارچوب سیستمصهای جداسازی مبنع مبتنی بر مدل دارا میصباشند
based source separation systems -processing stage for the MESSL method. The second proposed method concerns the reverberant conditions. Here, first, an Interaural Coherence (IC) mask is estimated and applied to the mixture signal to reduce reverberation effects. Then, an automated smoothing procedure is employed which allows fast smoothing of ILD data by means of the Discrete Cosine Transform (DCT). This processing step is necessary to reduce unwanted effects and artefacts which may occur during IC masking stage. Conducting different experimental simulations shows the superior performance of the proposed methods as compared with the baseline method of MESSL in the context of model-step post-Square Error (MMSE) speech enhancement method is proposed as a two-F) point, the units with high probabilities are assigned to the source. Two methods are proposed for anechoic and reverberant conditions to improve separation performance. In the anechoic conditions, the wavelet denoising technique followed by the Minimum Mean-Frequency (T-Maximization Source Separation and Localization (MESSL). In the MESSL, first, the parameters of Interaural Phase Difference (IPD) and Interaural Level Difference (ILD) are modeled as Gaussian Mixture Models (GMMs) for each source. Then, by evaluating the model at each Time-Based Expectation-When listening in noisy and reverberant environments, human listeners are able to focus on a particular sound of interest while ignoring interfering sounds. Computer listeners, however, can only perform highly constrained versions of this task. While automatic speech recognition systems and hearing aids work well in quiet conditions, source separation is necessary for them to be able to function in these challenging situations. This thesis proposes new methods to enhance the performance of a binaural baseline source separation system, known as Model