حذف پژواک از سیگنال گفتار مبتنی بر تخمین پاسخ ضربه مرتبط با سر و مدلهای شنوایی
Dereverberation of Speech Signal Based on Estimating the Head-Related Transfer Function (HRTF) and Auditory Models
/ثمین طاهری
: پردیس دانشگاه تبریز
، ۱۳۹۶
، افشار
۱۱۲ص
چاپی - الکترونیکی
ارشد
مهندسی پزشکی گرایش بیو الکتریک
۱۳۹۶/۱۱/۲۴
تبریز
در طول چند دهه اخیر با پیشرفت روشهای پردازش گفتار و پیشرفت سیگنالهای صوتی، حذف اثرات نامطلوب و مخرب محیطی یک امر ضروری به نظر میرسد .همانطور که میدانیم سیگنال گفتار از بدو ایجاد دستخوش عوامل مختلف محیطی از جمله نویز، اعوجاج، انعکاس و تداخل است .منظور از بهبود سیگنال گفتار، تلاش برای بالا بردن کیفیت و قابلیت فهم سیگنال و در پی آن بهبود عملکرد سیستم بهبود گفتار، در شرایطی که تحت تأثیر عوامل تخریبی قرار داشته باشد، میباشد .در محیطهای واقعی صدایی که به گوش شنونده میرسد، شامل صدای مستقیم از منبع، بازتاب اولیه و ثانویه میباشد .بازتاب اولیه، معمولا ۱۰۰-۵۰ میلیثانیه بعد از صدای مستقیم به گوش شنونده میرسد که با صدای مستقیم دریافتی ترکیب شده و قابلیت فهم گفتار را افزایش میدهد .بازتاب ثانویه، شامل چندین انعکاس متوالی است که شدت آن رفتهرفته کاهش مییابد و با تأخیر خیلی بیشتری نسبت به صدای مستقیم به گوش شنونده میرسد .بازتاب ثانویه نمیتواند با صدای مستقیم به صورت یک واحد یکپارچه ادغام شود .این بازتاب بهصورت انعکاسهای جدا از هم و یا پژواک درک میشود .پژواک میتواند باعث کاهش بازدهی در شناسایی خودکار گفتار و سیستم شناسایی گوینده گردد .پژواک همچنین، تغییراتی مهم در کیفیت گفتار ایجاد میکند .پژواک همچنین، باعث ایجاد پیچیدگی و تداخل در صداهای مستقیم و پاسخ ضربه محیط میشود که طیف گفتار را در حوزه زمان و فرکانس تخریب میکند .هدف ما در این پایاننامه، بهبود قابلیت فهم گفتار توسط حذف پژواک ازسیگنال دریافتی آلوده میباشد .روش کار در این پایانصنامه شامل دو مرحله است در مرحله اول از دادگان Nagoya برای تخمین پاسخ ضربهصهای مرتبط با سر در دو زمان پژواک متفاوت توسط روش APCA استفادهص کرده-ایم .بدین منظور با استفاده از سیگنالصهای رسیده به گوشصهای چپ و راست پاسخ ضربهصهای گوش چپ و راست را تخمین میصزنیم .با اعمال تبدیل فوریه دو بعدی به پاسخ ضربهصهای تخمینی، آنصها را به حوزه فرکانس میصبریم .در مرحله دوم، تفاوت طیفی دو تابع تبدیل مرتبط با سر را که در زمان پژواکصهای متفاوتی تخمین زده شدهصاند، برای گوش چپ و راست بر اساس معیار SD محاسبه می-کنیم SD .معیاری برای مشخص کردن نواحی پژواکصدار است .بر اساس این معیار ماسکی را برای گوش چپ و راست طراحی میصکنیم .این ماسک طراحی شده را به حوزه زمان میصبریم و با پاسخ ضربهصهای تخمینی کانوالو میصکنیم .در نهایت، پاسخ ضربهصهای حذف پژواکصشده را به دست می-آوریم .برای اینکه بتوانیم اثرات پاسخ ضربه حذفصپژواک شده را روی سیگنال گفتار بررسی کنیم، این پاسخ ضربهصهای تخمینی پژواکصدار و بهبود دادهصشده را با ۳۰۰ جمله از جملات IEEE کانوال میصکنیم .برای ارزیابی سیگنالصهای حذف پژواکصشده از معیارهایLSD ، SRR و PSD استفاده می-کنیم .میانگین مقادیر بهصدست آمده برای هر یک از معیارصهای SRR و LSD را برای ۳۰۰ سیگنال صوتی محاسبه میصکنیم .در نهایت، با مقایسه روش مطرحصشده و روش فیلتر دوصبعدی نتیجه می-گیریم که روش مطرحصشده برای حذف پژواک عملکرد بهتری دارد
In recent decades by improvement of audio signals and speech processing techniques, suppressing destructive and undesirable environmental effects seems to be essential. As we know, speech signal varies by different environmental factors such as noise, distortion, reflection and interference. Improving speech signal includes efforts of increasing the quality and intelligibility of the signal and also improving the performance of enhancement speech system, under destructive factors. In real surroundings, the sound heard by the listener includes direct wave, the early reflection and late reflection. The direct sound of the source comes directly from the source to the listener's ears and the walls and ceiling of room does not affect it. The early reflection usually recivied 50-100 milliseconds after direct sound to the listener's ear and improve the speech intelligibility by combining with direct sound.The late reflection consists of several consecutive reflections, the severity of which decreases a little, and arrives a much longer delay than the direct sound the listener's ear. The late reflection can not be merged into a single unit with direct sound. This reflection is perceived as a reflection of separation or the reverberation. Reverberation and late reflection destroy human speech and have a negative effect on speech comprehension, especially for hearing impaired people. Consequently, reverberation can reduce the efficiency of speech recognition and the speaker recognition system. Reverberation can also make important changes in speech quality. Generally speech recognition system for people with normal hearing is not a problem for as long as the reverberation time does not last longer than 1 second, but it is problematic for those who have a sensory and neural hearing impairment if the echo is greater than 0.5 s. Signal processing methods are used to reduce reverberation and increase speech recognition efficiency. Reverberation can also cause complexity and interference in direct sounds and head related impulse response and that destroy the speech spectrum in the time and frequency domain. Contrary to reverberation, noise is collapsing and affects speech in different ways. Removing echoes is difficult due to its non-linearity and solidarity with speech. Our goal in this thesis is to improve the speech intelligibility by eliminating echoes from the reverberated signal.In this thesis, a dereverberation system has been developed which is applied on the estimated head related impulse response. The proposed system consists of two modules.In the first module, HRIR is estimated with APCA method.by Using the signals reached to the left and right ears, we estimate the left and right HRIR. By applying a two-dimensional Fourier transform to the HRIR we calculate them into the frequency domain. Then, we calculate the spectral difference for the left and right ears according to the SD criterion for two Estimated HRTFs.SD is a standard for specifying areas of reverberation. In the second module, the mask is designed to dereverberate the estimated head related impulse response. Based on this SD criterion, we design a mask for the left and right ears. We take this designed mask to the time zone and convolution them with Estimated HRIR. Finally, we get the derevereberated HRIR. In order to investigate the effects of dereverberated HRIR on the speech signal, we convolution the estimated and dereverberated HRIR with 300 sentences from the IEEE sentences. We use the LSD, SRR, and PSD criteria to evaluate the performance of derevereberated signals. We compute the average of the values obtained for each SRR and LSD for 300 audio signals. Finally, by comparing the proposed method and the two-dimensional filter method, we conclude that the proposed method is better for eliminating reverberation
Dereverberation of Speech Signal Based on Estimating the Head-Related Transfer Function (HRTF) and Auditory Models