بازشناسی مقاوم و مستقل از متن گوینده مبتنی بر مدل های ادراک شنوایی
سینا قلمی اسگوئی
مهندسی برق و کامپیوتر
۱۴۰۰
۱۳۲ص.
سی دی
دکتری
مخابرات سیستم
۱۴۰۰/۰۶/۳۱
چکیده: سیگنال گفتار حاوی اطلاعات مختلفی است، که از آن جمله می¬توان به اطلاعات زبانی و هویت گوینده اشاره کرد. برای استخراج هر یک از این اطلاعات، در حال حاضر تحقیقات زیادی بر روی سیستم¬های بازشناسی صورت می¬گیرد. در سیستم¬های بازشناسی گوینده، هدف اصلی اطلاعات مربوط به هویت گوینده است. سیستم بازشناسی گوینده در حالت کلی می¬تواند یک طبقه¬بند الگو تلقی شود که دارای سه بخش استخراج ویژگی، ایجاد مدل و تصمیم¬گیری است. با این¬حال، در حالت کاربردهای عملی، عواملی وجود دارند که بر روی استخراج و طبقه¬بندی اطلاعات هویتی گوینده برگرفته از سیگنال گفتار اثر نامطلوب می¬گذارند. از این عوامل میتوان به شرایط محیطی مانند نویز و پژواک اشاره کرد. هر یک از این شرایط محیطی باعث می¬شود که یک نوع عدم تطابق بین داده¬های آموزشی و داده¬های آزمون بوجود آید که باعث کاهش کارآیی سیستم بازشناسی می¬شود. به¬همین جهت، استفاده از ویژگی و مدلی که در مقابل عوامل مخرب محیط¬های مورد¬استفاده مقاومت نشان دهد، دارای اهمیت است. یکی از سیستم¬های بازشناسی گوینده که نسبت به عوامل محیطی مقاوم عمل می¬کند، سیستم شنوایی انسان است. هدف اصلی این رساله، محاسباتی¬ کردن ادراک شنوایی برای بازشناسی گوینده است. مدل شنوایی می¬تواند در همه¬ی قسمت¬های اصلی (استخراج ویژگی، مدل و تطبیق الگو) بازشناسی گوینده مورد استفاده قرار بگیرد. در قسمت استخراج ویژگی، استفاده از نمایش ادراکی شنوایی برای به¬دست¬آوردن ویژگی¬های مقاوم مدنظر است. لذا، استفاده از روش¬¬های بهبود گفتار قبل از استخراج ویژگی در اینجا مورد توجه است. در قسمت مدل و تطبیق الگو، برای مقاوم¬کردن عملکرد بازشناسی، می¬توان از مدل برگرفته از شکار زمان- فرکانس، به¬عبارتی، روش داده¬های گم¬شده، استفاده نمود. در همین راستا، مدل¬های تفکیک عوامل، مانند سیستم¬های بازشناسی داده¬های گم ¬شده مبتنی بر i-vector و ماسک¬های جدید در حوزه شنوایی پیشنهاد می¬شود. با توجه به این¬که تشخیص دادههای قابلاعتماد در روش دادههای گم شده اهمیت دارد، پیشنهاد یک ماسک مناسب که بتواند قسمتهای قابلاعتماد را شناسایی کند، مهم است. هم¬چنین، از دیگر مزیت¬هایی که سیستم شنوایی عملکرد بازشناسی را بهبود می¬دهد، استفاده از دو ¬گوش و در نتیجه، پردازش شنوایی دوگوشی است. در این رساله، چهار مدل پیشنهادی، اعم از یک مدل تک¬گوشی و سه مدل دو¬گوشی، پیشنهاد شده است. در روش اول، یک سیستم تصدیق گوینده¬ی تک¬گوشی پیشنهاد می¬شود که از ساختار داده¬های گم¬شده و ماسک¬های جدید در حوزه مدولاسیون زمان-فرکانس استفاده می¬کند. در این مدل، سه روش تخمین ماسک تک¬گوشی ارائه می¬شوند که در مقایسه با روش پایه عملکرد بهتری دارند. به¬عنوان روش پیشنهادی دوم، برای کاهش عدم انطباق ناشی از شرایط محیطی، سیستم تشخیص گوینده¬ای پیشنهاد می¬شود که با استفاده از ماسک¬های دوگوشی کیفیت سیگنال گفتار هدف را قبل از عمل تشخیص بهبود بخشد. بدین منظور، ماسک¬های مختلف نسبتی دوگوشی بکارگرفته می¬شوند که شامل ماسک جدید MEICM و روش بروز مبتنی بر طبقه¬بند شبکه عصبی یادگیری عمیق است. مقایسه نتایج نشان می¬دهد که به عنوان روش پیشنهادی، بکار گیری مدل بروز تخمین ماسک مبتنی بر شبکه عصبی یادگیری عمیق عملکرد تشخیص گوینده را در شرایط محیطی مختلف بهبود می¬دهد. هم¬چنین، ماسک جدید MEICM، عملکرد بهتری را نسبت به ماسک پایه MESSL دارد. در روش پیشنهادی سوم، اثر سیستم تصدیق گوینده دو¬گوشی با یک ساختار بهبود گفتار مورد بررسی قرار می¬گیرد. در این بررسی مشخیص می¬شود که عملکرد سیستم بازشناسی گوینده مبتنی بر بهبود گفتار با استفاده از تخمین ماسک مبتنی بر طبقه¬بند شبکه¬ی عصبی یادگیری عمیق، با تغییر موقعیت گوینده هدف، کاهش می یابد. لذا، یک ماسک گوش بهتر پیشنهاد می¬شود که با تغییر موقعیت گوینده هدف، عملکرد تصدیق گوینده کاهش پیدا نکند. نتایج ارزیابی نشان¬دهنده¬ی عملکرد بهینه سیستم تصدیق گوینده با استفاده از ماسک گوش بهتر است. به عنوان مدل آخر، یک سیستم تشخیص گوینده مقاوم پیشنهاد می¬شود که از مدل برابرسازی-حذف و انتخاب گوش بهتر برای بهبود سیگنال گفتار قبل از عمل تشخیص گوینده، استفاده می¬کند. استفاده از این مدل عملکرد تشخیص گوینده را در شرایط محیطی مختلف بهبود می-دهد و منجر به تشخیص گوینده مقاوم می¬گردد.
Speech signals convey a variety of information, including linguistic information and the identity of the speaker. To extract any of this information, a great deal of research is currently being done on recognition systems. In speaker recognition systems, the main aim is to identify or verify the identity of the unknown speaker from the s. The speaker recognition system in general can be a considered as pattern classification that has three parts: feature extraction, modeling, and decision making. However, in the case of practical applications, there are factors that adversely affect the identification and classification of the speaker's identity information derived from the speech signal. These factors include environmental conditions such as noises and reverberation. Each of these environmental conditions generates a kind of mismatch between the training data and the test data, which reduces the efficiency of the speaker recognition system. Therefore, it is important to use a feature and a model that can deal with the destructive factors of the environmental condition. One of the speaker recognition systems that is robust to environmental conditions is the human hearing system. The main purpose of this dissertation is to utilize auditory perception for identifying or verifying an unknown speaker. The auditory model can be used in all main parts of the speaker recognition system (i.e., feature extraction, model and pattern matching). In feature extraction, the use of auditory perceptual representation is intended to obtain robust features. Therefore, the use of speech enhancement methods before feature extraction is considered here. In the model and pattern matching phase, to improve the recognition performance, the model derived from time-frequency glimpsing, in other words, the missing data method, can be used. In this regard, factor analysis models, such as i-vector-based missing data recognition systems and new masks in the auditory field, are proposed. Since the precision of the reliability mask is important in the missing data method, it is important to use a suitable mask that can identify reliable parts. Also, another advantage that the auditory system improves the recognition function is the use of binaural models and, consequently, binaural processing approaches. In this dissertation, four proposed models, including a monaural model and three binaural models, are proposed. In the first method, a monaural speaker verification system is proposed that uses the structure of missing data with new masks in spectro-temporal modulation domain. In this model, three methods of estimating the monaural mask are proposed, which have better performances as compared to a baseline method. As a second proposed method, to reduce the mismatches caused by environmental conditions, a speaker identification system is proposed that improves the quality of the target speech signal before the identification operation by using auditory masks. For this purpose, various binaural ratio masks are used, which include a new MEICM mask and a mask estimation method described in literature based on the classification using deep neural network. Comparison of the results shows that, using the deep neural network mask estimation model improves the speaker recognition performance in different environmental conditions. The new MEICM mask also performs better than the baseline MESSL mask. As a third proposed method, the behavior of the binaural speaker verification system with a speech enhancement structure is examined as preprocessing by changing the speaker spatial position. In this structure, an enhancement method based on an estimation of mask using two independent deep neural networks classifiers for left and right ears and better ear selection mechanism is proposed. Therefore, here, the better-ear mask does not reduce the speaker verification performance when as the position of the target speaker is changed. The evaluation results show the efficient performance of the speaker verification system using the proposed better-ear mask. As a final model, a robust speaker identification system is proposed, which uses an equalization-cancelation and better-ear selection model to enhance speech signal before speaker recognition task. Using this model improves speaker identification performance in different environmental conditions.
Robust and Text-independent Speaker Recognition Based on Auditory Perception Models