تبریز، دانشگاه تبریز ،دانشکده مهندسی برق و کامپیوتر ، گروه مخابرات
۱۰۰ص
چاپی
فاقد اطلاعات کامل
کارشناسی ارشد
مهندسی برق - مخابرات - سیستم
۱۳۸۶/۱۲/۲۵
تبریز، دانشگاه تبریز ،دانشکده مهندسی برق و کامپیوتر ، گروه مخابرات
در این پایاننامه برای بهبود کیفیت سیستمهای تبدیل صدا، از ضرایب کپسترال فاکتورانسانی،Human factor cepstral coefficient(HFCC) ، استفاده شده است .الگوریتم های موجود در تبدیل صدا شامل دو مرحله مشترک هستند :مرحله آموزش و مرحله تبدیل .در مرحله آموزش سیستم تبدیل صدا، اطلاعات را از صداهای هر دو گوینده مبدا و مقصد جمع آوری کرده و به طورخودکار قوانین تبدیل صدا را فرمول بندی میصکند .مرحله تبدیل، قوانین تبدیل را به کار میصگیرد تا صدای گوینده مبدا را تا حد امکان با صدای مقصد تطبیق دهد .مرحله آموزش در حالت کلی شامل سه مرحله است :مدل سازی گفتار، یکسان سازی، نگاشت صوتی در مرحله مدلسازی صوتی، پارامترهای ویژهای از شکل موج گوینده گفتار استخراج میصگردد .این پارامترها، مشخصات بلندمدت و کوتاه مدت مریوط به صداهای مبدا و مقصد را بیان میصکند .مرحله دوم، یکسان سازی، لازم است تا تناظر مابین تکه صداهای مبدا و مقصد را ایجاد نماید .به خاطر این واقعیت که مدت ادا) برای مثال واج ها (در افراد مختلف، متفاوت است .مرحله نهایی آموزش ، تخمین تابع نگاشت صوتی ما بین فضاهای صوتی مبدا و مقصد با استفاده از تکنیکهای یادگیری ماشین میباشد .مرحله تبدیل، تکنیکهای آنالیز صوتی مشابه با مرحله مدل سازی صوتی در آموزش را به کار میگیرد .برای یکبار پارامترهای شکل موج ورودی مشخص می شود، قوانین تبدیل صدا به کار گرفته شده تا پارامترهای متناظر مقصد را به دست آورد .تغییرات لازم روی شکل موج ورودی صورت می گیرد تا مشخصات گوینده مقصد را مطابقت دهد .در این کار، یک طرح تازه برای گسترش سیستمهای تبدیل صدا پیشنهاد و شبیه سازی شده است .ما از فاکتور HFCC برای بیان مشخصات مجرای صوتی استفاده میصکنیم که خاصیت دستهبندی مجازی اصوات را دارد و برای اولین بار در سیستم تبدیل صدا پیشنهاد میشود
The goal of a voice conversion system is to transform the speech spoken by a source speaker, such that a listener would perceive this speech as uttered by a target speaker. Voice conversion offer applications in a lot of fields, going from Text-to-Speech adaptation (be able to read the mail with the sender's voice) to low bandwidth speech encoding (add the speaker identity information at the decoding stage), security applications, media entertainment (dubbing movie and karaoke), medical applications (reconstruct the voice of a person who get injured using past recording of his/her voice) and even in the field of voice disguise. One challenge in the field of voice conversion is the cross-languages voice conversion, this will allow people speaking different languages to communicate easier, in this case we will need to distinguish the speech uttered by the speaker (write down what it was said automatically) , translate it and synthesize it using the before extracted characteristics of the speaker itself New improvement scheme for voice conversion are proposed in this paper. We take Human factor cepstral coefficients (HFCC), a modification of MFCC that uses the known relationship between center frequency and critical bandwidth from human psychoacoustics to decouple filter bandwidth from filter spacing, as the basic feature. We propose U/V (Unvoiced/Voiced) decision rule such that two sets of codebooks are used to capture the difference between unvoiced and voiced segments of the source speaker. Moreover, we apply three schemes to refine the synthesized voice, including pitch refinement, energy equalization, and frame concatenation. The acceptable performance of the voice conversion system can be verified through ABX listening test and MOS grad