بررسی الگوریتمهای نرمالیزاسیون در توسعه نقشههای برجسته شنوایی
سید حامد اکبری
مهندسي برق و کامپيوتر
۱۳۹۹
۱۰۳ص.
سی دی
کارشناسی ارشد
مهندسی پزشکی گرایش بیوالکتریک
۱۳۹۹/۱۱/۲۷
چکیده: در این پایاننامه، هدف سعی در شناسایی صداهایی است که توجه شنونده را به خود جلب میکند به دلیل بالا بودن حجم اطلاعات و پایین بودن توانایی مغز در پردازش همه آنها در آن واحد، شناسایی خودکار صداهای برجسته سبب مدیریت منابع پردازشی می¬گردد به نحویکه به اطلاعات وارد شده به مغز اولویت و درجه اهمیت متفاوتی داده می¬شود. به منظور شناسایی این صداها، که ما آنها را برجسته می¬نامیم، الگوریتمی طراحی شده که از درک ما از سیستم شنوایی انسان و ادراک شنیداری الهام گرفته شده است. امید است با شناسایی صداهای برجسته توسط شبیه¬سازی¬های کامپیوتری، درک بهتری از پردازش شنوایی و ویژگیهای اصلی کمک کننده به برجستگی به دست آید و قدمی مفید در جهت نزدیک¬تر شدن عملکرد ماشین به انسان برداشته شود. در این پایان¬نامه، به بررسی مفاهیم پایه شنوایی و توجه، تاریخچه کارهای ارائه شده در حوزه نقشه برجستگی شنوایی و پیشینه آن در حوزه بینایی پرداخته می¬شود. در مدل پیشنهادی، ابتدا، از صوت ورودی استخراج ویژگی صورت میگیرد.در این مرحله، ویژگیهایی نظیر گام صدا، انرژی زمان کوتاه، پهنای باند، و نرخ فرکانس محاسبه میشوند. سپس، فرآیندی بنام مرکز-محیط بر همه ویژگیها اعمال میگردد که در آن ویژگیها به مقیاسهای متفاوت تقسیم می¬شوند. پس از این مرحله، عمل نرمالیزاسیون روی ویژگیهای دوبعدی به روش میانگین متحرک دومرحلهای اعمال می¬شود. ویژگیهای تک¬بُعدی بین 0 و 1 نرمالیزه شده و حاصل آنها به مقیاسهای یکسان برده میشوند. سپس، با استفاده از ترکیب بین مقیاسی، هر ویژگی به یک نقشه مشخصه تبدیل میگردد. در مرحله بعد، با جمع زدن بُعد دوم ویژگیهای دو بعدی، آنها به یک بعد برده می¬شوند. در نهایت، با جمع همه نقشههای برجستگی یک¬بعدی بهدستآمده از هر ویژگی، یک نقشه برجستگی یک بعدی نهایی محاسبه می¬گردد که نشاندهنده اتفاق برجسته زمانی در سیگنال صوتی است. در این پایان¬نامه، علاوه بر استفاده از روش میانگین متحرک ، روش¬های دیگری در حوزه پردازش تصویر، همانند روش¬های آشکارسازی لبه Sobel، Canny و ...، و روش¬ تفکیک بافت تصویر با استفاده فیلتر Gabor برای نرمالیزاسیون نقشه-های دوبُعدی به کار گرفته شده¬اند، اما جواب بهینه¬ای نسبت به مدل پایه در یافتن نقاط برجسته، از این مدل¬ها بدست نمی¬آید. در آزمون مدل پیشنهاد شده از دو مجموعه داده، شامل اصوات ساده و پیچیده استفاده شده و نتایج برجستگی محاسبه¬شده هرکدام از این اصوات با نتایج مدل مبنای مناسبی مورد مقایسه قرار گرفته است.لازم به ذکر است هرچند که موضوع این پایان¬نامه درباره نرمالیزاسیون نقشه¬های دوبعدی است، اما هدف نهایی بهبود نقشه برجستگی شنوایی محاسبه¬شده و هرچه نزدیک¬تر شدن نتایج الگوریتم، به عملکرد انسان است. لذا، در این پایان¬نامه علاوه بر روش نرمالیزاسیون ارائه شده، پیشنهاد شده است که به جای پوش شکل موج از ویژگی انرژی زمان کوتاه استفاده گردد، که احتمالاً به بهبود محاسبه نقشه برجستگی زمانی شنوایی بدست آمده کمک شایانی خواهد کرد.
Abstract: In this dissertation, the aim is to try to identify sounds that attract the listener's attention to themselves. Due to the high volume of information and the low ability of the brain in processing them at the same time, automatic identification of salient sounds leads to the management of processing resources in such a way that the information entered into the brain is given different priorities and degree of importance.To identify these sounds which we call salient, an algorithm has been designed that is inspired by our understanding of the human auditory system and auditory perception. It is hoped that by identifying salient sounds by computer simulations, a better understanding of auditory processing and the main features contributing to saliency is achieved, and a useful step is taken to bring machine performance closer to that of humans. This thesis examines the basic concepts of hearing and attention, the history of work presented in the field of the auditory saliency map, and the its background in visual domain. In the proposed model, first, feature extraction is applied to the input sound. Here, features such as pitch, short-time energy, bandwidth, and frequency rate are computed. Then, a process called center-surround is applied to all features in which the features are divided into different scales. After this step, the normalization operation is performed on the two-dimensional features using the two-step moving average method. One-dimensional features are normalized between 0 and 1 and their results are taken to the same scale. Then, using the across-scale combination, each feature is transformed into a conspicuity map. Then, by adding the second dimension of the two-dimensional features, they are transformed to one dimension. Finally, by adding all the one-dimensional saliency maps obtained from each feature, a final one-dimensional saliency map is calculated that shows the temporal salient event in the audio signal. In this thesis, in addition to the moving average method, other methods in the field of image processing such as edge detection methods of Sobel, Canny, etc., and the method of image texture separation with the Gabor filter, have been used in normalizing two-dimensional maps, but an optimal answer compared to the baseline model in finding the saliency is not obtained.In the evaluation of the proposed model, two data sets, including simple and complex sounds are used, and the results of computed saliency for each of these sounds are compared with those of a suitable baseline model. It should be noted that although this thesis concerns the normalization of two-dimensional maps, the final goal is to improve the calculated auditory saliency map and bring results of the algorithm closer to human performance. Therefore, in this thesis, in addition to the proposed normalization method, it is suggested to use the feature of short-time energy instead of waveform envelope, which will probably help to improve the computed auditory temporal saliency map.
Exploring Normalization Algorithms in Developing Auditory Saliency Maps