تکنیکی براي تشخیص اشیاء داخلی ساختمان با ترکیب شبکههاي یادگیري عمیق مبتنی بر شبکه CNN
سجاد رضائی
برق و کامپیوتر
۱۴۰۱
۸۷ص.
سی دی
کارشناسی ارشد
مهندسی کامپیوتر گرایش نرمافزار
۱۴۰۱/۱۰/۲۷
تقسیمبندی معنایی تصویر یک تکنیک تقسیمبندی تصویر بسیار محبوب است که در آن هر پیکسل در تصویر با یک کلاس شیء برچسبگذاری میشود. این تکنیک امروزه به بخشی حیاتی از تجزیه و تحلیل تصویر تبدیل شده است زیرا توصیف، طبقهبندی و تجسم مناطق مورد علاقه در یک تصویر را تسهیل میکند. پیشرفتهای اخیر در الگوریتمهای بینایی کامپیوتر و افزایش دسترسی به مجموعهدادههای بزرگ، تقسیمبندی معنایی تصاویر را در زمینه بینایی کامپیوتر بسیار محبوب کرده است. با ایده گرفتن از سیستم بینایی انسان که میتواند اشیاء را در یک صحنه پیچیده بهطور بسیار کارآمد شناسایی کند، محققان علاقهمند به ساخت مدلی هستند که بتواند به صورت معنایی تصویر را به کلاس های اشیاء معنادار تقسیم کند. این متد استفادهی زیادی در زمینههای مختلف هوش مصنوعی از جمله واقعیت افزوده، واقعیت مجازی، رانندگی خودکار و پردازشهای ویدیوئی دارد. در سالهای اخیر، موفقیتهای زیادی در استفاده از شبکههای عصبی پیچشی عمیق (DCNN) در تقسیمبندی معنایی تصویر (که « طبقهبندی سطح پیکسل» نیز نامیده میشود) بهدست آمده است. یکی از زمینههایی که تقسیمبندی معنایی به کمک انسآنها آمده است، در صنعت معماری و دکوراسیون منازل و مکآنهای عمومی است که با تشخیص اشیاء محیط داخلی این قابلیت را به ما میدهد که روی آنها تغییراتی ایجاد کنیم، به عنوان مثال تغییر پارکت یا کاغذ دیواری. در این پایاننامه، ما تمرکز خود را بر روی پیشبینی و تقسیمبندی اجزای داخلی ساختمان قرار دادهایم و با استفاده از تقسیمبندی معنایی قسمتهای مربوط به کف و دیوار را از تصاویر اصلی تشخیص خواهیم داد. ما با بهرهگیری از آخرین پیشرفتها در حوزه شبکههای یادگیری عمیق و با ترکیب آنها، مدلی پیشنهاد دادهایم که تشخیص دو شیء کف و دیوار را با توجه به عکسهای حاشیهنویسی موجود برای ما انجام دهد. این مدل ترکیبی از شبکههای UNet، ResNet و VGG است که خود مبتنی بر شبکههای عصبی CNN میباشند و با استفاده از مجموعهداده ADE20K به آموزش آن پرداختهایم. برای بهبود دقت مدل از تکنیکهای out-domain و in-domain و همینطور روش تطبیق دامنه، استفاده کردهایم. در این پژوهش، علاوه بر معرفی شبکه ترکیبی جدید، مقایسهای با سایر روشها به عمل آمده است. مدلهای پیشنهادی با سایزهای ورودی بسیار پایین و پارامترهای بسیار کمتر نسبت به مدلهای ترنسفورمر، دقتهای رقابتی و بهتری را نیز کسب کرده است.
Abstract: Semantic segmentation is a popular image segmentation technique where each pixel in an image is labeled with an object class. This technique has become a vital part of image analysis nowadays as it facilitates the description, categorization, and visualization of the regions of interest in an image. The recent developments in computer vision algorithms and the increasing availability of large datasets have made semantic image segmentation very popular in the field of computer vision. Motivated by the human visual system which can identify objects in a complex scene very efficiently, researchers are interested in building a model that can semantically segment an image into meaningful object classes. This method is widely used in various fields of artificial intelligence, including augmented reality, virtual reality, autonomous driving, and video processing. In recent years, there have been many successes of using Deep Convolutional Neural Networks (DCNNs) in the task of semantic image segmentation (also called “pixel-level classification”). In the field of architecture and décor of homes and public places, semantic segmentation has come to the rescue of humans. By identifying the interior objects, we are able to define them, such as parquet or paper walls, using semantic segmentation. The purpose of this thesis is to predict and divide the building's internal components and identify floor and wall objects by semantic segmentation. Using the state of the art of deep learning, we propose a model based on combining deep learning networks that detects two objects, the floor and the wall, from annotated images. This model is a combination of UNet, ResNet, and VGG networks, which are based on CNN neural networks, and we trained it on the ADE20K dataset. The domain adaptation method as well as in-domain and out-domain techniques were used to improve the model's accuracy. In this thesis, a new hybrid network is introduced as well as comparisons with other methods. Furthermore, the proposed models achieved higher accuracy than their competitors, despite their very small input sizes and few parameters..
A Technique for Indoor Objects Detection by Combining Deep Learning Networks Based on CNN