یک الگوریتم یادگیری تقویتی تکاملی برای کنترل ربات در محیط های مشارکتی
First Statement of Responsibility
آیدین کاظم پور
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
مهندسی مکانیک
Date of Publication, Distribution, etc.
۱۴۰۱
PHYSICAL DESCRIPTION
Specific Material Designation and Extent of Item
۱۱۶ص.
Accompanying Material
سی دی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
مهندسی مکاترونیک
Date of degree
۱۴۰۱/۱۱/۱۱
SUMMARY OR ABSTRACT
Text of Note
امروزه الگوریتمهای یادگیری تقویتی به طور موفقیت آمیزی در طیف وسیعی از فعالیتهای کنترلی نظیر کنترل رباتها، بازیهای آتاری و هواپیماهای بدون سرنشین اعمال میشوند. با این حال، چندین مشکل اصلی برای به کار بردن این الگوریتمها نظیر مسئله تخصیص اعتبار زمانی، فقدان یک رویکرد جستجوی موثر در محیط، و مشکلات ناشی از همگرا نشدن پاسخها به پاسخهای بهینهی فراگیر و گیر افتادن در پاسخهای بهینه محل مطرح میباشد. در مقابل، یک دسته از تکنیکهای بهینهسازی به نام الگوریتمهای تکاملی وجود دارند که به طور قابل توجهی میتوانند مشکلات موجود در الگوریتم های یادگیری تقویتی را برطرف کنند و باعث بهبود نتایج این الگوریتمها شوند. با این حال این الگوریتمهای تکاملی نیز خود از مشکلاتی نظیر کارایی نمونه برداری کم، مشکلاتی دخیل در مسائلی که دارای پارامتر های زیادی برای بهینه سازی دارند، رنج میبرند. در کارهای قبلی روشهایی برای ترکیب دو حوزه الگوریتم های تقویتی و تکاملی برای محیطهای تک-عاملی، نظیر ترکیب الگوریتمهایی مانند الگوریتم Deep Deterministic Policy Gradient (DDPG) با الگوریتم ژنتیک یا الگوریتم (Twin Delayed Deep Deterministic Policy Gradient (TD3 با روش Cross-Entropy Method (CEM) پیشنهاد شدهاند. در این پژوهش، ما کار آنها را به محیطهای چندعامله مشارکتی که در آن عاملها برای رسین به هدفهای تعیین شده باید همکاری داشته باشند، بسط دادهایم و نام آن را Qemix گذاشتهایم. برای این کار، در بخش یادگیری تقویتی، الگوریتم QMIX که یک الگوریتم یادگیری تقویتی چندعامله با رویکرد آموزش متمرکز و اجرای غیرمتمرکز میباشد و بر اساس فاکتورسازی تابعهای ارزش کار میکند، انتخاب شده است و برای بخش الگوریتم تکاملی از الگوریتم ژنتیک استفاده کردهایم. بعد از اعمال رویکرد ارائه شده در چندین بنچمارک چند-عامله نظیر RWARE، PressurePlate، و MPE، نتایج بدست آمده را با استفاده از معیارهایی مانند ماکزییم پاداش نهایی تجمعی و میانگین پاداش نهایی تجمعی با الگوریتم های ارائه شده در کارهای قبل مقایسه کردهایم. در نهایت نتایج نشان دهنده بهبود عملکرد رویکرد ارائه شده نسبت به نتایج بدست آمده از اعمال QMIX و ژنتیک در این بنچمارکها و همچنین برخی الگوریتمهای ارائه شده در پژوهشهای قبلی میباشد.بنابراین می توان این پایان نامه را به 4 بخش تقسیم کرد:1- پیاده سازی یک الگوریتم یادگیری تقویتی چندعامله 2- پیاده سازی یک الگوریتم تکاملی برای ترکیب با الگوریتم تقویتی 3- ترکیب دو الگوریتم پیاده سازی شده در بخشهای اول و دوم بر اساس یک رویکرد مشخص 4- ارزیابی الگوریتم ترکیبی ارائه شده در بنچمارکهای مختلف
Text of Note
Nowadays, reinforcement learning algorithms are successfully applied in many control tasks, such as robot control, atari games, and drones. However, these algorithms are suffering from a couple of problems, such as credit assignment problem, lack of practical exploration approaches, and problems with converging to the local optimum solution. On the other hand, there is a category of optimization techniques called evolutionary algorithms, which can significantly help these reinforcement learning algorithms overcome their problems and improve their results. However, these evolutionary algorithms also suffer from issues, such as low sample efficiency and dealing with excessively optimized parameters. Previous works have combined these two domains for single-agent tasks, such as using hybrid approaches based on combining Deep Deterministic Policy Gradient (DDPG) algorithm and genetics or Twin Delayed Deep Deterministic policy gradient (TD3) and Cross-Entropy Method (CEM). In our research, we have extended their work to multi-agent environments, where multiple agents cooperate to reach a common goal and namned it QeMIX. For implementing our approach, on the reinforcement learning side, we used QMIX, which is a multi-agent reinforcement learning algorithm with centralized learning and decentralized execution paradigm and is based on the factorization of value functions. For the evolutionary side, we used the genetic algorithm. After applying our approach to cooperative multi-agent benchmarks such as RWARE, PressurePlate, and MPE, we evaluated and compared our results with previously proposed algorithms based on criteria such as maximum and average returns. Our results show improvement compared to solely applying QMIX or Genetics and some previously proposed algorithms on evaluated benchmarks.
OTHER VARIANT TITLES
Variant Title
An Evolutionary Reinforcement Learning Algorithm for Robot Control in Cooperative Environments