استفاده از یادگیری تقویتی عمیق چند عامله برای کنترل رباتهای افزوده در فضای کاری
پروین امامی
مهندسی برق و کامپیوتر
۱۴۰۱
۱۱۵ص.
سی دی
کارشناسی ارشد
مهندسی برق و کامپیوتر
۱۱۴۰۱/۰۶/۱۶
با پیشرفت تکنولوژی و هوشمند شدن اکثر حوزههای صنعتی، پزشکی، کشاورزی و تجاری، افزایش سرعت و دقت عملکرد رباتهای هوشمند امری ضروری است. کنترل این رباتهای افزوده به علت درجات آزادی بیشتری که دارند با روشهای کلاسیک دشوار است و با تغییر کوچک در ساختار ربات نیاز به طراحی کنترل کنندهی جدید وجود دارد. در این پایاننامه از بازوی رباتیک Franka EMIKA panda که آن را به صورت دو عامل درنظر گرفتیم در شبیهسازیها استفاده شدهاست. با توجه به نتایج شبیهسازیها الگوریتمهای یادگیری تقویتی عمیق چندعامله در مقایسه با روشهای کلاسیک و شبکههای عصبی بهتر عمل میکنند و سریعتر وظیفه ی مورد انتظار را انجام میدهند و مقایسهی صورت گرفته در این پایانامه بین الگوریتمهای مختلف یادگیری تقویتی چندعامله است تا به بهترین عملکرد دست یابیم. با تغییر شبکه ربات، پاداش تجمعی بدست آمده برای انجام وظیفهی بلند کردن شی توسط ربات افزوده افزایش یافتهاست و درپی آن عملکرد ربات بهبود یافته است. در این پژوهش سه الگوریتم یادگیری تقویتی چندعامله با هم مقایسه شده (Meta_PPO, SAC, PPO) و با بهبود شبکه و تغییر پارامترهای شبکه در این الگوریتمها پاداش بیشتری بدست آوردیم. نوآوری این پایاننامه، شامل جداسازی میانگین و انحرافمعیار در لایههای شبکه، استفاده از تابع فعالسازی LeakyReLU و همچنین استفاده از تابع بهینهسازی ADAM درشبکهی عمیق الگوریتمهای بهروزرسانی سیاست بوده است. نهایتا، شبیه سازیهای انجام شده نشان میدهد که بهترین پاسخ بدستآمده مربوط به الگوریتم بهبود یافتهی SAC است که بیشینه پاداش ۳۰۰ رسیده است.
During the past decades, robots have become an important part of human life. With the advancement of technology and the smartness of most industrial, medical, agricultural and commercial fields, it is necessary to increase the speed and accuracy of smart robots. However, due to algorithmic and hardware limitations, they have been unable to achieve high intelligence. Flexible manipulators with redundant robot technology provide a noticeable degrees of freedom. Such systems offer enormous promise in a variety of sectors, including assistive and surgical, transportation, industry, and agriculture. However, to enable practical application in these environments, intelligent control frameworks and AI are required. This thesis presents a DMARL algorithms and model to control panda manipulator and doing task of lifting object. In this thesis, by changing the network, the cumulative reward obtained for carrying out the task of lifting the object by the redundant robot has been increased, and then the speed of the augmented robot in learning the task of lifting the object in the new environment has increased. Redundant robots can be used in different industries with different purposes. Controlling these redundant robots is difficult with classical methods due to the more degrees of freedom they have, and with a small change in the structure of the robot, there is a need to design a new controller. for this reason, machine learning and especially reinforcement learning have been used in previous researches. By considering redundant robots as a multi-agent system, the learning speed of the robot has been increased. In this thesis, three MADRL algorithms were compared (Meta_PPO, SAC, PPO) and by improving the network and parameters in these algorithms, we were able to get more rewards, and finally, the highest reward obtained from the developed SAC algorithm.
Multi‐agent deep reinforcement learning for redundant robot control in task‐space