یادگیری تقویتی شبکهی عصبی جهت کنترل راه روی یک ربات دوپا
نام نخستين پديدآور
/یاسمن واقعی
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
: دانشکدهی مهندسی فناوری های نوین
مشخصات ظاهری
نام خاص و کميت اثر
۸۵ص
یادداشتهای مربوط به نشر، بخش و غیره
متن يادداشت
چاپی
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
کارشناسی ارشد
نظم درجات
در رشتهی مهندسی مکاترونیک
زمان اعطا مدرک
۱۳۹۳/۰۲/۲۷
کسي که مدرک را اعطا کرده
دانشگاه تبریز
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
در سالصهای اخیر، تلاش مطالعات انجام شده بر روی الگوریتمصهای یادگیری بهصمنظور پر کردن فضای خالی بین کنترل بهینهصی تطبیقی و روشصهای یادگیری برگرفته از سیستمصهای بیولوژیکی بوده است .یادگیری تقویتی یکی از مهمصترین روشصها است که امروزه جهت کنترل رباتصها مورد استفاده قرار گرفته است .از طرفی، کنترل راهصروی ربات دوپا یکی از مهمصترین و پیچیدهصترین مسائل با دینامیک غیرخطی میصباشد .با توجه به اینکه پژوهشصهای بسیاری بر روی الگوریتمصهای یادگیری تقویتی و نیز شبکهصهای عصبی مصنوعی صورت گرفته است، هیچصیک به استفاده از شبکهصهای عصبی در الگوریتم یادگیری تقویتی عملگر- منتقد بهصمنظور بهبود عملکرد کنترل ربات دوپا نپرداختهصاند .لذا هدف در این پایانصنامه، ارائهصی یک روش کنترلی نوین و مبتنی بر یادگیری تقویتی شبکه عصبی جهت کنترل راه-روی یک ربات دوپای پنج لینکی صفحهصای میصباشد .بدین منظور، در ابتدا به شرح و بررسی مطالعات انجام گرفته در مورد یادگیری تقویتی و ترکیب آن با شبکهصی عصبی پرداختهصایم .سپس، ربات دوپا بهصصورت سینماتیکی و دینامیکی مدلسازی شده و نیز مدل ریاضی راه-روی برای برداشتن گام و ضربهصی گام ارائه شده است .در قدم بعد، یک الگوریتم یادگیری تقویتی موثر عملگر- منتقد جهت کنترل راهصروی ربات انتخاب و پیادهصسازی شده است .همچنین، بهصمنظور بهینهصسازی عملکرد کنترلی سیستم دینامیکی پیچیدهصی این ربات، شبکهصهای عصبی روصبهصجلو در دو بخش عملگر و منتقد بهصکار گرفته شدهصاند .نتایج حاصل حاکی از آن است که فرآیند یادگیری بهصسرعت به حالت مطلوب همگرا شده و الگوریتم کنترلی روشی کارا و دقیق جهت کنترل راهصروی ربات دوپای پنج لینکی بررسی شده در این پایانصنامه میصباشد
متن يادداشت
link biped robot-forward artificial neural networks in the actor and the critic parts to optimise the control efficiency of the robot's complicated dynamic system. The results of the thesis reveal that the learning process converges to the optimal solution rapidly and the proposed control algorithm is an accurate method for walking control of the five-critic reinforcement learning method has been proposed for walking control of the biped robot. Moreover, we have implemented two feed-link biped robot. Therefore, after a review on the reinforcement learning algorithms and their combination with neural networks, the kinematic and dynamic models of the biped robot have been proposed. Then, the mathematical model for the biped robot's walking cycle is introduced. In the next step, an efficient actor- critic reinforcement learning algorithms to enhance the efficiency of the control. Hence, the contribution of this thesis is to introduce an innovative biped control approach, based on neural network reinforcement learning for walking control of a planar five-inspired learning methods. Reinforcement learning is one of the major approaches, which has been implemented in robotic control tasks. On the other hand, the walking control of the biped robots is one of the most important and complicated problems with nonlinear dynamics. Although many researches have been done on reinforcement learning algorithms and artificial neural networks, none of them specifically dedicated to the neural network implementation in actor-In recent years, researches have focused on learning algorithms in order to bridge the gap between the optimal adaptive control and bio
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )