یادگیری تقویتی شبکهی عصبی جهت کنترل راه روی یک ربات دوپا
First Statement of Responsibility
/یاسمن واقعی
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
: دانشکدهی مهندسی فناوری های نوین
PHYSICAL DESCRIPTION
Specific Material Designation and Extent of Item
۸۵ص
NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.
Text of Note
چاپی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
در رشتهی مهندسی مکاترونیک
Date of degree
۱۳۹۳/۰۲/۲۷
Body granting the degree
دانشگاه تبریز
SUMMARY OR ABSTRACT
Text of Note
در سالصهای اخیر، تلاش مطالعات انجام شده بر روی الگوریتمصهای یادگیری بهصمنظور پر کردن فضای خالی بین کنترل بهینهصی تطبیقی و روشصهای یادگیری برگرفته از سیستمصهای بیولوژیکی بوده است .یادگیری تقویتی یکی از مهمصترین روشصها است که امروزه جهت کنترل رباتصها مورد استفاده قرار گرفته است .از طرفی، کنترل راهصروی ربات دوپا یکی از مهمصترین و پیچیدهصترین مسائل با دینامیک غیرخطی میصباشد .با توجه به اینکه پژوهشصهای بسیاری بر روی الگوریتمصهای یادگیری تقویتی و نیز شبکهصهای عصبی مصنوعی صورت گرفته است، هیچصیک به استفاده از شبکهصهای عصبی در الگوریتم یادگیری تقویتی عملگر- منتقد بهصمنظور بهبود عملکرد کنترل ربات دوپا نپرداختهصاند .لذا هدف در این پایانصنامه، ارائهصی یک روش کنترلی نوین و مبتنی بر یادگیری تقویتی شبکه عصبی جهت کنترل راه-روی یک ربات دوپای پنج لینکی صفحهصای میصباشد .بدین منظور، در ابتدا به شرح و بررسی مطالعات انجام گرفته در مورد یادگیری تقویتی و ترکیب آن با شبکهصی عصبی پرداختهصایم .سپس، ربات دوپا بهصصورت سینماتیکی و دینامیکی مدلسازی شده و نیز مدل ریاضی راه-روی برای برداشتن گام و ضربهصی گام ارائه شده است .در قدم بعد، یک الگوریتم یادگیری تقویتی موثر عملگر- منتقد جهت کنترل راهصروی ربات انتخاب و پیادهصسازی شده است .همچنین، بهصمنظور بهینهصسازی عملکرد کنترلی سیستم دینامیکی پیچیدهصی این ربات، شبکهصهای عصبی روصبهصجلو در دو بخش عملگر و منتقد بهصکار گرفته شدهصاند .نتایج حاصل حاکی از آن است که فرآیند یادگیری بهصسرعت به حالت مطلوب همگرا شده و الگوریتم کنترلی روشی کارا و دقیق جهت کنترل راهصروی ربات دوپای پنج لینکی بررسی شده در این پایانصنامه میصباشد
Text of Note
link biped robot-forward artificial neural networks in the actor and the critic parts to optimise the control efficiency of the robot's complicated dynamic system. The results of the thesis reveal that the learning process converges to the optimal solution rapidly and the proposed control algorithm is an accurate method for walking control of the five-critic reinforcement learning method has been proposed for walking control of the biped robot. Moreover, we have implemented two feed-link biped robot. Therefore, after a review on the reinforcement learning algorithms and their combination with neural networks, the kinematic and dynamic models of the biped robot have been proposed. Then, the mathematical model for the biped robot's walking cycle is introduced. In the next step, an efficient actor- critic reinforcement learning algorithms to enhance the efficiency of the control. Hence, the contribution of this thesis is to introduce an innovative biped control approach, based on neural network reinforcement learning for walking control of a planar five-inspired learning methods. Reinforcement learning is one of the major approaches, which has been implemented in robotic control tasks. On the other hand, the walking control of the biped robots is one of the most important and complicated problems with nonlinear dynamics. Although many researches have been done on reinforcement learning algorithms and artificial neural networks, none of them specifically dedicated to the neural network implementation in actor-In recent years, researches have focused on learning algorithms in order to bridge the gap between the optimal adaptive control and bio