الگوریتم جدید مسیریابی بهینه برای رباتهای متحرک با ادغام کنترل بهینه و یادگیری تقویتی
مینا جمالی هراب
مهندسی مکانیک
۱۴۰۰
۱۴۱ص.
سی دی
کارشناسی ارشد
مهندسی مکاترونیک
۱۴۰۰/۱۱/۲۸
چکیدهبهینگی طراحی مسیر رباتهای متحرک ازجمله موضوعات پرمخاطب علم رباتیک بوده است. در بسیاری از کارهای گذشته که شبکههای عصبی اسپایکینگ با استفاده از یادگیری تقویتی آموزشدیده و مسیری برای رسیدن به هدف از نقطه معلوم را ارائه کرده است، بهینگی مسیر در نظر گرفته نشده است. از میان مدلهای نورونی مختلف، مدل ایژیکویچ برای این پروژه انتخابشده است، زیرا ازنظر محاسباتی ساده و به لحاظ بیولوژیکی مقبولیت دارد. در این پایاننامه از ادغام الگوریتم کنترل بهینه و یادگیری تقویتی شبکههای عصبی اسپایکینگ برای به دست آوردن مسیر رباتهای متحرک استفاده میشود. ورودی کنترل بهینه نقاط ابتدا و هدف است و خروجی آن مسیر بهینه میباشد. از طرف دیگر ورودی سیستم یادگیری تقویتی نیز مکان هدف بهصورت نسبی در مختصات ربات است و خروجی آن فرمان حرکتی به موتورها میباشد؛ بنابراین با الگو قرار دهی مسیر تولیدشده توسط کنترل بهینه پارامترهای داخلی سیستم یادگیری تقویتی که در شبکههای عصبی مصنوعی پیادهسازی میگردد، تنظیم میشود تا مسیر بهینه توسط سیستم یادگیری ربات ایجاد گردد و به مسیر ایجادشده توسط کنترل بهینه نزدیکتر شود. در این پایاننامه رباتی خاص با توجه به جرم و مشخصات آن در نظر گرفتهشده است و این الگوریتم کاملاً متأثر از دینامیک ربات میباشد. بهگونهای که یک ربات متحرک برای حرکت از نقطهای به نقطه دیگر در مسیری با 1 مانع و بدون داده اولیه از محیطی که در آن است طبق کنترل بهینه علاوه بر در نظر گرفتن کوتاهترین مسیر، امکان حرکت ربات در آن مسیر به لحاظ دینامیکی را نیز در نظر میگیرد. طبق الگوریتمهای گذشته مسافت تقریبی طی شده توسط ربات برای رسیدن به هدف بدون در نظر گرفتن بهینگی مسیر بود که در الگوریتم ارائهشده در این پایاننامه بهینگی مسافت در نظر گرفتهشده است. آزمایشها در حدود 20 بار تکرار شد و با توجه به بینهایت مسیر موجود برای حرکت از نقطه اول به نقطه دوم، ربات مسیر یکتای بهینه را یافته و طی کرد. مطالعه موردی نیز در این آزمایشات در نظر گرفته شد تا این مورد تصدیق شود که ربات بدون تأثیر گرفتن از نقاط ابتدا و انتها درهرحال مسیر بهینه را طی میکند. حداکثر خطای موجود از مسیر کنترل بهینه 0.1 بود که در اشکال و نتایج ارائهشده در فصل آخر به تفصیل شرح دادهشده است.
AbstractOptimal trajectory planning of mobile robots is among the most popular topics in the field of robotics. A plurality of the previous reserach carried out in the field are addressed to Spiking Neural Network utilizing reinforcement and path-based learning placing optimal trajectory planning in an understudied position. Among various neurotic models, Izhikevich's model was opted for this research due to its being straightforward in terms of calculations and it widespread biological acceptance. In order to calibrate the trajectory of mobile robots, this research integrates the algorithm of optimal control and reinforcement learning in Spiking Neural Networks. One the one hand, the input for optimal control constitutes the starting point and the output is the optimal trajectory. On the other hand, the input for reinforcement learning system constitutes the target location with relative precision with the robot's coordinates and the output is the movement command to the robot's installed motors. Therefore, all the parameters in the Spiking Neural Network and reinforcement learning have been tuned to make the trajectory of the robot as close to the optimal trajectory as possible. A special robot with consideration paid to mass and specifications calibrated by the dynamics of the robot was employed. The objective of mobilizing the robot from a given point to another in an a particular environment with one obstacle and no predetermined data was to find the shortest route and the feasibility of its mobalization given the robot's dynamics. Based on previous algorithms, the approximate distance covered by the robot was measured without considering optimal trajectory; however, the algorithm offered in the thesis at hand takes optimal trajectory into account. A total of 20 experiments were carried out and the robot traveled the only optimal trajectory although there were infinite possibilities for the robot's trajectory. The two case studies carried out in this regard confirmed that the robot traveled the optimal trajectory regardless of the starting and ending points. The highest deviation error form the optimal trajectory stood at 0.1, which has been thoroughly explicated in figures and results in the last chapter.
New algorithm of trajectory planning for mobile robots integrating optimal control and RL