تعیین استراتژی رباتهای فریبکار بر اساس بازیهای فازی
First Statement of Responsibility
/مریم کوزهگر
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
: مهندسی برق و کامپیوتر
Date of Publication, Distribution, etc.
، ۱۳۹۴
Name of Manufacturer
، صفدری
NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.
Text of Note
چاپی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
دکتری
Discipline of degree
مهندسی برقف کنترل
Date of degree
۱۳۹۴/۰۶/۱۱
Body granting the degree
تبریز
SUMMARY OR ABSTRACT
Text of Note
در بسیاری از سیستمهای هوشمند مصنوعی یا طبیعی، فریب نقش برجستهای دارد .جهت مدلسازی عدم قطعیتهای دنیای واقعی و نزدیک کردن فریب مصنوعی به فریب در دنیای واقعی، منطق فازی، ابزاری معقول به نظر میرسد .در این رساله، برای نخستین بار، منطق فازی در عرصهی رباتیک فریبکارانه به کار رفته است و در بررسی شرایط نظامی تعقیب و گریز، منطق فازی و نظریهی بازیها در کنار الهاماتی از طبیعت در نظر گرفته شدهاند تا پدیدهی فریب، از منظر رباتیک مورد بررسی قرار گیرد .در بازی تعقیب و گریز بین ربات خودی و ربات دشمن، زمین بازی میتواند به فرم هر ماز دلخواه باشد که در آن ربات خودی در حقیقت ربات فریبکار است که به منظور جلوگیری از فاششدن اطلاعات سختافزاری و نرمافزاری در تلاش است تا با فریب دادن ربات دشمن، او را از مخفیگاه خود دور کند .در این راستا، تعریف فازی استراتژیهای رفتاری بر اساس تجربیات گذشته، برای هر دو ربات، باعث میشود رباتها مانند انسانهایی رفتار کنند که با یکدیگر در تعارض میباشند .ترکیب استدلال فازی با ابتکاراتی الهام گرفته از دنیای مورچهها، وجه دیگر نوآوری به کار رفته در این رساله است :در راستای تحقق فریب، از ربات فریبکار انتظار میرود با تکیه بر استراتژی رفتاری خود و با استفاده از سیستم فازی باورهایش، دو سیگنال فریبکارانه) سیگنال ردپا و سیگنال فرومون (تولید کند تا با کمک آنها محیط را چنان به دلخواه خود آرایش دهد که ربات دشمن گمراه شود .در این زمینه، آنچه از دنیای مورچهها الهام گرفته شده است، در واقع سیگنال فرومون است .بعد از اینکه ربات فریبکار محیط را با سیگنالهای فریب، آرایش داد، ربات دشمن ، با استفاده از سیستم باور فازی خود و بر اساس استراتژی رفتاری خود و سیگنالهای فریب مشاهده شده، سودی را برای هر یک از راهروهای در پیش رو محاسبه میکند و با بهکارگیری یک سیستم استنتاج فازی سلسله مراتبی، جهت ورود به راهروها تصمیمگیری مینماید .در کنار نتایج شبیهسازی، به منظور بررسی نتایج به صورت عملی، رباتهای ویژهای با مشخصات مورد نیاز طراحی و ساخته شدهاند که برای حرکت در زمین بازی از فیدبک مبتنی بر پردازش تصویر بهره میبرند و دوربین نصب شده در بالای زمین بازی مسئول تأمین تصاویر برای این فیدبک است .نتایج آزمایشهای گسترده با درصد بسیار بالایی در موفقیت فریب، برهانی قاطع بر توانمندی الگوریتم فریب پیشنهاد شده است .همچنین نشان داده شده است که حتی موارد بسیار نادری از شکست فریب که در طی آزمایشها رخ دادهاند، نهتنها نشان ضعف الگوریتم ارائه شده نیست، بلکه حاکی از توانایی استدلال انسانی رباتهاست که گواهی دیگر بر قدرت الگوریتم فریب پیشنهادی است .به علاوه در این رساله، پدیدهی فریب رباتیک در قالب یک بازی ناهمکارانه با اطلاعات ناکامل بین بازیکنان عاقل مدلسازی میگردد که در آن با استفاده از آرایش محیط با سیگنالهای فریب، باور ربات تحت فریب توسط ربات فریبکار دستکاری میگردد .با در نظر گرفتن بازیهای سیگنالی به عنوان زیرمجموعهای از بازیهای با اطلاعات ناکامل، سرانجام فریب رباتیک در یک بازی فازی سیگنالی مدنظر قرار میگیرد که در آن سیگنالهای فریبکارانهی فرستنده) استراتژیهای ربات فریبکار (و نیز واکنشهای گیرنده) استراتژیهای ربات تحت فریب (همگی بر اساس سیستم استنتاج فازی خواهند بود .همچنین با استفاده از سیگنالهای الهام گرفته شده از طبیعت در روند فریب، بستر مناسبتری برای مخابرهی اطلاعات نادرست و آلوده به خطا، فراهم شده است .به علاوه با الهام از یک مدل مخابرهی سیگنال در فرآیند جفتگیری حیوانات، ماتریسی برای درآمدهای نهایی بازی فریب پیشنهاد شده است .با در نظر گرفتن فریب به صورت یک بازی تکاملی، دینامیکهای یادگیری بازیکنان با اعمال استراتژیهای ترکیبی روی سطح صداقت فریبکار و سطح اعتماد حریف مورد بررسی قرار گرفتهاند و نتایج شبیهسازی برای چند حالت کلی حاکی از آن است که رباتها این قابلیت را دارند که در روند تعامل فریبکارانه، مفاهیمی را از یکدیگر صیاد بگیرند و درنهایت بعد از یک دیرکرد کوتاه در فرایند یادگیری، هر ربات استراتژی خود را تغییر خواهد داد تا بتواند خود را با شرایط جدیدی که در اثر تغییر در استراتژی حریف به وجود آمده است، وفق دهد .به این ترتیب، فرایند یادگیری منجر به تغییرات مکرر در استراتژی رباتها میگردد و هر چند پدیدهی فریب نمیتواند به عنوان یک عنصر پایدار در سیستم مطرح باشد ولی شرایط یک فریب مداوم و عاری از فروپاشی در این سیستم ارتباطی برقرار است که در آن ربات فریبکار میتواند مکررا از فریب سود ببرد بدون اینکه باعث شود ربات تحت فریب، اعتماد خود را به طور کامل از دست بدهد .علیرغم این واقعیت که ممکن است تاخیرهای یادگیری، بازههایی ناخواسته برای هر دو بازیکن باشد، بازهی تأخیر در فرایند یادگیری ربات تحت فریب، دقیقا همان مدت زمانی است که ربات فریبکار میتواند از فریب سود ببرد
Text of Note
Deception plays a prominent role in many natural or artificial intelligent systems ranging from colonies of insects to human beings. In order to model the uncertainties and make artificial deception near the one existing in the real world, fuzzy theory seems a reasonable tool. This work is the pioneering one to incorporate fuzzy logic concepts into the phenomenon of deceptive robotics. In this work, a hide and seek process is considered in a maze imaginable in any form between two robots one of which is basically trying to deceive the other. The fuzzy definition of behavioral strategies based on past experience for both the deceiver and the competitor robot, make them act like human beings in conflict with each other. Combining the fuzzy reasoning with ant-inspired meta-heuristics is another aspect of novelty in this work: Fulfilling the deception, the deceiver is supposed to produce two deceptive signals (track and pheromone) using a fuzzy inference system in order to arrange the environment as desired. After the deceiver decides where to go, the robot under deception is to decide which path to choose based on a utility function calculated within a hierarchical fuzzy inference system whose direct inputs are the value of deception signals and also his behavioral strategy. Since the ant-inspired deception signal varies by passing time, not always will everything look like as the deceiver designs. In addition, in order to test the experimental results along with the simulations, special robots with demanded features are designed and manufactured who benefit from a vision-based feedback to move in a real maze. The results of a series of extensive experiments give an evidence of the effectiveness of the proposed deception algorithm in terms of a sufficiently high deception success percentage. Furthermore it is demonstrated that even the rare cases of deception failure speak for the human reasoning abilities of the robots which is another support to effectiveness of the proposed algorithm. Moreover, due to the nature of the problem, here we will face a non-cooperative game with incomplete information between rational players in which the belief of the robot under deception is manipulated by the deceiver through the arrangement of the environment by deception signals. On the whole in this dissertation, fuzzy logic and game theory are utilized along with inspirations from nature to explore the phenomenon of deception from the robotics viewpoint. Moreover, robotic deception is investigated in the framework of a non-cooperative signaling game for which the senders ant-inspired deceptive signals including track and pheromone and also the receivers actions are supported with hierarchical fuzzy inference systems to cover the uncertainties of real-world deception and provide a humanlike reasoning for the deceptive robots. Furthermore, motivated by some examples of animal signaling, a game matrix is proposed and the learning dynamics for the proposed game matrix have been investigated by applying mixed strategies on the deceivers honesty level and the rivals trust level. Simulation results for general situations show that the robots are capable of learning within the deceptive interaction and finally, after a rather short learning lag, will change their strategies to adopt themselves to the new situation occurred due to the opponents strategy change. Because of the repetitive change in strategies as a result of learning, the conditions of a persistent deception without breakdown holds for this game where the deceiver can frequently benefit from deception without leaving the rival to lose its trust totally. Despite the fact that the learning lags might be unwanted intervals for both players, the lag in the rivals learning process exactly is the period that the deceiver can benefit from deception