شناسایی حرکت انسان در ویدئو بر پایه مکانیزم توجه با استفاده از شبکههای عصبی کانولوشنی بازگشتی
مهدی اسرافیلی دستجرد
برق و کامپیوتر
۱۴۰۱
۴۵ص.
سی دی
کارشناسی ارشد
مهندسی کامپیوتر گرایش هوش مصنوعی و رباتیکز
۱۴۰۱/۰۶/۲۱
تشخیص رفتار انسان به عنوان یک موضوع مهم در دسته بندی ویدئو در حوزه بینایی ماشین تبدیل شده است. تشخیص رفتار افراد در محیط کاربردهای مختلفی دارد؛ از جمله اینکه به ربات ها کمک می کند تعامل بهتری با انسانها داشته باشند یا اعمال مجرمانه به سرعت تشخیص داده شود و اقدامات لازم جهت کاهش خسارات انجام گیرد. همچنین در پالایش محتواهای شبکه های اجتماعی کاربرد فراوانی دارد. الگوریتمهای کلاسیک و شبکههای عصبی متنوعی برای حل این مسئله ارائه شده است؛ مخصوصا در سالهای اخیر توجه ویژهای به شبکههای عصبی شده است. از بین شبکههای عصبی، شبکههای عصبی کانولوشنی و بازگشتی عملکرد بهتری در استخراج ویژگی و ایجاد نمایش از ویدئو و تصویر داشتند. روشهای ارائه شده مبتنی بر این شبکهها، بصورت مستقل بر روی بعدهای مکان و زمان اعمال میشوند، ولی این بعدها مستقل از هم نیستند و وابستگیهای اساسی دارند. در این پروژه یک الگوریتم کانولوشنی - بازگشتی تشخیص حرکت انسان در ویدئو بر پایه مکانیسم توجه ارائه میکنیم. در واقع ابتدا بوسیله یک شبکه کانولوشنی دو بعدی عمیق از پیش آموزش داده شده روی یک مجموعه دادگان بزرگ، ویژگیهای محلی را استخراج میکنیم. سپس بوسیله شبکه مبدل محلی ویژگیهای مهم را انتخاب میکنیم. همچنین این شبکه مبدل نقش لایه توجه را نیز ایفا میکند. بعد از آن توسط یک شبکه کانولوشنی بازگشتی، کلاس هر فریم را مشخص میکنیم. کلاس نهایی ویدئو بر اساس روش میانگین گیری مشخص میشود. ارزیابی نتایج بدست آمده، موثر بودن معماری پیشنهادی را اثبات مینماید.
Recognizing human behavior has become an important topic in video classification in the field of machine vision. Recognizing individuals’ behavior in the environment has various applications; it helps robots to have a better interaction with humans, or criminal acts to be quickly recognized and necessary actions are taken to reduce damages. It is also widely used in refining the contents of social networks. Classical algorithms and various neural networks have been presented to solve this problem In recent years, special attention has been paid to neural networks. Among neural networks, convolutional and recurrent neural networks performed better in extracting features and creating representations from video and images. The presented methods based on these networks are applied independently on the dimensions of space and time, but these dimensions are not independent of each other and have fundamental dependencies. In this project, we present a convolutional recurrent algorithm for human action detection in video based on the attention mechanism. In fact, we first extract local features by a pre-trained two-dimensional deep convolutional network on a large dataset. Then we select the important features by the local converter network. Also, this converter network plays the role of attention layer. After that, we determine the class of each frame by a recurrent convolutional network. The final class of the video is determined based on the averaging method. The evaluation of the obtained results proves the effectiveness of the proposed architecture.
Human Action Recognition in Video Based on Attention Mechanism Using Convolutional Recurrent Neural Networks