رویکرد جامع برای تحلیل موضوع مورد نظر در داده جریانی شبکه اجتماعی توئیتر با استفاده از یادگیری عمیق و گراف حافظه
نام نخستين پديدآور
میثم عسگری چناقلو
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
مهندسی برق وکامپیوتر
تاریخ نشرو بخش و غیره
۱۴۰۰
مشخصات ظاهری
نام خاص و کميت اثر
۹۶ص.
مواد همراه اثر
سی دی
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
دکتری
نظم درجات
مهندسی فناوری اطلاعات گرایش سیستم های چندرسانه ای
زمان اعطا مدرک
۱۴۰۰/۰۶/۰۶
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
ویژگی ذاتی بلادرنگ شبکههای اجتماعی، کوتاهی پیامها و کلان دادههای توزیعشده در بین موضوعات مختلف و گوناگون در این شبکهها، نظر بسیاری از محققین را در سالهای اخیر به خود جلب کرده است. بسیاری از محققین در این حوزه تلاش کردهاند تا به کمک تشخیص موضوعات داغ و ردیابی این موضوعات در دادههای جریانی شبکههای اجتماعی بتوانند پاسخ سؤالات مهمی را فراهم آورند. کاوش این دادههای جریانی شبکههای اجتماعی همانند توئیتر میتواند اطلاعات بسیار مهمی را به دست دهد. بخشی از این اطلاعات بسیار ارزشمند شامل عناوین موردبحث کاربران و اشخاص و مکانهای مرتبط با این موضوعات است. گرچه تحقیقات بسیار زیادی در این زمینه انجامشده ولی در هیچیک از این تحقیقات از دادههای چند ماهیتی استفادهنشده است. از سوی دیگر، علاوه بر اینکه داده توئیتر بهصورت چند ماهیتی، شامل متن و تصویر میباشد، در اکثر این تحقیقات به ماهیت جریانی داده نیز توجه نشده است. در این رساله، ما سعی کردهایم که با دیدی چند ماهیتی به داده جریانی توئیتر موضوعات مهم را در آن استخراجکنیم. بر همین اساس با یک رویکرد شناختی مبتنی بر نظریه گراف، سعی کردهایم قابلیتهای شناختی مهمی ازجمله حافظه و اهمیت قائل شدن را به این گراف اضافه کنیم. گرچه بازنمایی معنایی نیز بخشی از تحقیقات ما در این حوزه میباشد. به بیانی سادهتر، سعی کردهایم تا گرافی با حافظه از کلماتی که در داده جریانی توئیتر رخ میدهند ایجاد کنیم که در صورت عدم تکرار در زمان به فراموشی سپرده شوند. درصورتیکه موجودیت مهمی مانند نام شخص، مکان و غیره مشاهده شد به آن اهمیت داده شود. از سوی دیگر، تمامی این گراف به شکلی حافظهدار باشد که بتواند رخداد کلمات در مفاهیم و معانی را بهصورت زمانی در خود ذخیره کند. تشخیص موجودیتهای نامدار و بهره جستن از آنها از یکسو و استفاده از گراف حافظه از سوی دیگر به همراه استفاده از بازنمایی مفهومی بهواسطه ترنسفرمرها این رویکرد را قادر ساخته است که با توجه به پارامترهای ارزیابی نسبت به سایر رویکردها برتری خود را نشان دهد. گرچه جهت استفاده از موجودیت نامدار، از یک رویکرد مجزا استفادهشده است که نسبت به رویکردهای مشابه در این زمینه بهتر بوده و بهصورت چند ماهیتی قابلیت استخراج موجودیتهای نامدار را دارد. تحلیل نویز و بررسی تأثیر پارامترهای مختلف بر هردو رویکرد تشخیص موضوعات و تشخیص موجودیتهای نامدار نشان میدهد که گراف حافظه به همراه اجزا آن، نسبت به سایر روشها بهتر عمل میکند. گرچه این تحلیلها در تشخیص موضوع هم در شناسایی موضوعات و هم در دقت کلمات کلیدی استخراجشده انجامشده است، استفاده از موجودیت نامدار چند ماهیتی و تک ماهیتی نیز بر تشخیص موضوع موردبررسی قرارگرفته است. رویکرد پیشنهادی جهت تشخیص موضوع از ابعاد دیگری همچون تأثیر عملیات کاهش ابعاد مدل زبانی و حساسیت نسبت به پارامترها نیز بررسیشده است. تمامی این تحلیلها و بررسیها نشان میدهد که اولاً استفاده از موجودیتهای نامدار و تشخیص آنها بهصورت چند ماهیتی از یکسو و دوما استفاده از گراف حافظه، قوانین بهروزرسانی گراف و مدل زبانی از سوی دیگر، نتایج را بهبود بخشیده و رویکردی برخط ارائه میدهد. این رویکرد علاوه بر اینکه در برابر نویز مقاوم است، میتوان بهصورت لحظهای و بدون هیچ درنگی نتایج را به دست بدهد
متن يادداشت
Real-time nature of social media, short messages, and distributed big data on various topics and networks has gained the attention of many researchers in recent years. Many researchers in this field tried to help detect hot topics and track them in streaming social media platforms to answer important questions. Mining this social media stream data can give very valuable information. Some of this information like topics that users talk about, people, and places that appear in the context is very important. There are many types of research conducted in this field but none of them used the multimodal nature of the data. On the other hand, even if the Twitter data is multimodal, the streaming feature of this data is not explored as well. In this thesis, we try to explore this problem with a multimodal and streaming point of view. According to what is said, we have used cognitive features in form of a memory--graph. We also tried to add features like forgetting and distinguishing to this graph. Semantic representation is also another major field of our work. We have used a memory--graph composed of words that appear in the data stream, this graph forgets the words that stop appearing and it gives extra attention to words that are important entities such as person names, locations, organizations, etc. This graph also has a semantic feature that makes sure the words stored in the graph have their historical semantic representation with them. Named entity recognition and utilization of the entities helps our approach to have a better understanding of the topics of interest. Evaluation results show that our approach is superior in terms of evaluation metrics compared to other state-of-the-art approaches. To use named entities in this thesis, we have proposed a novel multimodal named entity recognizer which is better compared to other state-of-the-art methods and obtained higher evaluation metrics. Noise analysis with other related metric analyses shows that the proposed named entity recognizer with the respective topic detection approach has better results. In the analysis section, we have compared various setups of the proposed approach for topic detection; We have explored the effect of noise, parameter sensitivity, and quantization/pruning effects on the approach. Overall results show that utilization of memory--graph with features like forgetting, distinguishing, and semantic representation obtains better results in terms of evaluation metrics
عنوانهای گونه گون دیگر
عنوان گونه گون
Comprehensive approach to topic-of-interest analysis in twitter social media stream using deep learning and memory-graph
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )