یک سامانه مبتنی بر یادگیری عمیق به منظور رفع خطاهای املایی و انشایی در متون فارسی
عنوان اصلي به زبان ديگر
deep learning-based system for solving spelling and semantic errors in Persian texts A
نام نخستين پديدآور
/محمد فاطمی
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
: مهندسی برق و کامپیوتر
تاریخ نشرو بخش و غیره
، ۱۳۹۷
نام توليد کننده
، افشاری
مشخصات ظاهری
نام خاص و کميت اثر
۷۰ص
یادداشتهای مربوط به نشر، بخش و غیره
متن يادداشت
چاپی - الکترونیکی
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
کارشناسی ارشد
نظم درجات
مهندسی کامپیوتر گرایش معماری سیستمهای کامپیوتری
زمان اعطا مدرک
۱۳۹۷/۱۱/۰۲
کسي که مدرک را اعطا کرده
تبریز
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
روزانه حجم وسیعی از مستندات متنی توسط افراد مختلف تولید و انتشار مییابند .ازآنجا که هر نوشتهای ممکن است شامل خطا باشد، بایستی قبل از انتشار از جهات گوناگون مورد بازبینی قرارگیرد و خطاهای موجود در آن اصلاح شوند .این خطاها ممکن است به دلایل سهوی و یا اعمال سلیقههای شخصی در نگارش به وجود آمده باشند .از اینرو وجود سامانههایی هوشمند جهت تشخیص و اصلاح خودکار این خطاها میتواند در استانداردسازی متون بسیار مؤثر باشد .این مسئله باید بهطور ویژه در نوشتار فارسی به دلیل وجود چالشهای فراوان ازجمله کلمات و نویسههای همآوا، کلمات مرکب و نظایر آنها مورد توجه قرار گیرد .از آنجایی که در سالهای اخیر پیشرفتهای قابل توجهی با بهکارگیری یادگیری عمیق در حوزههای مختلف علوم رایانه و هوشمصنوعی از جمله پردازش زبان طبیعی حاصل شده است، در این پایاننامه با بهکارگیری شبکههای عصبی عمیق و استفاده از روش دنباله-به-دنباله مدلی را ارائه نمودهایم که از روی یک پیکره موازی) مجموعه داده (شامل جفت جملات فارسی دارای خطا و اصلاح شده آنها، الگوها و ویژگیهای مورد نیاز جهت رفع خطاها را یاد گرفته و جملات جدید دارای خطاهای مشابه را با دقت مناسب اصلاح مینماید .به این منظور در گام نخست یک پیکره موازی از جملات فارسی جمعآوری شده است .پیکره نهایی شامل ۱۵۰ هزار جفت جمله است .۳ مدل مختلف سطح کلمه، سطح زیرکلمه و سطح نویسه با معماری کدگذار-کدگشا با استفاده از این پیکره، آموزش داده شدهاند که امتیازهای بلو ۶۲/۱۲، ۸۱/۵۸ و ۸۳/۷۵ به ترتیب برای این مدلها بر روی مجموعه جملات آزمایش حاصل شده است .نتایج بدست آمده نشاندهنده عملکرد بهتر مدل سطح نویسه نسبت به دو مدل دیگر است که از لایههای کانولوشنی و برگشتی در بخش کدگذار بهره میبرد .به عنوان یکی از ویژگیهای مهم این مدلها میتوان به توانایی آنها در رفع خطاهای املایی که صرفا از روی معنای جمله قابل تشخیص هستند اشاره کرد در حالیکه سامانههای مشابه مبتنیبرقاعده فاقد چنین توانایی هستند
متن يادداشت
A large amount of text documents are produced and published every day. Since each text may contain errors, it should be reviewed in various aspects before publishing. This problem should be addressed in Persian language writing in particular, because there are many challenges in Persian writing including homophonic words, homophonic letters, compound words, and so on. These errors may be caused by inadvertent reasons or by applying personal tastes. Hence, the existence of intelligent systems for the automatic detection and correction of these errors can be very effective in standardizing the texts. The recently significant advances in various fields of computer science and Artificial Intelligence, specifically in the field of natural language processing through the use of deep learning, motivated us to use deep neural networks in the task of error correction in Persian texts. In the first step the required training parallel corpus of unedited and edited Persian sentences were collected. The final corpora reached 150K sentence pairs. In the next step, three different encoder-decoder models including word-level, subword-level, and character-level were trained. The outputs produced by the models achieved the BLEU scores of 62.12, 81.58, and 83.75 on the entire test set, respectively. The results indicate that the character-level model that utilizes a convolutional layer and a single recurrent layer performs better than the two other models. One of the important features of these models is their ability to detect and correct the spelling errors that are recognizable only from the meaning of the entire sentence like the misuse of homophonic Persian words, while similar rule-based systems lack this ability
عنوان اصلی به زبان دیگر
عنوان اصلي به زبان ديگر
deep learning-based system for solving spelling and semantic errors in Persian texts A
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )