یادگیری توزیع خطاهای املایی و انشایی در جملات فارسی و بازتولید آنها با استفاده از شبکههای مولد خصمانه
عنوان اصلي به زبان ديگر
Learning grammatical and semantical errors in Persian Sentences and Regenerating them using Generative Adversarial Network
نام نخستين پديدآور
/نسیبه گلی زاده
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
: مهندسی برق وکامپیوتر
تاریخ نشرو بخش و غیره
، ۱۳۹۹
نام توليد کننده
، راشدی
مشخصات ظاهری
نام خاص و کميت اثر
۸۵ص
یادداشتهای مربوط به نشر، بخش و غیره
متن يادداشت
چاپی - الکترونیکی
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
کارشناسی ارشد
نظم درجات
علوم کامپیوتر
زمان اعطا مدرک
۱۳۹۹/۰۵/۰۱
کسي که مدرک را اعطا کرده
تبریز
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
پردازش زبانهای طبیعی ازجمله علومی است که پس از بهصوجود آمدن علوم رایانهای، مورد توجه دانشمندان قرارگرفته است .با گسترش متون نوشتاری رایانهای، چالشهای زیادی در مورد پردازش زبانهای طبیعی بهصوجود آمده است که نتیجه این تلاشها پیادهسازی انواع خطایابهای املایی، مترجمهای هوشمند ماشینی، نرمافزارهای پردازش و تشخیص گفتار و نرمافزارهای تبدیل متن به صدا بوده است .با وجود همه این تلاشها، در زبان فارسی شاهد پیشرفت چشمگیری در زمینه پردازش زبان طبیعی نبودهایم .همیشه یک ارتباط مستقیم بین مجموعه داده آموزشی بزرگ و سختی بهصدست آوردن چنین مجموعه دادهصهایی وجود داشتهصاست که با بهرهگیری از مدلصهای مولد در یادگیری عمیق، تا حدودی این مشکل حل شده است .روشهای متداولی برای تولید جملات ارائه شده است که در همه این موارد شبکه مولد بهصصورت مستقیم توزیع دادهصهای ورودی را یاد میصگیرد .اخیرا از روشصهای غیرمستقیم که تولید جملات واقعی با تنوع زیاد برای آموزش مولد را ممکن میصسازد استفاده شدهصاست .در این پایاننامه با بهرهصگیری از شبکهصهای مولد خصمانه و یادگیری تقویتی با اعمال آن روی مجموعه دادهصهای محدود ورودی، سامانهصای طراحی شده که قابلیت تولید جملات دارای خطاهای املایی و انشایی متداول در متن با تنوع زیاد را دارد .نتایج مقایسه معیار BLEU نشانص دهنده بهبود ۲۵ عملکرد روش پیشنهادی نسبت به روشص MLE [۱] در تولید جمله است
متن يادداشت
Natural language processing is one of the sciences that has been the focus of scientists since the advent of computer science. With the proliferation of computerized texts, there have been many challenges to natural language processing that have resulted in the implementation of a variety of spelling errors, machine-based intelligent translators, speech and speech recognition and text-to-speech software. In spite of all these efforts, we have not seen significant progress in the pro-cessing of natural language in Persian. There has always been a direct link between the huge train data set and the difficulty of ob-taining such a set of data, which has been partially solved by using generative models in deep learning. Common methods for generating sentences have been proposed, in all of which the generating network directly learns the distribution of input data. Recently, indirect methods have been used that make it possible to generate real sentences with great variety for training generator. In this thesis, using hostile generating networks and reinforcement learning by applying it to a limited set of input data, a system has been designed that can generate sentences with common grammatical and semantical errors in the text with great variety. The results of the BLEU score comparison show a 25 improvement in the performance of the proposed method compared to the MLE [1] method in generating sentence.
عنوان اصلی به زبان دیگر
عنوان اصلي به زبان ديگر
Learning grammatical and semantical errors in Persian Sentences and Regenerating them using Generative Adversarial Network
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )