یادگیری توزیع خطاهای املایی و انشایی در جملات فارسی و بازتولید آنها با استفاده از شبکههای مولد خصمانه
Parallel Title Proper
Learning grammatical and semantical errors in Persian Sentences and Regenerating them using Generative Adversarial Network
First Statement of Responsibility
/نسیبه گلی زاده
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
: مهندسی برق وکامپیوتر
Date of Publication, Distribution, etc.
، ۱۳۹۹
Name of Manufacturer
، راشدی
PHYSICAL DESCRIPTION
Specific Material Designation and Extent of Item
۸۵ص
NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.
Text of Note
چاپی - الکترونیکی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
علوم کامپیوتر
Date of degree
۱۳۹۹/۰۵/۰۱
Body granting the degree
تبریز
SUMMARY OR ABSTRACT
Text of Note
پردازش زبانهای طبیعی ازجمله علومی است که پس از بهصوجود آمدن علوم رایانهای، مورد توجه دانشمندان قرارگرفته است .با گسترش متون نوشتاری رایانهای، چالشهای زیادی در مورد پردازش زبانهای طبیعی بهصوجود آمده است که نتیجه این تلاشها پیادهسازی انواع خطایابهای املایی، مترجمهای هوشمند ماشینی، نرمافزارهای پردازش و تشخیص گفتار و نرمافزارهای تبدیل متن به صدا بوده است .با وجود همه این تلاشها، در زبان فارسی شاهد پیشرفت چشمگیری در زمینه پردازش زبان طبیعی نبودهایم .همیشه یک ارتباط مستقیم بین مجموعه داده آموزشی بزرگ و سختی بهصدست آوردن چنین مجموعه دادهصهایی وجود داشتهصاست که با بهرهگیری از مدلصهای مولد در یادگیری عمیق، تا حدودی این مشکل حل شده است .روشهای متداولی برای تولید جملات ارائه شده است که در همه این موارد شبکه مولد بهصصورت مستقیم توزیع دادهصهای ورودی را یاد میصگیرد .اخیرا از روشصهای غیرمستقیم که تولید جملات واقعی با تنوع زیاد برای آموزش مولد را ممکن میصسازد استفاده شدهصاست .در این پایاننامه با بهرهصگیری از شبکهصهای مولد خصمانه و یادگیری تقویتی با اعمال آن روی مجموعه دادهصهای محدود ورودی، سامانهصای طراحی شده که قابلیت تولید جملات دارای خطاهای املایی و انشایی متداول در متن با تنوع زیاد را دارد .نتایج مقایسه معیار BLEU نشانص دهنده بهبود ۲۵ عملکرد روش پیشنهادی نسبت به روشص MLE [۱] در تولید جمله است
Text of Note
Natural language processing is one of the sciences that has been the focus of scientists since the advent of computer science. With the proliferation of computerized texts, there have been many challenges to natural language processing that have resulted in the implementation of a variety of spelling errors, machine-based intelligent translators, speech and speech recognition and text-to-speech software. In spite of all these efforts, we have not seen significant progress in the pro-cessing of natural language in Persian. There has always been a direct link between the huge train data set and the difficulty of ob-taining such a set of data, which has been partially solved by using generative models in deep learning. Common methods for generating sentences have been proposed, in all of which the generating network directly learns the distribution of input data. Recently, indirect methods have been used that make it possible to generate real sentences with great variety for training generator. In this thesis, using hostile generating networks and reinforcement learning by applying it to a limited set of input data, a system has been designed that can generate sentences with common grammatical and semantical errors in the text with great variety. The results of the BLEU score comparison show a 25 improvement in the performance of the proposed method compared to the MLE [1] method in generating sentence.
PARALLEL TITLE PROPER
Parallel Title
Learning grammatical and semantical errors in Persian Sentences and Regenerating them using Generative Adversarial Network