بازسازی ساختاری به منظور بهبود بخشیدن به ترجمه ماشینی آماری فارسی به انگلیسی
First Statement of Responsibility
/مهدی رحیمی
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
: مهندسی برق و کامپیوتر
Date of Publication, Distribution, etc.
، ۹۴
NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.
Text of Note
چاپی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
مهندسی برق و کامپیوتر، نرم افزار
Date of degree
۱۳۹۴/۰۶/۲۵
Body granting the degree
تبریز
SUMMARY OR ABSTRACT
Text of Note
ترجمه خودکار از یک زبان طبیعی به زبان طبیعی دیگر با استفاده از کامپیوتر را ترجمه ماشینی میصنامند .یکی از روشهایی که برای ترجمه از یک زبان به زبان دیگر بکار میصرود، روش ترجمه ماشینی آماری است .از مشکلات اساسی در رابطه با ترجمه ماشینی آماری وجود نداشتن پیکره دو زبانه بزرگ است که منجر به دستیابی به خروجیصهایی با کیفیت نامطلوب شده است .البته تنها با پیکرهصهای دو زبانه نمی توان تمام ویژگی های زبانی را بدست آورد و نیاز به عملیات زبانصشناسی در ترجمه آماری احساس می-شود .فرایند بازسازی ساختاری به معنی تطبیق دادن ترتیب کلمات ترجمه شده به ترتیب کلمات در زبان مقصد است .به عنوان مثال میصتوان به تفاوت بین ترتیب موصوف-صفت در زبان فارسی و صفت-موصوف در زبان انگلیسی اشاره کرد .در این پایانصنامه ابتدا به بررسی و مقایسه روشصهای بازسازی ساختاری که با هدف بهبود بخشیدن به کیفیت سیستمصهای ترجمه آماری انجام شدهصاند، پرداخته شده است .بازسازیصهای ساختاری که به صورت داخلی در سیستمصهای ترجمه آماری انجام میصشوند محدود هستند و برای جفت زبان-هایی که تفاوتصهای ساختاری زیادی با هم دارند به اندازه کافی مناسب نیستند .بنابراین نیاز به تکنیک-های بیشتری در این زمینه احساس میصشود .روش پیشنهاد شده در این پایانصنامه که برای جفت زبان-های فارسی و انگلیسی طراحی شده است از ویژگیصها و قواعد زبانی استفاده میصکند تا خروجی بهتری را در ترجمه از زبان فارسی به انگلیسی نتیجه دهد .در اولین گام در انجام روش پیشنهادی، قسمت فارسی پیکره دو زبانه با استفاده از برچسبصگذار اجزای سخن، برچسبصگذاری میصشود .سپس با استفاده از تجزیهصگر وابستگی برای زبان فارسی، روابط وابستگی بین کلمات در جملات قسمت فارسی پیکره نیز مشخص میصشوند .برچسبصگذارهای موجود برای زبان فارسی دارای دقت بسیار مناسبی هستند و از این نظر در کاهش کیفیت خروجی نهایی سیستم تاثیرگذاری منفی نخواهند داشت اما در مورد تجزیهصگرهای زبان فارسی این مورد خیلی صحیح نیست و دقت تجزیهصگرها در کیفیت خروجی سیستم تاثیرگذاری بیشتری خواهند داشت و از طرفی گستردگی تجزیهصگرهای وابستگی برای زبان فارسی به اندازه برچسب-گذارها نیست .بعد از برچسبصگذاری و مشخص کردن روابط وابستگی میان کلمات، با توجه به تفاوتصهای زبان فارسی و انگلیسی، قواعدی استخراج میصشوند تا پس از اعمال بر روی جملهصهای زبان مبدا) در اینجا زبان فارسی (ساختار این جملات را به ساختار زبان مقصد نزدیکصتر کنند .قواعد بدست آمده به صورت یک سیستم پیشصپردازشی عمل میصکند که در نهایت بدون نیاز به ایجاد تغییر در قسمت-های اصلی سیستم ترجمه ماشینی پایه، موجب بهبود کیفیت خروجی خواهد شد .بر اساس آزمایشصهای انجام شده برای بررسی کیفیت خروجی سیستم ترجمه حاصل با استفاده از سیستمصهای ارزیابی موجود، بهبود قابل قبولی نسبت به سیستم ترجمه ماشینی پایه بدست آمده است .روش انجام گرفته در این پایانصنامه منجر به بهبودی در حدود ۱۱/۱ درصد در معیار ارزیابی بلو و مقدار ۸۶/۱ درصد در معیارMeasure - Fشده است .همچنین در معیار ارزیابی TER کاهش ۶/۱ درصدی را مشاهده کردهصایم .کلمات کلیدی :ترجمه ماشینی آماری، بازسازی ساختاری، پردازش زبان طبیعی، زبانصشناسی رایانشی
Text of Note
Automated Translation from a natural language into another natural language using the computer is called machine translation. One of the methods that are used for translation from one language to another one is statistical machine translation. One of the main problems in statistical machine translation is the lack of large bilingual corpus, which leads to poor-quality output. However, all features of a language cannot be achieved with bilingual corpus solely and linguistics operations is required in statistical translation.Syntactic restructuring of the source sentences resembles the structure of target language. For example a noun and its adjective have different order in Persian and English. In this thesis, first, previous endeavors that are presented to improve statistical machine translation are compared. Embeded syntactic restructuring inside the translation systems are limited and are not very well for those language pairs that have very different structures. So we need other methods to handle that.The proposed approach in this thesis for Persian-English language pairs is based on a dependency parser. Our method incorporates linguistic knowledge into statistical machine translation system in order to improve the output of machine translation system. The first step in the proposed method, is that Persian side of parallel corpus is tagged using part of speech tagger. Then using a dependency parser for Persian language, dependency relationships between words are specified. Available Persian POS taggers have very good accuracy but this is not correct about Persian language parsers. Parsers play a major rule on the output of the translation system. The extent of the parsers, however, are less than POS taggers for Persian language. By the way, After tagging and specifying the dependency relationships between words, some rules are extracted and then applied to the source side of corpus to change its structure closer to the target language.Extracted rules operated as a pre-processing step to improve the output quality, without increasing the complexity of decoding. According to experiments which check the quality of the output of resulting system using available evaluation systems, acceptable improvements is achieved when translating from persian to english, compared to baseline translation system. In the end, we achieved improvement about 1.11 percent in BLEU measure and 1.86 improvement in F-Measure evaluation system. In addition, 1.6 declining error rates have seen in TER evaluation system.Keywords: Statistical Machine Translation, Syntactic Restructuring, Natural Language Processing, Computational Linguistic