عنوان

بازسازی ساختاری به منظور بهبود بخشیدن به ترجمه ماشینی آماری فارسی به انگلیسی

پدید آورنده

/مهدی رحیمی

موضوع

رده

کتابخانه

کتابخانه مرکزی و مرکز اسناد و انتشارات دانشگاه تبریز

محل استقرار

استان: آذربایجان شرقی ـ شهر: تبریز

تماس با کتابخانه : 04133294120-04133294118

شماره کتابشناسی ملی

شماره

‭۱۴۲۰۰پ‬

زبان اثر

زبان متن نوشتاري يا گفتاري و مانند آن

per

عنوان و نام پديدآور

عنوان اصلي

بازسازی ساختاری به منظور بهبود بخشیدن به ترجمه ماشینی آماری فارسی به انگلیسی

نام نخستين پديدآور

/مهدی رحیمی

وضعیت نشر و پخش و غیره

نام ناشر، پخش کننده و غيره

: مهندسی برق و کامپیوتر

تاریخ نشرو بخش و غیره

، ‮‭۹۴‬

یادداشتهای مربوط به نشر، بخش و غیره

متن يادداشت

چاپی

یادداشتهای مربوط به پایان نامه ها

جزئيات پايان نامه و نوع درجه آن

کارشناسی ارشد

نظم درجات

مهندسی برق و کامپیوتر، نرم افزار

زمان اعطا مدرک

‮‭۱۳۹۴/۰۶/۲۵‬

کسي که مدرک را اعطا کرده

تبریز

یادداشتهای مربوط به خلاصه یا چکیده

متن يادداشت

ترجمه خودکار از یک زبان طبیعی به زبان طبیعی دیگر با استفاده از کامپیوتر را ترجمه ماشینی می‌صنامند .یکی از روشهایی که برای ترجمه از یک زبان به زبان دیگر بکار می‌صرود، روش ترجمه ماشینی آماری است .از مشکلات اساسی در رابطه با ترجمه ماشینی آماری وجود نداشتن پیکره دو زبانه بزرگ است که منجر به دستیابی به خروجی‌صهایی با کیفیت نامطلوب شده است .البته تنها با پیکره‌صهای دو زبانه نمی توان تمام ویژگی های زبانی را بدست آورد و نیاز به عملیات زبان‌صشناسی در ترجمه آماری احساس می-شود .فرایند بازسازی ساختاری به معنی تطبیق دادن ترتیب کلمات ترجمه شده به ترتیب کلمات در زبان مقصد است .به عنوان مثال می‌صتوان به تفاوت بین ترتیب موصوف-صفت در زبان فارسی و صفت-موصوف در زبان انگلیسی اشاره کرد .در این پایان‌صنامه ابتدا به بررسی و مقایسه روش‌صهای بازسازی ساختاری که با هدف بهبود بخشیدن به کیفیت سیستم‌صهای ترجمه آماری انجام شده‌صاند، پرداخته شده است .بازسازی‌صهای ساختاری که به صورت داخلی در سیستم‌صهای ترجمه آماری انجام می‌صشوند محدود هستند و برای جفت زبان-هایی که تفاوت‌صهای ساختاری زیادی با هم دارند به اندازه کافی مناسب نیستند .بنابراین نیاز به تکنیک-های بیشتری در این زمینه احساس می‌صشود .روش پیشنهاد شده در این پایان‌صنامه که برای جفت زبان-های فارسی و انگلیسی طراحی شده است از ویژگی‌صها و قواعد زبانی استفاده می‌صکند تا خروجی بهتری را در ترجمه از زبان فارسی به انگلیسی نتیجه دهد .در اولین گام در انجام روش پیشنهادی، قسمت فارسی پیکره دو زبانه با استفاده از برچسب‌صگذار اجزای سخن، برچسب‌صگذاری می‌صشود .سپس با استفاده از تجزیه‌صگر وابستگی برای زبان فارسی، روابط وابستگی بین کلمات در جملات قسمت فارسی پیکره نیز مشخص می‌صشوند .برچسب‌صگذارهای موجود برای زبان فارسی دارای دقت بسیار مناسبی هستند و از این نظر در کاهش کیفیت خروجی نهایی سیستم تاثیرگذاری منفی نخواهند داشت اما در مورد تجزیه‌صگرهای زبان فارسی این مورد خیلی صحیح نیست و دقت تجزیه‌صگرها در کیفیت خروجی سیستم تاثیرگذاری بیشتری خواهند داشت و از طرفی گستردگی تجزیه‌صگرهای وابستگی برای زبان فارسی به اندازه برچسب-گذارها نیست .بعد از برچسب‌صگذاری و مشخص کردن روابط وابستگی میان کلمات، با توجه به تفاوت‌صهای زبان فارسی و انگلیسی، قواعدی استخراج می‌صشوند تا پس از اعمال بر روی جمله‌صهای زبان مبدا) در اینجا زبان فارسی (ساختار این جملات را به ساختار زبان مقصد نزدیک‌صتر کنند .قواعد بدست آمده به صورت یک سیستم پیش‌صپردازشی عمل می‌صکند که در نهایت بدون نیاز به ایجاد تغییر در قسمت-های اصلی سیستم ترجمه ماشینی پایه، موجب بهبود کیفیت خروجی خواهد شد .بر اساس آزمایش‌صهای انجام شده برای بررسی کیفیت خروجی سیستم ترجمه حاصل با استفاده از سیستم‌صهای ارزیابی موجود، بهبود قابل قبولی نسبت به سیستم ترجمه ماشینی پایه بدست آمده است .روش انجام گرفته در این پایان‌صنامه منجر به بهبودی در حدود ‮‭۱۱/۱‬ درصد در معیار ارزیابی بلو و مقدار ‮‭۸۶/۱‬ درصد در معیار‮‭Measure - F‬شده است .همچنین در معیار ارزیابی ‮‭TER‬ کاهش ‮‭۶/۱‬ درصدی را مشاهده کرده‌صایم .کلمات کلیدی :ترجمه ماشینی آماری، بازسازی ساختاری، پردازش زبان طبیعی، زبان‌صشناسی رایانشی

متن يادداشت

Automated Translation from a natural language into another natural language using the computer is called machine translation. One of the methods that are used for translation from one language to another one is statistical machine translation. One of the main problems in statistical machine translation is the lack of large bilingual corpus, which leads to poor-quality output. However, all features of a language cannot be achieved with bilingual corpus solely and linguistics operations is required in statistical translation.Syntactic restructuring of the source sentences resembles the structure of target language. For example a noun and its adjective have different order in Persian and English. In this thesis, first, previous endeavors that are presented to improve statistical machine translation are compared. Embeded syntactic restructuring inside the translation systems are limited and are not very well for those language pairs that have very different structures. So we need other methods to handle that.The proposed approach in this thesis for Persian-English language pairs is based on a dependency parser. Our method incorporates linguistic knowledge into statistical machine translation system in order to improve the output of machine translation system. The first step in the proposed method, is that Persian side of parallel corpus is tagged using part of speech tagger. Then using a dependency parser for Persian language, dependency relationships between words are specified. Available Persian POS taggers have very good accuracy but this is not correct about Persian language parsers. Parsers play a major rule on the output of the translation system. The extent of the parsers, however, are less than POS taggers for Persian language. By the way, After tagging and specifying the dependency relationships between words, some rules are extracted and then applied to the source side of corpus to change its structure closer to the target language.Extracted rules operated as a pre-processing step to improve the output quality, without increasing the complexity of decoding. According to experiments which check the quality of the output of resulting system using available evaluation systems, acceptable improvements is achieved when translating from persian to english, compared to baseline translation system. In the end, we achieved improvement about 1.11 percent in BLEU measure and 1.86 improvement in F-Measure evaluation system. In addition, 1.6 declining error rates have seen in TER evaluation system.Keywords: Statistical Machine Translation, Syntactic Restructuring, Natural Language Processing, Computational Linguistic

نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )

مستند نام اشخاص تاييد نشده

رحیمی، مهدی

نام شخص - ( مسئولیت معنوی درجه دوم )

مستند نام اشخاص تاييد نشده

فیضی درخشی، محمدرضا، استاد راهنما

مستند نام اشخاص تاييد نشده

انصارین، علی‌اکبر، استاد مشاور

وضعیت فهرست نویسی

نمایه‌سازی قبلی

عنوان بازسازی ساختاری به منظور بهبود بخشیدن به ترجمه ماشینی آماری فارسی به انگلیسی

پدید آورنده /مهدی رحیمی

موضوع

رده

کتابخانه کتابخانه مرکزی و مرکز اسناد و انتشارات دانشگاه تبریز

محل استقرار استان: آذربایجان شرقی ـ شهر: تبریز

شماره کتابشناسی ملی

زبان اثر

عنوان و نام پديدآور

وضعیت نشر و پخش و غیره

یادداشتهای مربوط به نشر، بخش و غیره

یادداشتهای مربوط به پایان نامه ها

یادداشتهای مربوط به خلاصه یا چکیده

نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )

نام شخص - ( مسئولیت معنوی درجه دوم )

وضعیت فهرست نویسی

عنوان

بازسازی ساختاری به منظور بهبود بخشیدن به ترجمه ماشینی آماری فارسی به انگلیسی

پدید آورنده

/مهدی رحیمی

کتابخانه

کتابخانه مرکزی و مرکز اسناد و انتشارات دانشگاه تبریز

محل استقرار

استان: آذربایجان شرقی ـ شهر: تبریز