استخراج ویژگیهای زیر کلمات چاپی فارسی با استفاده از توصیفگرهای موجک
[پایاننامه]
/سمیرا نصرالهی
دانشگاه صنعتی سهند
، ۱۳۸۹
۱۴۶ ص.
چاپی - الکترونیکی
کتابنامه در آخر پایان نامه
کارشناسی ارشد
مهندسی برق
دانشگاه صنعتی سهند
برای بازشناسی متون چاپی فارسی، به طور کلی از دو روش مبتنی بر جداسازی و مبتنی بر تحلیل شکل کلی کلمه استفاده میشود .از آنجا که سبک نگارش متن فارسی به گونهای است که حروف الفبا روی خط زمینه به طور پیوسته به هم نوشته میشوند، استفاده از روشهای بازشناسی بر اساس تحلیل شکل کلی کلمات، از نتایج بهتری برخوردار است .در این روشها اولا ویژگیهایی که شکل کلی زیرکلمات را توصیف میکنند، استخراج میشوند .سپس برای شناسایی زیرکلمه، به جستجوی زیرکلمات مشابه با کلمهی ورودی، بر اساس ویژگیهای توصیفگر شکل، در یک واژه نامه تصویری پرداخته میشود.در این پایاننامه دو روش برای استخراج ویژگیهای زیرکلمات چاپی فارسی مبتنی بر شکل کلی آنها ارائه شده است .با این دو روش پیشنهادی، ویژگیهای ثابت اندازه و قلم برای همهی زیرکلمات با ۴ قلم زر، میترا، لوتوس و نازنین، و ۳ اندازهی ۱۲ ، ۱۴ و ۱۶ محاسبه شدند .ویژگیهای بدست آمده برای همهی زیرکلمات در هر روش، در یک واژه نامه تصویری ذخیره شدند که این واژه نامهها در بازشناسی متون چاپی برای شناسائی زیرکلمهی ورودی استفاده میشوند. با نتایج حاصل از آنها در بازشناسی متون چاپی، بالاترین نرخ بازشناسی با استفاده از این ویژگیها گزارش شده است .الگوریتم اول استخراج ویژگیهای زیرکلمه بر اساس ضرائب تقریب سطح سوم تبدیل موجک هار است که بدون جداسازی زیرکلمه به حروف تشکیل دهندهی آن، ویژگیهای زیرکلمه استخراج میشود و یک کد رقمی برای هر زیرکلمه ساخته میشود .این کدها برای همهی زیرکلمات محاسبه شده و در واژه نامه ذخیره میشود. در الگوریتم دوم از تبدیل بستهی موجک برای استخراج ویژگیهای زیرکلمات استفاده شده است .در این الگوریتم ضرائب زیرباند سطح [۰ ۲] تبدیل بستهی موجک با تابع موجک سیملت ۸ بعنوان ویژگیهای زیرکلمه بدون جداسازی آن به حروف سازندهی زیرکلمه استخراج شدهاند .ویژگیهای زیرکلمات به صورت یک کد رقمی برای همهی زیرکلمات محاسبه شده و در واژه نامه ذخیره میشوند. برای بازشناسی زیرکلمات چاپی فارسی و بازشناسی متون چاپی با استفاده از این ویژگیها یک مرحله پسپردازش به نام استفاده از کد نقاط زیرکلمات به الگوریتم بازشناسی زیرکلمه افزوده میشود .بعد از استخراج ویژگیهای زیرکلمهی ناشناس ورودی و مقایسهی آن با ویژگیهای زیرکلمات واژه نامه، یک رتبهبندی از زیرکلمات با ویژگیهای مشابه ویژگیهای زیرکلمهی ناشناس بدست میآید .در مرحلهی آخر برای بازشناسی نهائی زیرکلمهی ورودی، کد نقاط آن محاسبه شده و با کد نقاط ۱۰ زیرکلمهی آخر مرحلهی قبل مقایسه میشود .اولین زیرکلمه با کد نقطه مشابه زیرکلمهی ناشناس، بعنوان زیرکلمهی صحیح بازشناسی میشود. برای ارزیابی ویژگیهای بدست آمده از هر دو الگوریتم پیشنهادی، آزمایشهایی برای بازشناسی زیرکلمات چاپی فارسی پایگاه داده و بازشناسی متون چاپی فارسی در پنج قلم زر، میترا، لوتوس، نازنین و یاقوت و چهار اندازهی۱۲ ،۱۴ ، ۱۶ و ۱۸ طراحی شدند .با تحلیل نتایج حاصل از هر دو الگوریتم، نرخ بازشناسی متون چاپی تا حد قابل قبولی بالا بوده است.