استخراج ویژگی و خوشه بندی زیر کلمات چاپی فارسی به منظور کاهش دامنه جستجو در بازشناسی
[پایاننامه]
/صمد قنبری
دانشگاه صنعتی سهند
، ۱۳۸۹
۱۰۹ ص.
چاپی - الکترونیکی
کتابنامه در آخر پایان نامه
کارشناسی ارشد
مهندسی برق
دانشگاه صنعتی سهند
بازشناسی نوری حروف در زبان فارسی میتواند بر حسب شکل کلی زیرکلمات، بر حسب جداسازی حروف تشکیل دهنده و یا ترکیبی از اینها انجام پذیرد .در این پایاننامه یک خوشهبندی سلسله مراتبی دو سطحی برای کاهش دامنه جستجوی پایگاه داد زیرکلمات فارسی انجام گرفته است .در سطح اول از خوشهبندی، از بردار ویژگی حروف شاخص استفاده شده است که توسط این بردار ویژگی استخراجی، زیرکلمات فارسی از لحاظ حروف شاخص آغازین و انتهایی و همچنین تعداد بالا روندهها به ۲۰ خوشه ممکن دسته بندی شدهاند. سطح دوم از خوشهبندی سلسله مراتبی به چند روش انجام پذیرفته است .در روش اول، بردارهای ویژگی بوسیله تبدیل موجک دابیشز استخراج شده و ابعاد آنها توسط آنالیز جزء اصلی کاهش پیدا کرد .بردارهای ویژگی بدست آمده توسط روشk -میانگین خوشهبندی شدند .تعداد خوشههای بهینه ابتدا توسط چند روش سنجش اعتبار خوشههامورد ارزیابی قرار گرفته و در انتها بوسیله یک رابط پیشنهادی، محاسبه شدند .زیرکلمه ورودی بعد از استخراج بردارهای ویژگی بیان شده و طی مراحل خوشهبندی توسط معیار ماهالانوبیس به ۶ خوشه نزدیکتر اختصاص مییابد .در روش بعدی بردارهای ویژگی بدست آمده از تبدیل موجک توسط شبکههای عصبی خودسازمان، خوشهبندی شدند که با در نظر گرفتن تعداد ۳۰۰ مرحله برای آموزش، خوشههای قابل قبولی تولید شدند .لازم به ذکر است که تعداد خوشههای بهینه نیز در این مرحله توسط معیار سنجش اعتبار پیشنهادی مورد ارزیابی قرار گرفتند .روش دیگری که در خوشهبندی سلسله مراتبی سطح دوم انجام گرفته است، استفاده از بردار ویژگی مکان مشخصه بود .ویژگیهای استخراج شده به وسیله الگوریتمk-میانگین و با توجه به معیار اعتبار، خوشهبندی شدند که این روش در مقایسه با روش قبلی حجم محاسبه بیشتری داشت. روش بعدی که برای خوشهبندی سطح دوم مورد استفاده قرار گرفت، استفاده از ناحیههای بزرگ ایجاد شده توسط مقادیر مکان مشخصه و تولید بردار کد ۲۵۶ بعدی بود که در این روش بدلیل تولید خوشهها بوسیله بردار کد، نسبت به روش قبلی سرعت خوشهبندی بالاتری داشته و همچنین حساسیت به فونت در این روش کمتر بود.
شکل کلی زیر - کلمات
خوشهبندی
سنجش اعتبار خوشهها
استخراج ویژگیهای حروف شاخص
ویژگیهای مکان مشخصه
تبدیل موجک
الگوریتم k - میانگین
شبکههای عصبی خود سازمان
قنبری، صمد
ابرهیمی، افشین، استاد راهنما
ایران
20230805
برق،۱۰۰۹۲،۱۳۸۹
یسانشزاب رد وجتسج هنماد شهاک روظنم هب یسراف یپاچ تاملک ریز یدنب هشوخ و یگژیو جارختسا.pdf