#جداسازی متون چاپی فارسی و لاتین در اسناد دوزبانه با استفاده از پردازش تصویر سند
#۱۰۰ص.
1
#امروزه حجم زیادی از اسناد کاغذی موجود، توسط جاروبگرها یا دوربینها به اسناد تصویری دیجیتالی تبدیل میشوند .ذخیرهسازی، بازیابی و مدیریت کارآمد این شیوههای تصویری، در بسیاری از برنامهها نظیر اتوماسیون اداری و کتابخانههای دیجیتالی اهمیت فراوانی دارند .برای تبدیل اسناد تصویری به اسناد متنی از سیستمهای تشخیص اپتیکی حروف،OCR ، استفاده میشود .سیستمهای OCR تابع زبان متن بوده و با توجه به زبان از الگوریتمهای متفاوتی استفاده میشود .در سالهای اخیر، با توجه به گسترش سیستمهای OCR چند زبانه نیاز به ابزارهایی که قادر به تشخیص، بررسی و بازیابی منابع گفتاری و نوشتاری چند زبانه باشند، شدیدا افزایش پیدا کرده است .اما در اسناد چند زبانه اولین مرحله قبل از بازشناسی حروف، تشخیص نوع یا زبان متن است .الگوریتمهای مختلفی برای تشخیص نوع یا زبان متن ارائه شده است .در این پروژه ضمن مرور انواع روشهای شناسایی نوع زبان متن و بررسی تحقیقات صورت گرفته در این زمینه، دو روش جدید برای شناسایی نوع متون فارسی و لاتین در اسناد چاپی دو زبانه پیشنهاد شده است .با توجه به تفاوتهای موجود بین رسمالخط، در دو زبان فارسی و لاتین از جمله پیوستگی حروف در کلمات فارسی در مقابل گسستگی آن در لاتین و استفاده فراوان از خطوط منحنی در فارسی در مقابل خطوط شکسته و مورب در لاتین، به نظر میرسد استفاده از ویژگی انحناء در تمایز بین متونی از این دو زبان موثر واقع شود .بر این اساس در اولین روش پیشنهادی به بررسی ویژگی انحنا در دو رسمالخط فارسی و لاتین پرداختهایم .نتایج به دست آمده از تفاوت انحناء در این دو دستخط حکایت میکند .در روش پیشنهادی دوم با بهره بردن از خواص دیگر انحناء و نیز برخی ویژگیهای شکلی و ساختاری دیگر سعی کردهایم روش پیشنهادی قبل را تکمیل و عیوب و نواقص آن را برطرف نماییم .در هر دو روش پیشنهادی ابتدا شناسایی را در سطح اجزاء متصل انجام داده و سپس نشان دادهایم که با استفاده از شناسایی در این سطح میتوان آن را به سطوح بالاتر نیز تعمیم داد، که البته در هر دو روش، بیشتر شناسایی در سطح کلمه مد نظر قرار داشته است .نتایج تجربی و مقایسه الگوریتمهای پیشنهادی با سایر روشها نشاندهنده نتایج مناسب روشهای پیشنهادی میباشد .