#پیادهسازی روش نمایهسازی معکوس در محور زمان
#ه، ۴۸ ص.
1
#چکیده آرشیو های وب شامل آرشیو هایی از محتویاتی که در وب منتشر می شوند( مانند آرشیو اینترنت )و آرشیو هایی از محتویاتی که خیلی قبل تر منتشر شده اند و الان در وب قابل دسترسی اند( مانند آرشیو تایمز )می شوند .نگرانی های بوجود آمده برای حفظ و نگهداری محتویاتی که در وب تولید می شوند، باعث پیشرفت روش های دیجیتال سازی شده است که این موضوع به رشد آرشیو های وب از لحاظ تعداد و حجم انجامیده است .توجه در آرشیو اینترنت و آرشیو تایمز که به آنها اشاره کردیم، دو مشخصه ی مهم آرشیو های وب و چالش هایی که در مواجهه با آن ها بوجود می آیند را نمایان می سازد .نخست اینکه آرشیو های وب اغلب حجیم اند و میلیون ها و شاید بیلیون ها سند را در بر می گیرند .دیگر آنکه این آرشیو ها اغلب دوره های زمانی بلندی را پوشش می دهند. (اولین اسناد در آرشیو تایمز در سال 1785 منتشر شدند )تکنیک های معمول جستجو، این خصوصیات ویژه آرشیو های وب را در نظر نمی گیرند .بنابراین برای نشان دادن تمام مجموعه های آرشیو های وب و تبدیل آنها به منابعی ارزشمند، به ابزارهای کارآمد و موثر برای دسترسی و جستجوی آنها نیازمندیم .سه مس╩له پیشروی این هدف قرار دارند که باید مورد توجه قرار گیرند .پشتیبانی مأثر از جستجوی متنی در محور زمان مس╩له اول است که به آن اشاره می کنیم .جستجوی متنی در محور زمان به کاربران این امکان را می دهد که جستارهایی را ایجاد کنند که بعد زمانی مورد نظر آنها را نیز در بر می گیرد و از طریق آن در قسمتی از اسناد که در زمانی خاص قرار داشته اند، جستجو ممکن است .مثلا برای دستیابی به اسناد قدیمی مربوط به fifa world cup 2002 کاربر باید جستار fifa world cup 2002@july 2002 را ایجاد کند تا فقط به اسناد مربوط به آن دوره ی زمانی دسترسی پیدا کند .ما روش TTIX را به عنوان روشی کارآمد برای جستجوی متنی در محور زمان معرفی می نماییم . TTIXبر اساس IX ساختار یافته درست می شود و آن را برای ثبت داده در زمانی که با ارزش بوده است، گسترش می دهد .برای مورد ملاحظه قرار دادن حجم بزرگ آرشیو های وب که در بالا به آن اشاره شد، تکنیک های همپوشانی زمانی را معرفی می کنیم که اندازه نمایه را با همپوشانی حشو های زیاد بین انواع اسناد، بطور اساسی کاهش می دهد .بعلاوه تکنیک های که تنظیم TTIX را با توجه به ملزومات اجرایی یا محدودیت های حجمی، با استفاده از قسمت بندی و تکرار کردن داده ها در طول محور زمان ممکن می سازند، توضییح می دهیم .تمامی تکنیک های همپوشانی و استراتژی های قسمت بندی، بعنوان مسائل بهینه سازی، فرمول بندی خواهند شد .همچنین الگوریتم هایی برای حل بهینه یا شاید تقریبی آنها ارائه می دهیم .ممکن است لغت شناسی نیز در گذر بطور قابل ملاحظه ای دچار تحول شود .در نتیجه ی این پیشرفت لغت شناسی، فاصله ی زیادی بین لغاتی که امروزه کاربران برای تولید جستار ها بکار می برند و لغات اسناد آرشیو شده ی قدیمی به وجود می آید .زمانیکه از تکنیک های بازیابی امروزی استفاده می کنیم، اسناد قدیمی ولی بسیار مرتبط با جستاری که تولید می شود، در پاسخ گویی به جستار نادیده در نظر گرفته می شوند .مثلا برای جستار saint Petersburg museums اسناد موجود در سال 1970 در رابطه با leningerad اغلب پیدا نمی شوند .روش هایی نیز برای حل این مشکل وجود دارند .مس╩له سوم نیاز های اطلاعاتی زمانی است .که در بعضی موارد به اسنادی که فقط به یک دوره ی زمانی خاص اشاره میکنند، نیاز داریم .روش های بازیابی معمول به دلیل اینکه به اطلاعات زمانی موجود در اسناد دقت نمی کنند، اغلب این نیاز های اطلاعاتی زمانی را در نظر نمی گیرند .در این پروژه برای آشنایی بیشتر با مفاهیم و استفاده کاربردی از آن ها، از نرم افزار های code block و nusphere phped برای اجرا و عیب یابی کد ها استفاده شده است .همچنین یک وب سرور مجازی xampp نیز در درایو کامپیوتر برای تست و اجرای مفاهیم نصب شد .که یک موتور جستجو yioop که از روش نمایه سازی معکوس استفاده می کند در آن نصب گردید و نحوه ی خیزش در وب و ایجاد پایگاه داده و اندیس سازی از اسناد و سپس جستجو بر اساس آن ها در آن تجربه و مشاهده گردید .