بررسی اثر روش های پیش-پس پردازش داده ها در برآورد عدم قطعیت پیش بینی های مبتنی بر هوش مصنوعی فرایندهای هیدروکلیماتولوژی
نام نخستين پديدآور
مینا سیاح فرد
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
عمران
تاریخ نشرو بخش و غیره
۱۴۰۱
مشخصات ظاهری
نام خاص و کميت اثر
۲۴۲ص.
مواد همراه اثر
سی دی
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
دکتری
نظم درجات
عمران گرايش آب و سازه های هیدرولیکی
زمان اعطا مدرک
۱۴۰۱/۰۵/۰۴
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
پیش¬بینی¬های نقطه¬ای فرآیندهای تصادفی، نظیر فرایند¬های هیدروکلیماتولوژیکی، با استفاده از روش¬های مبتنی بر هوش مصنوعی (AI) همراه با عدم ¬قطعیت است. علاوه بر این، عملکرد مدلهای داده محور و همچنین عدم¬ قطعیت آنها وابستگی شدیدی به کیفیت و کمیت داده¬های استفاده شده دارد. هدف اصلی تحقیق حاضر تعیین عدم¬ قطعیت پیش¬بینی¬های نقطه¬ای فرایند¬ تبخیر و شاخص استاندارد بارش (SPI) مبتنی بر مدل¬های AI با استفاده از آنالیز فواصل پیش¬بینی (PIs) و در حضور روش¬های پیش¬پردازش داده¬ها می¬باشد. شبکه عصبی مصنوعی(ANN)، سيستم استنتاج تطبيقي عصبي- فازي(ANFIS) و ماشین بردار پشتیبان(SVM) در راستای مدلسازی فرایندهای هیدروکلیماتوژیکی مورد بررسی استفاده شده¬اند. روشهای پیش¬پردازش داده شامل حذف نوفه مبتنی بر موجك (WD)، آموزش با داده¬های جیتر شده (JD) یا جیترینگ و همچنین تركیب این دو روش (HWDJD) به منظور بررسی اثرات کاهش عدم قطعیت خروجی مورد ارزیابی قرار گرفتند. در ساخت PIs از روش¬های بوت استرپ (BS)، تخمین میانگین-واریانس (MVE)، روش دلتا به عنوان روش¬های سنتی تخمین PIs و روش جدید تخمین باند پایین-بالا (LUBE) استفاده و نتایج انها مقایسه شده است. برای دستیابی به بهترین PIs نتایج حاصل از مدلهای مختلف از طریق تکنیک¬های خطی و غیر¬خطی با یکدیگر تجمیع شده¬اند. از آنجا که کارآیی هر مدل AI و به تبع آن، کیفیت آنالیز عدم قطعیت همراه با آن به انتخاب صحیح متغیرهای ورودی حساس است، آنالیز حساسیت مبتنی بر مشتقات جزئی (PaD) مرتبه اول به عنوان یکی از رایج¬ترین تکنیک¬های آنالیز حساسیت برای انتخاب ورودی¬های غالب در بین همه متغیرهای ورودی بالقوه استفاده شده است. نتایج حاصل نشانگر توانایی خوب و نتایج مناسب روش¬های BS و LUBE در برآورد مرزهای عدم قطعیت است با این وجود تکنیک LUBE مزیت¬هایی نسبت به روش¬ سنتی BS دارد که به عنوان تکنیک برتر می¬تواند معرفی گردد. روش دلتا در برخی از موارد مطالعاتی به علت باندهای باریکی که ایجاد کرده استانه پوشش مورد نظر را تامین نکرده است. روش MVE نیز به علت تولید باندهای گسترده از نظر علم عدم قطعیت اطلاعات ارزشمندی را منتقل نمی¬کند. اثرات عدم ¬قطعیت بردارهای ورودی روی خروجی مدل¬های AI در استفاده از روش¬های پیش¬ پردازش WDو HWDJD برای بردار ورودی در مدل¬سازی اکثریت فرایندهای هیدروکلیماتوژیکی مورد بررسی کاهش چشمگیری از خود نشان داده است. از میان روش¬های پیش پردازش استفاده شده تکنیک JD کمترین اثر را داشته و در برخی موارد جوابی نامناسب¬تر از تغذیه مدل¬ها با بردار ورودی پردازش نشده تولید کرده است. از نتایج استنباط می¬شود که تاثیر پیش پردازش بردار ورودی روی کاهش میزان عدم قطعیت خروجی مدلها در مدلسازی فرایند خشکسالی با شاخص SPI که وابسته به متغیر اقلیمی بارش می¬باشد، بیشتر از مدلسازی فرایند تبخیر بوده است. می¬توان اینطور توجیه کرد که فرایند بارش و خشکسالی وابسته به ان (در پایش با شاخص SPI) به ذات خود تصادفی¬تر از فرایند تبخیر در طبیعت به وقوع می¬پیوندد و مولفه تصادفی این فرایند نوسانی¬تر از مولفه تصادفی فرایند تبخیر است و لذا پیش پردازش بردار ورودی که در حقیقت بر مولفه تصادفی فرایندها اعمال شده است در کاهش میزان نوسانات این مولفه در فرایند خشکسالی و لذا افزایش کیفیت PIs بیشتر نمود پیدا کرده است. استفاده از تکینک LUBE مبتنی بر مدلهای مختلف AI در بخش دوم مطالعاتی، نیز نشان میدهد محتوای عدم قطعیت خروجی مدلهای مختلف متفاوت بوه است که در این راستا و در وضعیت تغدیه مدلها با بردارهای ورودی پردازش نشده، LUBE مبتنی بر مدل SVR در 49.83% در مجموع فرایندهای مطالعاتی و در ایستگاه¬های مختلف منجر به ساخت باکیفیت ترین PIs شده است. با پردازش بردار ورودی عدم قطعیت خروجی مدلها به لحاظ رتبه بندی در ساخت باکیفیت¬ترین PIs دچار تغییری شده است که می¬تواند نشان دهنده حساسیت بیشتر و کمتر مدلها نسبت به حضور نویز در بردار ورودی باشد (پخش خطا و نویز بردار ورودی در ساختار مدل¬های مختلف متفاوت است). در این راستا و در تغذیه مدلها با بردار ورودی در وضعیت HWDJD، مدل ANN در 37.50% مجموع فرایندهای مطالعاتی و در ایستگاه¬های مختلف منجر به ساخت باکیفیت ترین PIs شده است. اقلیم هر ایستگاه بطور غیر مستقیم از طریق انتخاب متغیرهای موثر به مدلسازی¬ها بر PIs حاصل اثر گذار بوده است. بدین معنی که متغیر موثرتر در شکل گیری فرایندها وابسته به اقلیم ایستگاه انتخاب شده است لذا چنانچه بردار ورودی منتخب کیفیت مناسبی نداشته باشد، PIs متاثر از این بردار ورودی انتخاب شده می¬توانند دست بالا و یا دست پائین تخمین زده شده باشند. همچنین علاوه بر عرض بردار ورودی، طول بردار ورودی نیز می¬تواند کیفیت PIs را تحت تاثیر قرار دهد بطوریکه بنا به نتایج طول بردار ورودی کوتاه در ایستگاه اردبیل نسبت به سایر ایستگاه¬ها منجر به PIs با کیفیت نامناسب تر در این ایستگاه نسبت به سایر ایستگاه¬ها شده است. افزایش عرض بردار ورودی در بهترین حالت یعنی HWDJD نیز منجر به افزایش کیفیت PIs بوده است که باز این موضوع برای فرایند خشکسالی به لحاظ نوسانات بیشتر مولفه تصادفی ان بیشتر از فرایند بارش نمود داشته است. همچنین استفاده از تجمیع غیرخطی نتایج مدلهای مختلف منجر به یافتن PIs با باندهای باریک¬تر و بهنیه¬تر شده است بطوری که PIs ساخته شده بعد از پیش پردازش بردار ورودی نیز دست بالاتر از نتایج این قسمت تخمین زده شده بودند. در کلیه نتایج حاصل در رساله حاضر زمانی که PICP یا پوشش باند بالاتر از میزان آستانه مورد نظر بدست آمده است و سپس در نتایج پیش و یا پس پردازش بردار ورودی دچار تغییر شده و پاره¬ای از نقاط خروج از باند داشته¬اند (ولی همچنان پوشش آستانه باند تامین شده است) می¬توان اینطور استنباط کرد که باند اولیه دست بالاتر تخمین زده شده بود و قادر به تفکیک نقاطی نبوده که در کلاس اطمینان 95% (و یا 90% برابر با آستانه پوشش موردنظر) قرار نداشته¬اند و عدم قطعیت بالاتر از آستانه درنظر گرفته شده داشته¬اند که با پیش پردازش بردار ورودی و یا پس پردازش PIs این نقاط تفکیک شده و به خارج باند کشیده شده¬اند. در صورت عدم تغییر مقادیر PICP بالای آستانه پوشش مورد نظر در اثر کاهش عرض باند ( در نتیجه روش¬های مختلف) نیز می¬توان استنباط کرد که همگنی داده¬ها بیشتر از آستانه 95% بوده یا به عبارتی محتوای عدم قطعیت نقاط به یکدیگر نزدیک بوده است.
متن يادداشت
The point predictions of stochastic processes by data-driven methods are associated with uncertainties. Furthermore, the performance of data-driven models, as well as their uncertainty, are dependent on the quality and quantity of the used data. The main aim of this research is to determine the uncertainty of evaporation process point predictions and standard SPI precipitation index based on AI models using Prediction Intervals (PIs) analysis in the presence of preprocessing methods. Artificial Neural Network (ANN), Adaptive-Network-based Fuzzy Inference System (ANFIS), and Support-Vector Regression (SVR) were used as AI-based models. PIs were constructed using Lower-Upper-Bound Estimation (LUBE), Delta, bootstrap (BS), and Mean-Variance Estimation (MVE) techniques. Data pre-processing methods i.e. Wavelet-based Denoising (WD), training with Jitted Data (JD), and also their combination i.e. Hybrid Wavelet Denoising and Jitted Data (HWDJD) were applied to examine their effects on PIs width. To find the optimal bands, because of the fluctuation of PIs resulting from models, linear and nonlinear aggregating methods have been used to handle this goal. Since the efficiency of any AI model and consequently, the robustness of the uncertainty analysis is sensitive to the correct selection of input variables, the first order Partial Derivation (PaD) sensitivity analysis method has also been used to select dominant inputs among all potential input variables. The results show the good ability and appropriate results of the BS and LUBE methods in estimating the uncertainty limits, however, the LUBE technique has advantages over the traditional BS method, which can be introduced as a superior technique. In some cases, PIs constructed by the delta method have not reached the threshold of coverage. Due to the wide bands, the MVE method has no informational value in terms of uncertainty science. Reducing output uncertainty as a result of pre-processing of Input vector through WD and HWDJD techniques was outstanding in most cases also the least effect was in applying the JD method. Finally, optimal PIs were achieved through non-linear post-processing methods. From the results, it can be concluded that the effect of pre-processing of the input vector on reducing the uncertainty of the model output of the drought process with the SPI index, which is dependent on the climatic variable of precipitation, was more than that of the modeling of the evaporation process. It can be justified that the process of precipitation and drought linked to it (monitored by the SPI index) is inherently more random than the evaporation process in nature (its random component is more fluctuating than the random component of the evaporation process) so the pre-processing of the input vector, which is applied to the random component of the processes, has been manifested in reducing the fluctuation of this component in the drought process and therefore increasing the quality of PIs. The use of the LUBE technique based on different AI models in the second part of the study also shows that the uncertainty content of the output of any models was different. In this direction and in the state of feeding the models with unprocessed input vectors, LUBE based on the SVR model has led to the construction of the highest quality PIs in 49.83 % of the total study processes and different stations. By processing the input vector, the ranking of models in terms of the construction of the highest quality PIs was changed which can indicate the different sensitivity of models to the presence of noise in the input vector (error propagation in form of the input vector noise in the structure of models are different). In this direction and in feeding the models with the input vector in the HWDJD state, the ANN model has led to the construction of the highest quality PIs in 37.50 % of the total study processes and different stations. The climate of each station has indirectly influenced the resulting PIs through the selection of effective variables for modeling. This means that the most effective variable in the formation of the processes depends on the climate of the selected station. Therefore, if the selected input vector does not have a suitable quality, the PIs affected by this selected input vector can be overestimated or underestimated. In addition to the width of the input vector, the length of the input vector can also affect the quality of PIs, so according to the results, the length of the input vector was short in Ardabil station compared to other stations, leading to poor quality PIs in this station compared to others. Increasing the width of the input vector in the best case, i.e., HWDJD has also led to an increase in the quality of PIs, which was more evident for the drought process in terms of more fluctuations in its random component than for the evaporation process. So that the PIs made after the pre-processing of the input vector were overestimated than the results of this part. In all the results obtained in this dissertation, when the initial PICP was higher than the desired threshold value, and after the pre-post-processing results of the input vector the PICP have reduced and some of the points were got out of the band (but the coverage of the band threshold was still provided), so it can be concluded that the initial band was overestimated initially and was not able to separate the points with higher uncertainty than the desired threshold confidence, which these points were drawn out of the band by the pre-processing of the input vector or the post-processing of PIs. If the PICP above the desired threshold values does not change as a result of the reduction of bandwidth, it can also be inferred that the homogeneity of the data is greater than the desired threshold, or in other words, the uncertainty content of the points has been close to each other.
عنوانهای گونه گون دیگر
عنوان گونه گون
Investigating the effect of data pre-post processing methods on estimating the uncertainty of AI-based predictions of hydroclimatic processes
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )