Journal of Watershed Management Research

fa ارزیابی روش‎ های تشخیص و بازسازی مقادیر پرت و گمشده در سری داده‌های هیدرولوژیکی حوزه آبخیز زرینه‌رود، دریاچه ارومیه An Evaluation of Techniques for Outlier Detection and Missing Values Imputation of Hydrological Data Series in the Zarrineh-Roud Basin, Lake Urmia هيدرولوژی هيدرولوژی پژوهشي Research <div style="text-align: justify;">چکیده مبسوط مقدمه و هدف: اندازه‌گیری‌های جریان رودخانه و داده‌های آن در مدیریت منابع آب، کنترل سیل، حفاظت و احیای رودخانه، بازسازی جریان اهمیت ‌بسزایی دارند. اکثر طرح‌های کنترل سیل و دبی طراحی در پروژه‌های مدیریت و احیای رودخانه توسط تحلیل‌های هیدرولوژیکی و هیدرولیکی مبتنی بر دبی مشاهداتی حوزه تخمین زده می‌شوند. پایه مطالعات هیدرولوژیکی به داده‌های آماری مشاهداتی وابسته است و این داده‌ها در اغلب موارد دارای خطاهای متعدد هستند. داده پرت داده‌ای است که از نرم طبیعی فاصله گرفته است و باعث بروز خطا در محاسبات می‌شود. روش‌های تشخیص داده‌های پرت شامل روش‌های نظارت&lrm; شده، نیمه نظارت&lrm; شده و نظارت&lrm; نشده هستند و برخی روش‌های مبتنی بر توزیع، مبتنی بر خوشه‌بندی و مبتنی بر چگالی را شامل می‌شوند. به&lrm; دلیل خطای محاسباتی، مقادیر صحیح خاص، گزارش اشتباه و یا خطای نمونه&lrm;برداری و همچنین به دلیل خطاهای انسانی و ابزاری ممکن است مواردی مانند ثبت نشدن آمار، ثبت آمار غلط، خرابی یا ازبین رفتن دستگاه&lrm;های اندازه‌گیری یا تشخیص داده‌های پرت و حذف آن&lrm;ها با عنوان داده&lrm;های گم‌شده پیش آید. بنابراین، تخمین و برآورد این داده&lrm;ها برای استفاده در مدل&lrm;ها ضروری است و به منظور کاهش بروز خطا باید پیش از به کارگیری آن&lrm;ها پیش&lrm; پردازش صورت گیرد. عملیات پیش &lrm;پردازش، سری داده&lrm; را برای محاسبات از جمله کلاسه&lrm;بندی، پیش&lrm;بینی و تخمین آماده می&lrm;کند و شامل حذف داده&rlm; های گم&lrm;شده، حذف داده&lrm;های پرت، بازسازی مقادیر گم&lrm;شده، و نرمال&lrm;سازی داده&lrm;ها است. مواد و روش&lrm;ها: در این تحقیق، به&lrm; منظور تشخیص داده‌های پرت و بازسازی داده‌های گمشده و ناقص سری زمانی داده&lrm;های هیدرولوژی، داده‌های دبی ماهانه شش ایستگاه هیدرومتری و داده‌های اقلیمی 16 ایستگاه باران‌سنجی در حوزه زرینه&lrm;رود در نرم&lrm;افزار R برنامه‌نویسی و مورد بررسی قرار گرفتند. حوزه آبخیز زرینه&lrm;رود بزرگترین حوضه آبخیز دریاچه ارومیه است. به&lrm; منظور آزمون نرمال‌ بودن داده‌ها از آزمون‌ شاپیرو-ویلک و کولموگروف-اسمیرنف استفاده گردید که مطابق نتایج به&lrm; دست آمده داده‌های مورد استفاده دارای توزیع نرمال نبودند و پس از نرمال‌سازی داده‌ها محاسبات داده‌های پرت به روش‌های نمودار جعبه‌ای، z-score، هیستوگرام، مربع کای، میانگین و انحراف معیار و روش میانه انجام شد و داده&rlm; هایی که از بالاترین مقدار مشخص &lrm;شده بیشتر بودند حذف گردیدند. به‌منظور نسبت‌دهی و جایگذاری مقادیر گمشده از الگوریتم&lrm;های KNN، رگرسیون لاسو و رگرسیون خطی بیزین استفاده گردید. روش رگرسیون لاسو یک روش منظم&lrm;سازی است که هدف آن کاهش پیچیدگی مدل و جلوگیری از بیش برازشی است. رگرسیون خطی بیزین نوعی تحلیل آماری است که ترکیبی از روش‌های رگرسیون خطی و بیزین را استفاده می‌کند. الگوریتم KNN یکی از روش&lrm;های مبتنی بر نمونه است که با مدل&lrm;های ناپارامتری و طبقه&lrm;بندی یادگیری نظارت&lrm; شده ارتباط دارد. برای ارزیابی دقت الگوریتم&lrm;های نسبت&lrm;دهی داده&lrm;های گمشده از روش Cross Validation استفاده گردید و در ادامه، جهت محاسبه دقت روش‌های تخمین از دو معیار RMSE و R2 استفاده شد. یافته&lrm;ها: نتایج آماری حاصل نشان می‌دهند که مقادیر p-value در هر شش ایستگاه مورد مطالعه کمتر از 0/05 بودند. به‌منظور ارزیابی صحت و دقت روش KNN از اعتبارسنجی متقابل استفاده گردید. مقادیر RMSE کمتر و نزدیک به صفر و R2 بالاتر از 0/7 در تمامی ایستگاه‌ها نشان دادند که روش KNN یک روش مطمئن و دقیق در نسبت‌دهی و جایگذاری مقادیر گمشده بود و در مقایسه با روش رگرسیون لاسو و رگرسیون خطی بیزین نتایج بسیار دقیق&lrm;تر و مطمئن&lrm;تری را ارائه داد و موجب اختلال در روند سری داده نشد. مقادیر پرت ایستگاه&lrm;های جان‌آقا و دره پنبه&lrm;دان در ادامه و در نرمال‌سازی حذف گردیدند. چولگی و وجود داده پرت در روش هیستوگرام به ویژه ایستگاه&lrm;های جان&lrm;آقا، ساریقمیش و پل آدینان بابی&lrm;نظمی همراه بودند و توزیع ناهمگن و غیر نرمال داشتند که پس از نرمال&rlm;سازی، داده&lrm;های پرت مشخص و حذف شدند. میزان p-value در هر دو آزمون شاپیرو-ویلک و کولموگروف-اسمیرنف مقادیری بسیار کمتر از 0/05 را نشان داد و گواه این مطلب است که داده&lrm;ها در محدوده نرمال قرار دارند و نرمال&lrm;سازی داده‌ها و حذف مقادیر پرت با دقت بالایی انجام شده است و درنتیجه محاسبه مقادیر پرت و شناسایی آن‌ها معنی‌دار است. آزمون روزنر برای هر سری داده مقدار حد بالا را در دو تست متوالی ارائه داده است و همان مقدار و مقادیر بالاتر از آن را به عنوان داده پرت در نظر می‌گیرد. نتایج مطابقت تابع چگالی احتمال مقادیر مشاهده‌ای و نسبت‌دهی شده به&lrm; روش KNN نشان از تطابق قابل قبول دو تابع چگالی احتمال داشتند و این روش در نسبت‌دهی مقادیر حداکثر، متوسط و حداقل نسبت به دو روش دیگر در ایستگاه&lrm; های مورد مطالعه موفق عمل کرد. نتیجه&lrm;گیری: با توجه به نتایج به&lrm; دست آمده از نمودار جعبه‌ای، داده&lrm;هایی که خارج از ساقه قرار گیرند را به عنوان داده پرت معرفی می&lrm;کند و بر همین اساس در نمودارهای جعبه&lrm;ای تعداد داده&lrm;های پرت در مقایسه با سایر روش&lrm;ها به مقدار زیادی تشخیص داده می‌شود که به &lrm;نظر می‌رسد روش مناسبی برای تشخیص داده پرت در داده‌های هیدرولوژیکی نباشد. روش KNN در تعیین داده&lrm;های گمشده با استفاده از داده&lrm;های مشاهداتی متناظر، در بین دو روش دیگر بسیار موثر عمل نمود. در این مطالعه، سری داده‌ها نرمال&lrm;سازی و سپس مقادیر داده‌های پرت در آن&lrm;ها محاسبه گردید و برای تعیین مقادیر محاسبه نشده و  گمشده از روش KNN استفاده شد. در داده‌های دارای روند تغییرات کمتر، KNN بسیار دقیق عمل می&lrm;نماید و یکی از دقیق&lrm;ترین و مطمئن&lrm;ترین روش‌های نسبت&lrm;دهی و جایگذاری داده‌های گمشده است. به منظور اعتباریابی روش KNN، رگرسیون لاسو و رگرسیون بیزین از روش اعتبارسنجی متقابل یا Cross Validation استفاده شد. با توجه به نتایج به دست آمده، الگوریتم KNN ضریب تبیین بالاتر از 0/7 و مقادیر RMSE نزدیک به صفر را نشان داد. روش KNN کارایی مطلوبی را در تخمین مقادیر  گمشده در جریان&lrm;های پیوسته و ناپیوسته نسبت به دو روش دیگر ارائه می&lrm;دهد. این اثربخشی به توانایی KNN در دستیابی به مقدار بهینه نزدیک ترین همسایه برمی&lrm;گردد که آن&lrm;را برای پیش&lrm;بینی دقیق در شرایطی که جریان به حداقل رسیده باشد هم مناسب می&lrm;سازد. دقت KNN به&lrm;دلیل سادگی محاسبات و نیز اثر بالای آن در محاسبه و نسبت&lrm;دهی داده&lrm;های گمشده و گمشده است که در عین حال ساختار سری داده را نیز حفظ می&rlm; کند.  </div> Extended Abstract Background: Accurate river flow measurements are essential for effective water resource management, flood mitigation, river conservation and restoration, and stream rehabilitation. The majority of flood control and design flow strategies in river management and restoration initiatives are derived from hydrological and hydraulic analyses based on observed river flow. Hydrological investigations are fundamentally reliant on observational statistical data, which frequently contain multiple errors. Outliers, which are defined as data points deviating significantly from the norm, can introduce substantial calculation errors. Outlier detection techniques include supervised, semi-supervised, and unsupervised approaches, which may include distribution-based, clustering-based, and density-based methods. These errors can arise from computational issues, misreporting, sampling inaccuracies, and human or instrumental errors, leading to problems such as unrecorded data, incorrect values, equipment failure or loss, and the misidentification of outliers as missing data. Consequently, the estimation and assessment of these data are essential for their application in models, and to mitigate mistakes, preprocessing must be performed before their utilization. Preprocessing methods prepare data series for computations, such as classification, prediction, and estimation, and include the elimination of missing data, removal of outliers, imputation of missing values, and data normalization. Method: This study utilized flow and rainfall data from six hydrometeorological stations and 16 rain stations to identify outliers and impute missing or incomplete hydrological values. The data, obtained from the Zarrineh-roud basin, were implemented using R software. The Zarrineh River watershed constitutes the largest watershed of Lake Urmia. Normalization tests, including the Shapiro-Wilk and Kolmogorov-Smirnov tests, were used to normalize the data, and the findings indicated that the data did not conform to a normal distribution. Subsequent to data normalization, outlier detection was executed using approaches including boxplot, z-score, histogram, chi-square, mean and standard deviation, and median techniques. Values exceeding the established maximum were removed. Missing values were imputed using K-Nearest Neighbor (KNN), Lasso regression, and Bayesian linear regression. Lasso regression is a regularization technique designed to diminish model complexity and avoid overfitting. Bayesian linear regression is a statistical analysis method that integrates linear regression with Bayesian techniques. The KNN algorithm is a sample-based method related to nonparametric models and supervised learning classification. Cross-validation was used to assess the accuracy of the imputation methods, with RMSE and R² serving as performance metrics. Result: According to the results, P-values at all six study stations were less than 0.05. The cross-validation approach was used to assess the accuracy and precision of the KNN, Lasso regression, and linear Bayesian regression techniques. RMSE values near zero and R² values above 0.7 across all stations indicated that KNN was a robust and accurate method for missing value imputation. It provides significantly more accurate and reliable outcomes without reshaping the data series trend than Lasso regression and Bayesian linear regression. Outliers were removed from the Jan-Agha and Darreh Pandedan stations during normalization. Histogram analysis revealed skewness and outliers at the Jan-Agha, Sariqamish, and Pol-Anyan stations, indicating a heterogeneous and non-normally distributed dataset. Outliers were identified and removed following normalization. The Shapiro-Wilk and Kolmogorov-Smirnov tests yielded p-values significantly below 0.05 after normalization, confirming a normal distribution. This suggests that the normalization process and outlier removal were executed with precision, indicating the significan detection and estimation of outliers. The Rosner test established the upper limit for each data series across two successive tests, classifying values beyond this limit as outliers. The consistency of the probability density functions between the observed and imputed values using the KNN method indicates an adequate alignment of the two probability density functions. This method has proved effective in imputing the maximum, average, and minimum values relative to the other two methods at the studied stations. Conclusion: The results of this investigation indicate that the boxplot identifies data values outside the lines as outliers, leading to a substantial number of outliers being detected compared to the other methods.  Consequently, this method is considered unsuitable for outlier detection in hydrological data. KNN proved highly effective for missing data imputation compared to Lasso regression and Bayesian linear regression. This study involved normalizing the data series, calculating the values of outliers, and employing the KNN algorithm to identify incomplete or unmeasured and missing values. In datasets exhibiting little variation, KNN has high accuracy and is regarded as one of the most valuable and dependable techniques for attributing and imputing missing values. Cross-validation confirmed the performance of KNN, Lasso regression, and Bayesian linear regression. KNN achieved R² values above 0.7 and RMSE values close to zero. KNN outperformed the other two methods in estimating missing values in continuous and discontinuous flow data. This effectiveness is attributed to KNN's ability to identify optimal nearest neighbor values, making it suitable for accurate predictions, even during low flow periods. The precision of KNN stems from its computational simplicity and high efficacy in calculating and imputing missing values while preserving the integrity of the data series.   حوضه زرینه رود, رگرسیون لاسو, رگرسیون خطی بیزین, شاپیرو-ویلک, نزدیکترین همسایه Bayesian linear regression, K Nearest Neighbor, Lasso regression, Shapiro-Wilk test, Zarrineh-roud basin 19 34 http://jwmr.sanru.ac.ir/browse.php?a_code=A-10-355-7&slc_lang=fa&sid=1 Edith Eishoeei ادیت عیشویی edith_101010@yahoo.com 100319475328460015399 100319475328460015399 No Department of Watershed Management Engineering, Natural Resources Faculty, Urmia University, Urmia, Iran گروه علوم و مهندسی آبخیزداری، دانشکده منابع طبیعی، دانشگاه ارومیه، ارومیه، ایران Mirhassan Miryaghoubzadeh میرحسن میریعقوب‌زاده m.miryaghoubzadeh@urmia.ac.ir 100319475328460015400 100319475328460015400 Yes Department of Watershed Management Engineering, Natural Resources Faculty, Urmia University, Urmia, Iran گروه علوم و مهندسی آبخیزداری، دانشکده منابع طبیعی، دانشگاه ارومیه، ارومیه، ایران Mahdi Erfanian مهدی عرفانیان m.erfanian@urmia.ac.ir 100319475328460015401 100319475328460015401 No Department of Watershed Management Engineering, Natural Resources Faculty, Urmia University, Urmia, Iran گروه علوم و مهندسی آبخیزداری، دانشکده منابع طبیعی، دانشگاه ارومیه، ارومیه، ایران Reza Mahboobi Esfanjani رضا محبوبی اسفنجانی mahboobi@sut.ac.ir 100319475328460015402 100319475328460015402 No Department of Electrical Engineering, Faculty of Electrical Engineering, Sahand University of Technology, Tabriz, Iran گروه مهندسی برق، دانشکده مهندسی برق و کامپیوتر، دانشگاه صنعتی سهند، تبریز، ایران Marco Mancini مارکو مانچینی marco.mancini@polimi.it 100319475328460015403 100319475328460015403 No Department of Civil and Environmental Engineering, Politecnico di Milano, Milan, Italy گروه مهندسی عمران، دانشکده مهندسی محیط زیست و عمران، دانشگاه پلی‌تکنیک میلان، میلان، ایتالیا