ارزیابی روش‎ های تشخیص و بازسازی مقادیر پرت و گمشده در سری داده‌های هیدرولوژیکی حوزه آبخیز زرینه‌رود، دریاچه ارومیه

عیشویی, ادیت; میریعقوب‌زاده, میرحسن; عرفانیان, مهدی; محبوبی اسفنجانی, رضا; مانچینی, مارکو

doi:10.61882/jwmr.2025.1310

پژوهشنامه مدیریت حوزه آبخیز

(علمی)

شنبه 29 فروردین 1405 | English [Archive]

Journal of Watershed Management Research

دوره 16، شماره 2 - ( پاییز و زمستان 1404 ) جلد 16 شماره 2 صفحات 34-19 | برگشت به فهرست نسخه ها

‎ 10.61882/jwmr.2025.1310

Mendeley

Zotero

RefWorks

Eishoeei E, Miryaghoubzadeh M, Erfanian M, Mahboobi Esfanjani R, Mancini M. (2025). An Evaluation of Techniques for Outlier Detection and Missing Values Imputation of Hydrological Data Series in the Zarrineh-Roud Basin, Lake Urmia. J Watershed Manage Res. 16(2), 19-34. doi:10.61882/jwmr.2025.1310
URL: http://jwmr.sanru.ac.ir/article-1-1310-fa.html

عیشویی ادیت، میریعقوب‌زاده میرحسن، عرفانیان مهدی، محبوبی اسفنجانی رضا، مانچینی مارکو.(1404). ارزیابی روش‎ های تشخیص و بازسازی مقادیر پرت و گمشده در سری داده‌های هیدرولوژیکی حوزه آبخیز زرینه‌رود، دریاچه ارومیه پ‍‍ژوهشنامه مديريت حوزه آبخيز 16 (2) :34-19 10.61882/jwmr.2025.1310

URL: http://jwmr.sanru.ac.ir/article-1-1310-fa.html

ارزیابی روش‎ های تشخیص و بازسازی مقادیر پرت و گمشده در سری داده‌های هیدرولوژیکی حوزه آبخیز زرینه‌رود، دریاچه ارومیه

ادیت عیشویی¹، میرحسن میریعقوب‌زاده^*¹

، مهدی عرفانیان¹، رضا محبوبی اسفنجانی²، مارکو مانچینی³

1- گروه علوم و مهندسی آبخیزداری، دانشکده منابع طبیعی، دانشگاه ارومیه، ارومیه، ایران
2- گروه مهندسی برق، دانشکده مهندسی برق و کامپیوتر، دانشگاه صنعتی سهند، تبریز، ایران
3- گروه مهندسی عمران، دانشکده مهندسی محیط زیست و عمران، دانشگاه پلی‌تکنیک میلان، میلان، ایتالیا

چکیده: (1702 مشاهده)

چکیده مبسوط
مقدمه و هدف: اندازه‌گیری‌های جریان رودخانه و داده‌های آن در مدیریت منابع آب، کنترل سیل، حفاظت و احیای رودخانه، بازسازی جریان اهمیت ‌بسزایی دارند. اکثر طرح‌های کنترل سیل و دبی طراحی در پروژه‌های مدیریت و احیای رودخانه توسط تحلیل‌های هیدرولوژیکی و هیدرولیکی مبتنی بر دبی مشاهداتی حوزه تخمین زده می‌شوند. پایه مطالعات هیدرولوژیکی به داده‌های آماری مشاهداتی وابسته است و این داده‌ها در اغلب موارد دارای خطاهای متعدد هستند. داده پرت داده‌ای است که از نرم طبیعی فاصله گرفته است و باعث بروز خطا در محاسبات می‌شود. روش‌های تشخیص داده‌های پرت شامل روش‌های نظارت‎ شده، نیمه نظارت‎ شده و نظارت‎ نشده هستند و برخی روش‌های مبتنی بر توزیع، مبتنی بر خوشه‌بندی و مبتنی بر چگالی را شامل می‌شوند. به‎ دلیل خطای محاسباتی، مقادیر صحیح خاص، گزارش اشتباه و یا خطای نمونه‎برداری و همچنین به دلیل خطاهای انسانی و ابزاری ممکن است مواردی مانند ثبت نشدن آمار، ثبت آمار غلط، خرابی یا ازبین رفتن دستگاه‎های اندازه‌گیری یا تشخیص داده‌های پرت و حذف آن‎ها با عنوان داده‎های گم‌شده پیش آید. بنابراین، تخمین و برآورد این داده‎ها برای استفاده در مدل‎ها ضروری است و به منظور کاهش بروز خطا باید پیش از به کارگیری آن‎ها پیش‎ پردازش صورت گیرد. عملیات پیش ‎پردازش، سری داده‎ را برای محاسبات از جمله کلاسه‎بندی، پیش‎بینی و تخمین آماده می‎کند و شامل حذف داده‏ های گم‎شده، حذف داده‎های پرت، بازسازی مقادیر گم‎شده، و نرمال‎سازی داده‎ها است.
مواد و روش‎ها: در این تحقیق، به‎ منظور تشخیص داده‌های پرت و بازسازی داده‌های گمشده و ناقص سری زمانی داده‎های هیدرولوژی، داده‌های دبی ماهانه شش ایستگاه هیدرومتری و داده‌های اقلیمی 16 ایستگاه باران‌سنجی در حوزه زرینه‎رود در نرم‎افزار R برنامه‌نویسی و مورد بررسی قرار گرفتند. حوزه آبخیز زرینه‎رود بزرگترین حوضه آبخیز دریاچه ارومیه است. به‎ منظور آزمون نرمال‌ بودن داده‌ها از آزمون‌ شاپیرو-ویلک و کولموگروف-اسمیرنف استفاده گردید که مطابق نتایج به‎ دست آمده داده‌های مورد استفاده دارای توزیع نرمال نبودند و پس از نرمال‌سازی داده‌ها محاسبات داده‌های پرت به روش‌های نمودار جعبه‌ای، z-score، هیستوگرام، مربع کای، میانگین و انحراف معیار و روش میانه انجام شد و داده‏ هایی که از بالاترین مقدار مشخص ‎شده بیشتر بودند حذف گردیدند. به‌منظور نسبت‌دهی و جایگذاری مقادیر گمشده از الگوریتم‎های KNN، رگرسیون لاسو و رگرسیون خطی بیزین استفاده گردید. روش رگرسیون لاسو یک روش منظم‎سازی است که هدف آن کاهش پیچیدگی مدل و جلوگیری از بیش برازشی است. رگرسیون خطی بیزین نوعی تحلیل آماری است که ترکیبی از روش‌های رگرسیون خطی و بیزین را استفاده می‌کند. الگوریتم KNN یکی از روش‎های مبتنی بر نمونه است که با مدل‎های ناپارامتری و طبقه‎بندی یادگیری نظارت‎ شده ارتباط دارد. برای ارزیابی دقت الگوریتم‎های نسبت‎دهی داده‎های گمشده از روش Cross Validation استفاده گردید و در ادامه، جهت محاسبه دقت روش‌های تخمین از دو معیار RMSE و R² استفاده شد.
یافته‎ها: نتایج آماری حاصل نشان می‌دهند که مقادیر p-value در هر شش ایستگاه مورد مطالعه کمتر از 0/05 بودند. به‌منظور ارزیابی صحت و دقت روش KNN از اعتبارسنجی متقابل استفاده گردید. مقادیر RMSE کمتر و نزدیک به صفر و R² بالاتر از 0/7 در تمامی ایستگاه‌ها نشان دادند که روش KNN یک روش مطمئن و دقیق در نسبت‌دهی و جایگذاری مقادیر گمشده بود و در مقایسه با روش رگرسیون لاسو و رگرسیون خطی بیزین نتایج بسیار دقیق‎تر و مطمئن‎تری را ارائه داد و موجب اختلال در روند سری داده نشد. مقادیر پرت ایستگاه‎های جان‌آقا و دره پنبه‎دان در ادامه و در نرمال‌سازی حذف گردیدند. چولگی و وجود داده پرت در روش هیستوگرام به ویژه ایستگاه‎های جان‎آقا، ساریقمیش و پل آدینان بابی‎نظمی همراه بودند و توزیع ناهمگن و غیر نرمال داشتند که پس از نرمال‏سازی، داده‎های پرت مشخص و حذف شدند. میزان p-value در هر دو آزمون شاپیرو-ویلک و کولموگروف-اسمیرنف مقادیری بسیار کمتر از 0/05 را نشان داد و گواه این مطلب است که داده‎ها در محدوده نرمال قرار دارند و نرمال‎سازی داده‌ها و حذف مقادیر پرت با دقت بالایی انجام شده است و درنتیجه محاسبه مقادیر پرت و شناسایی آن‌ها معنی‌دار است. آزمون روزنر برای هر سری داده مقدار حد بالا را در دو تست متوالی ارائه داده است و همان مقدار و مقادیر بالاتر از آن را به عنوان داده پرت در نظر می‌گیرد. نتایج مطابقت تابع چگالی احتمال مقادیر مشاهده‌ای و نسبت‌دهی شده به‎ روش KNN نشان از تطابق قابل قبول دو تابع چگالی احتمال داشتند و این روش در نسبت‌دهی مقادیر حداکثر، متوسط و حداقل نسبت به دو روش دیگر در ایستگاه‎ های مورد مطالعه موفق عمل کرد.
نتیجه‎گیری: با توجه به نتایج به‎ دست آمده از نمودار جعبه‌ای، داده‎هایی که خارج از ساقه قرار گیرند را به عنوان داده پرت معرفی می‎کند و بر همین اساس در نمودارهای جعبه‎ای تعداد داده‎های پرت در مقایسه با سایر روش‎ها به مقدار زیادی تشخیص داده می‌شود که به ‎نظر می‌رسد روش مناسبی برای تشخیص داده پرت در داده‌های هیدرولوژیکی نباشد. روش KNN در تعیین داده‎های گمشده با استفاده از داده‎های مشاهداتی متناظر، در بین دو روش دیگر بسیار موثر عمل نمود. در این مطالعه، سری داده‌ها نرمال‎سازی و سپس مقادیر داده‌های پرت در آن‎ها محاسبه گردید و برای تعیین مقادیر محاسبه نشده و گمشده از روش KNN استفاده شد. در داده‌های دارای روند تغییرات کمتر، KNN بسیار دقیق عمل می‎نماید و یکی از دقیق‎ترین و مطمئن‎ترین روش‌های نسبت‎دهی و جایگذاری داده‌های گمشده است. به منظور اعتباریابی روش KNN، رگرسیون لاسو و رگرسیون بیزین از روش اعتبارسنجی متقابل یا Cross Validation استفاده شد. با توجه به نتایج به دست آمده، الگوریتم KNN ضریب تبیین بالاتر از 0/7 و مقادیر RMSE نزدیک به صفر را نشان داد. روش KNN کارایی مطلوبی را در تخمین مقادیر گمشده در جریان‎های پیوسته و ناپیوسته نسبت به دو روش دیگر ارائه می‎دهد. این اثربخشی به توانایی KNN در دستیابی به مقدار بهینه نزدیک ترین همسایه برمی‎گردد که آن‎را برای پیش‎بینی دقیق در شرایطی که جریان به حداقل رسیده باشد هم مناسب می‎سازد. دقت KNN به‎دلیل سادگی محاسبات و نیز اثر بالای آن در محاسبه و نسبت‎دهی داده‎های گمشده و گمشده است که در عین حال ساختار سری داده را نیز حفظ می‏ کند.

واژه‌های کلیدی: حوضه زرینه رود، رگرسیون لاسو، رگرسیون خطی بیزین، شاپیرو-ویلک، نزدیکترین همسایه

متن کامل [PDF 2139 kb] (139 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: هيدرولوژی
دریافت: 1403/11/14 | پذیرش: 1404/2/21

فهرست منابع

1. Ahmadi, F., Dinpajoh, Y., & Fard, A. F. (2014). Comparing linear and nonlinear time series models in river flow forecasting (case study: Baranduz-chai river). Irrigation Sciences and Engineering, 37(1), 93-105. [In Persian]

2. Aryanmanesh J, N. H., Mahmoodi P, Khosravi P. (2024). Reconstruction of Missing Daily Streamflow Data using the MissForest Algorithm in Southern Baluchestan Basin, Iran. Journal of Watershed Management Research, 15(2), 49-64. [In Persian] [DOI:10.61186/jwmr.15.2.49]

3. Azimi-Habashi, S., Miryaghoubzadeh, M., Erfanian, M., & Javan, K. (2024). Projection of Future Climatic Variables based on CMIP5 and CMIP6 Models in the Gedarchay Catchment (West Azarbaijan). Journal of Watershed Management Research, 15(2), 1-16. https://doi.org/10.61186/jwmr.15.2.1 [DOI:doi:10.61186/jwmr.15.2.1. [In Persian]]

4. Bae, I., & Ji, U. (2019). Outlier detection and smoothing process for water level data measured by ultrasonic sensor in stream flows. Water, 11(5), 951. https://doi.org/10.3390/w11050951 [DOI:(doi.org/10.3390/w11050951]

5. Bahrami, M., Amiri, M.J., Rezaei Maharlouyi, F., & Ghaffari, K. (2018). Determining the effect of data preprocessing on the performance of artificial neural networks for predicting monthly precipitation in Abadeh County. Eco-Hydrology, 4(1), 29-37. [In Persian]

6. Ben-Gal, I. (2005). Outlier detection. Data Mining and Knowledge Discovery Handbook, 131-146. https://doi.org/10.1007/0-387-25465-X_7 [DOI:doi.org/10.1007/0-387-25465-X_7]

7. Boiten, W. (2003). Hydrometry: IHE Delft lecture note series. CRC press. https://doi.org/10.1201/9780203971093 [DOI:doi.org/10.1201/9780203971093]

8. Boukerche, A., Zheng, L., & Alfandi, O. (2020). Outlier detection: Methods, models, and classification. ACM Computing Surveys (CSUR), 53(3), 1-37. https://doi.org/10.1145/3381028 [DOI:doi.org/10.1145/3381028]

9. Breunig, M. M., Kriegel, H.-P., Ng, R. T., & Sander, J. (2000). LOF: identifying density-based local outliers. Proceedings of the 2000 ACM SIGMOD. International Conference on Management of Data. [DOI:10.1145/335191.335388]

10. Cohn, T. A., England, J., Berenbrock, C., Mason, R., Stedinger, J., & Lamontagne, J. (2013). A generalized Grubbs‐Beck test statistic for detecting multiple potentially influential low outliers in flood series. Water Resources Research, 49(8), 5047-5058. https://doi.org/10.1002/wrcr.20392 [DOI:doi.org/10.1002/wrcr.20392]

11. D'Agostino, R. B. (1986). Goodness-of-fit-techniques (Vol. 68). CRC press.

12. Dave, D., & Varma, T. (2014). A review of various statistical methods for outlier detection. International Journal of Computer Science & Engineering Technology (IJCSET), 5(2), 137-140.

13. Donoho, D. L., & Huber, P. J. (1983). The notion of breakdown point. A Festschrift for Erich L. Lehmann, 157184.

14. Fenton, J. D., & Keller, R. J. (2001). The calculation of streamflow from measurements of stage.

15. Goldstein, M., & Dengel, A. (2012). Histogram-based outlier score (hbos): A fast unsupervised anomaly detection algorithm. KI-2012:Poster and Demo Track, 1, 59-63.

16. Grubbs, F. E. (1969). Procedures for detecting outlying observations in samples. Technometrics, 11(1), 1-21. [DOI:10.1080/00401706.1969.10490657]

17. Herschy, R. W. (2008). Streamflow Measurement. CRC press. [DOI:10.1201/9781482265880]

18. Holmström, H., & Fransson, J. E. (2003). Combining remotely sensed optical and radar data in k NN-estimation of forest variables. Forest Science, 49(3), 409-418. https://doi.org/10.1093/forestscience/49.3.409 [DOI:doi.org/10.1093/forestscience/49.3.409]

19. Horner, I., Renard, B., Le Coz, J., Branger, F., McMillan, H., & Pierrefeu, G. (2018). Impact of stage measurement errors on streamflow uncertainty. Water Resources Research, 54(3), 1952-1976. https://doi.org/10.1002/2017WR022039 [DOI:doi.org/10.1002/2017WR022039]

20. Kiani, R. a. M., M. . (2015). A review of outlier detection methods. International Conference on Research in Science and Technology. 14 December 2015, Kualalumpur, Malaysia. [In Persian]

21. Li, Q., Fisher, K., Meng, W., Fang, B., Welsh, E., Haura, E. B., Koomen, J. M., Eschrich, S. A., Fridley, B. L., & Chen, Y. A. (2020). GMSimpute: a generalized two-step Lasso approach to impute missing values in label-free mass spectrum analysis. Bioinformatics, 36(1), 257-263. https://doi.org/10.1093/bioinformatics/btz488 [DOI:doi.org/10.1093/bioinformatics/btz488]

22. Maanavi, M., & Roozbeh, M. (2021). Regression Analysis Methods for High-dimensional Data. Andishe _ye Amari, 25(1), 69-90. [In Persian]

23. Montgomery, D. C., & Runger, G. C. (2019). Applied Statistics and Probability For Engineers. John wiley & sons.

24. Naghdi, R., Shayannezhad, M., & Sadati, N. S. (2010). Comparison of different methods for estimating of monthly discharge missing data in Grand Karoon River Basin. [In Persian]

25. Nazeri Tahrudi, M. (2014). Compared to the normal mechanism becomes the normal monthly rainfall data from different regions of Iran. Water and Soil, 28(2), 365-372. [In Persian]

26. Ordooni, M., Memarian, H., Akbari, M., & Pourreza, M. (2021). Evaluation and Comparison of GPM Satellite Precipitation Data with Meteorological Station using Kolmogorov-Smirnov Test. Iranian Journal of Rainwater Catchment Systems, 9(2), 11-24. [In Persian]

27. Poursalehi, F., Shahidi, A., & Khashei Siuki, A. (2019). Comparison of decision tree m5 and k-nearest neighborhood algorithm models in the prediction of monthly precipitation (case study: birjand synoptic station). Iranian Journal of Irrigation & Drainage, 13(5), 1283-1293. [In Persian]

28. Rahmdel, M., Mohamadian, A., Javanshiri, Z., & Sanaeinejad, S. (2021). Exploratory analysis and in-homogeneity study of temperature and rainfall series of meteorological stations in Iran (period 1989-2018). [In Persian]

29. Rajabi Jaghargh, M., Mousavi Baygi, S. M., Araghi, S. A., & Jabari Noghabi, H. (2024). Calibration of ERA5 daily precipitation using MLP, D-Tree, and KNN algorithms in Razavi Khorasan province. Iranian Journal of Rainwater Catchment Systems, 12(1), 129-147. [In Persian]

30. Schafer, J. L., & Graham, J. W. (2002). Missing data: our view of the state of the art. Psychological Methods, 7(2), 147. [DOI:10.1037/1082-989X.7.2.147]

31. Shataee, S., Kalbi, S., Fallah, A., & Pelz, D. (2012). Forest attribute imputation using machine-learning methods and ASTER data: comparison of k-NN, SVR and random forest regression algorithms. International Journal of Remote Sensing, 33(19), 6254-6280. https://doi.org/10.1080/01431161.2012.682661 [DOI:doi.org/10.1080/01431161.2012.682661]

32. Smiti, A. (2020). A critical overview of outlier detection methods. Computer Science Review, 38, 100306. https://doi.org/10.1016/j.cosrev.2020.100306 [DOI:doi.org/10.1016/j.cosrev.2020.100306]

33. Suri, N. M. R., Murty, M. N., & Athithan, G. (2019). Outlier detection: Techniques and Applications. Springer. [DOI:doi.org/10.1007/978-3-030-05127-3]

34. Tourian, M., Schwatke, C., & Sneeuw, N. (2017). River discharge estimation at daily resolution from satellite altimetry over an entire river basin. Journal of Hydrology, 546, 230-247. https://doi.org/10.1016/j.jhydrol.2017.01.009 [DOI:doi.org/10.1016/j.jhydrol.2017.01.009]

35. Umar, N., & Gray, A. (2023). Comparing single and multiple imputation approaches for missing values in univariate and multivariate water level data. Water, 15(8), 1519. https://doi.org/10.3390/w15081519 [DOI:doi.org/10.3390/w15081519]

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به (پژوهشنامه مدیریت حوزه آبخیز (علمی-پژوهشی می‌باشد.

طراحی و برنامه نویسی: یکتاوب افزار شرق

Designed & Developed by: Yektaweb

پژوهشنامه مدیریت حوزه آبخیز

(علمی)

پایگاه های مرتبط

کلمات کلیدی