دوره 15، شماره 2 - ( پاییز و زمستان 1403 )                   جلد 15 شماره 2 صفحات 64-49 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Aryanmanesh J, Nazaripour H, Mahmoodi P, Khosravi P. (2024). Reconstruction of Missing Daily Streamflow Data using the MissForest Algorithm in Southern Baluchestan Basin, Iran. J Watershed Manage Res. 15(2), 49-64. doi:10.61186/jwmr.15.2.49
URL: http://jwmr.sanru.ac.ir/article-1-1262-fa.html
آریان منش جواد، نظری پور حمید، محمودی پیمان، خسروی پرویز. بازسازی داده‎ های گمشده جریان روزانه رودخانه با استفاده از الگوریتم جنگل گمشده در حوزه بلوچستان جنوبی، ایران پ‍‍ژوهشنامه مديريت حوزه آبخيز 1403; 15 (2) :64-49 10.61186/jwmr.15.2.49

URL: http://jwmr.sanru.ac.ir/article-1-1262-fa.html


1- گروه جغرافیای طبیعی، دانشکده جغرافیا و برنامه ‎ریزی محیطی، دانشگاه سیستان و بلوچستان، زاهدان، ایران
2- گروه جغرافیای طبیعی، دانشکده جغرافیا و برنامه‎ریزی محیطی، دانشگاه سیستان و بلوچستان، زاهدان، ایران
3- سازمان هواشناسی کشور
چکیده:   (346 مشاهده)
چکیده مبسوط
مقدمه و هدف: سری‌های زمانی کامل هیدرولوژیکی برای مدیریت و مدل‌سازی منابع آب و انرژی در یک اقلیم در حال تغییر حیاتی هستند. با اینحال، چنین متغیرهایی اغلب با داده‌های گمشده همراه هستند، که فرایند تجزیه و تحلیل را دشوار و یا گاهی غیرممکن میکند. شکافهای داده باعث مشکلاتی در تفسیر، واسنجی ناکارآمد مدل و آمارههای اُریبدار میشوند. در این بررسی، اعتبار یک الگوریتم ماشین یادگیری تصادفی غیرپارامتری که جنگل گمشده (MissForest) نام دارد برای پرکردن شکاف سریهای زمانی جریان روزانه در منطقهای با داده کمیاب و تغییرپذیری اقلیمی قوی، ارزیابی گردیده است.
مواد و روش‌ها: دادههای جریان روزانه در ایستگاههای جریانسنجی حوزه آبریز بلوچستان جنوبی در یک دوره طولانیمدت هیدرولوژیکی (1972/09/23 تا 2018/09/22) مورد بررسی قرار گرفته است. منطقه مورد مطالعه این پژوهش (حوزه آبریز بلوچستان جنوبی) از مجموعه حوزه آبریز خلیج فارس و دریای عمان بوده و با حدود بین سدیج و مرکز پاکستان شناخته میشود. درصد گمشدگی بر اساس یک معیار قراردادی (کمتر از 50 درصد) بهعنوان نسبت قابلقبول از نرخ گمشدگی در دادههای جریان انتخاب و سپس مکانیسمها و الگوهای گمشدگی دادهها تعیین گردیده است. بر این اساس، تعداد ایستگاه‌های جریان‌سنجی از 11 به 7 نمونه کاهش یافته است. سپس توزیع زمانی جریان‌های روزانه گمشده در طول ماه‌های سال و فراوانی نسبی طول گمشدگی در کل دوره مورد بررسی قرار گرفته است. در ادامه، عملکرد الگوریتم بازسازی دادههای گمشده با دو سناریوی متفاوت داده گمشده مصنوعی به چالش کشیده شده است. برای اینمنظور، دو نوع شکاف مصنوعی در قسمت داده‌های کامل ایجاد شده است. الف) در هر ایستگاه جریان‌سنجی یک بخش از داده‌ها (با طول 7، 14، 21، 30، 60، 180 و 365 روز) بهطور تصادفی از کل دوره حذف شده است. ب) نقاط داده منفرد شامل مقادیر مشاهده شده روزهای (30، 60، 90، 120، 180 و 365) بهطور تصادفی از کل دوره (2018-1972) حذف شده‌اند. الگوریتم جنگل گمشده برای پُرکردن شکاف‌های مصنوعی اجرا و سپس اعتبارسنجی الگوریتم در پُرکردن دادههای گمشده جریان روزانه با مقایسه سریهای پُرشده با دادههای مشاهده شده، از طریق آزمونهای سهگانه نیکویی برازش (GoF) شامل ضریب تعیین (R2)، درصد بایاس یا اریب (PBIAS) و معیار کلینگ- کوپتا (KGE) تست شده است.  علاوه بر آن، برخی کنترل‌ها در عملکرد الگوریتم جنگل گمشده جهت حساسیتسنجی انجام شده است. به این مفهوم که الگوریتم جنگل گمشده با درصدهای مختلف از گمشدگی داده در ایستگاه هدف (%5، %10، %15، %20، %25 و %30) و همچنین تعداد رکوردهای پیش‌بینی کننده جریان ایستگاه هدف، آزمایش شده است.
یافته‌ها: نتایج نشان داد که بهطور کلی الگوریتم جنگل گمشده عملکرد رضایتبخش و خوبی داشته و امکان شبیهسازی دقیق و مطمئن دادههای از دست رفته را بهسرعت و بهصورت خودکار فراهم میآورد. عملکرد الگوریتم جنگل گمشده بهشدت تابعی از تعداد رکوردهای پیشبینی کننده، طول رکورد و نوع جریان رودخانه میباشد. عملکرد الگوریتم جنگل گمشده به درصد گمشدگی داده‌های ایستگاه هدف حساس و به تعداد رکوردهای پیش‌بینی کننده بیتفاوت بوده است. با افزایش درصد گمشدگی دادهها، عملکرد الگوریتم جنگل گمشده بهطور قابل ملاحظه کاهش یافته است. علاوه بر آن، این الگوریتم گمشدگیهای کوتاهمدت را نسبت به گمشدگیهای طولانیمدت، دقیقتر برآورد میکند. عملکرد الگوریتم جنگل گمشده به تعداد رکوردهای پیشبینی کننده حساس نمیباشد. این وضعیت، به ماهیت هیدروفیزیوگرافی زیرحوضههای آبریز و موقعیت ایستگاههای آبسنجی مربوط میشود. تنها در صورتی عملکرد الگوریتم جنگل گمشده برای یک ایستگاه خاص با افزایش رکوردهای پیشبینی کننده بهبود مییابد که ایستگاههای اهداءگر در حوضه آبریز مشترک با ایستگاه هدف قرار داشته باشند در نهایت، بازسازی شکافهای واقعی در دادههای جریان از طریق اعمال این الگوریتم هوشمند ممکن گردید. سریهای زمانی جریان رودخانهها با رژیم جریان طبیعی با عملکرد خوب شبیهسازی شد؛ درحالیکه این عملکرد برای تغییرات دبی در نتیجه ذخیرهسازی و انحراف آب برای آبیاری بهویژه در پایین دست سدها اندکی افت داشت. عملکرد این الگورتیم در پُرکردن سری زمانی روزانه جریان با تغییرات شدید رژیم جریان مانند دبی اوج، مطلوب ارزیابی نشد. این افت عملکرد بیشتر متوجه شرایط هیدرواقلیمی حوزه آبریز مورد مطالعه است تا ساختار الگوریتم. هیدروگرافهای بازسازی شده امکان تجزیه و تحلیل تغییر و تنوع جریان و برهمکنش آنها با متغیرهای آب و هوایی کلیدی را فراهم میکنند.
نتیجه‌گیری: الگوریتم جنگل گمشده بهعنوان یکی از روشهای بازسازی مبتنی بر یادگیری ماشین دارای اعتبار و عملکرد بالا در بازسازی دادههای گمشده جریان روزانه رودخانه معرفی شده و میتوان از آن بهصورت خودکار و هوشمند در بازسازی نواقص آماری جریان رودخانه در مقیاس روزانه استفاده نمود. پیشنهاد می‌گردد اثرات حوضه‌های مختلف با ویژگی‌های هیدروفیزیکی و اقلیمی خاص در مطالعات آتی بر روی عملکرد الگوریتم جنگل گمشده مورد تجزیه و تحلیل قرار گیرد. بررسی روش پیشنهادی این مطالعه در سایر مناطق هیدرواقلیمی و جغرافیایی، سنجش حساسیت به رژیم بارندگی و جریان رودخانه و در نهایت بررسی عملکرد آن در مقایسه با سایر روش‌های رایج از جمله موارد دیگری است که در مطالعات آتی میتوان به آن پرداخت.

 
متن کامل [PDF 2052 kb]   (174 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: ساير موضوعات وابسته به مديريت حوزه آبخيز
دریافت: 1402/8/29 | پذیرش: 1402/12/19

فهرست منابع
1. Aissia, M. A. B., Chebana, F., & Ouarda, T. B. (2017). Multivariate missing data in hydrology-Review and applications. Advances in Water Resources, 110, 299-309. [DOI:10.1016/j.advwatres.2017.10.002]
2. Alibakhshi, S. M., Farid Hossini, A., Davari, K., Alizadeh, A., & Munyka, H. (2019). Assessment of Ground Station, GPM Satellite and MERRA Precipitation Products in Kashafrud Basin. Watershed Management Research, 9(18), 111-122 (In Persian). [DOI:10.29252/jwmr.9.18.111]
3. Arriagada, P., Dieppois, B., Sidibe, M., & Link, O. (2019). Impacts of Climate Change and Climate Variability on Hydropower Potential in Data-Scarce Regions Subjected to Multi-Decadal Variability. Energies, 12, 2747. [DOI:10.3390/en12142747]
4. Bennett, D. A. (2001). How can I deal with missing data in my study? Australian and New Zealand journal of public health, 25(5), 464-469. [DOI:10.1111/j.1467-842X.2001.tb00294.x]
5. Blum, A. G., Archfield, S. A., & Vogel, R. M. (2017). On the probability distribution of daily streamflow in the United States. Hydrology and Earth System Sciences, 21(6), 3093-3103. [DOI:10.5194/hess-21-3093-2017]
6. Breiman, L. (2001). Random forests. Machine learning, 45, 5-32. [DOI:10.1023/A:1010933404324]
7. Damadi, S., Dehvari, A., Dahmardeh ghaleno, M. R., & Ebrahimiyan, M. (2021). Flood hazard zonation using HEC-RAS hydraulic model in Sarbaz River, Sistan and Baluchestan Province. Watershed Engineering and Management, 13(3), 590-601 (In Persian).
8. Dembélé, M., Oriani, F., Tumbulto, J., Mariéthoz, G., & Schaefli, B. (2019). Gap-filling of daily streamflow time series using Direct Sampling in various hydroclimatic settings. Journal of Hydrology, 569, 573-586. [DOI:10.1016/j.jhydrol.2018.11.076]
9. Déry, S. J., Stahl, K., Moore, R. D., Whitfield, P. H., Menounos, B., & Burford, J. E. (2009). Detection of runoff timing changes in pluvial, nival, and glacial rivers of western Canada. Water Resources Research, 45(4). [DOI:10.1029/2008WR006975]
10. Deshmukh, H., Papageorgiou, M., Kilpatrick, E. S., Atkin, S. L., & Sathyapalan, T. (2019). Development of a novel risk prediction and risk stratification score for polycystic ovary syndrome. Clinical Endocrinology, 90(1), 162-169. [DOI:10.1111/cen.13879]
11. Di Zio, M., Guarnera, U., & Luzi, O. (2007). Imputation through finite Gaussian mixture models. Computational Statistics & Data Analysis, 51(11), 5305-5316. [DOI:10.1016/j.csda.2006.10.002]
12. Dong, Y., & Peng, C. Y. J. (2013). Principled missing data methods for researchers. SpringerPlus, 2(1), 1-17. [DOI:10.1186/2193-1801-2-222]
13. Elshorbagy, A. A., Panu, U. S., & Simonovic, S. P. (2000). Group-based estimation of missing hydrological data: I. Approach and general methodology. Hydrological sciences journal, 45(6), 849-866. [DOI:10.1080/02626660009492388]
14. Grantham-McGregor, S., Cheung, Y. B., Cueto, S., Glewwe, P., Richter, L., & Strupp, B. (2007). Developmental potential in the first 5 years for children in developing countries. The lancet, 369(9555), 60-70. [DOI:10.1016/S0140-6736(07)60032-4]
15. Gyau-Boakye, P., & Schultz, G. A. (1994). Filling gaps in runoff time series in West Africa. Hydrological sciences journal, 39(6), 621-636. [DOI:10.1080/02626669409492784]
16. Hamzah, F. B., Mohd Hamzah, F., Mohd Razali, S. F., Jaafar, O., & Abdul Jamil, N. (2020). Imputation methods for recovering streamflow observation: A methodological review. Cogent Environmental Science, 6(1), 1745133. [DOI:10.1080/23311843.2020.1745133]
17. Harvey, C. L., Dixon, H., & Hannaford, J. (2012). An appraisal of the performance of data-infilling methods for application to daily mean river flow records in the UK. Hydrology Research, 43(5), 618-636. [DOI:10.2166/nh.2012.110]
18. Hawthorne, G., & Elliott, P. (2005). Imputing cross-sectional missing data: Comparison of common techniques. Australian & New Zealand Journal of Psychiatry, 39(7), 583-590. [DOI:10.1080/j.1440-1614.2005.01630.x]
19. Heidari Chenari, F., Fazloula, R., & Nikzad Tehrani, E. (2022). Calibration and Evaluation of HEC-HMS Hydrological Model Parameters in Simulation of Single Rainfall-Runoff Events (Case Study: Tajan Watershed). Watershed Management Research, 13(26), 69-81 (In Persian). [DOI:10.52547/jwmr.13.26.69]
20. Hong, S., & Lynn, H. S. (2020). Accuracy of random-forest-based imputation of missing data in the presence of non-normality, non-linearity, and interaction. BMC medical research methodology, 20(1), 1-12. [DOI:10.1186/s12874-020-01080-1]
21. Huisman, M. (2009). Imputation of missing network data: Some simple procedures. Journal of Social Structure, 10(1), 1-29. [DOI:10.1007/978-1-4614-7163-9_394-1]
22. Junninen, H., Niska, H., Tuppurainen, K., Ruuskanen, J., & Kolehmainen, M. (2004). Methods for imputation of missing values in air quality data sets. Atmospheric environment, 38(18), 2895-2907. [DOI:10.1016/j.atmosenv.2004.02.026]
23. Kanani, R., Fakheri Fard, A., Ghorbani, M. A., & Dinpashoh, Y. (2020). Trend Analysis of the Streamflow in the Lighvan River hydrometric Stations (Upstream and Downstream). Watershed Management Research, 11(22), 11-19 (In Persian). [DOI:10.52547/jwmr.11.22.11]
24. Kim, M., Baek, S., Ligaray, M., Pyo, J., Park, M., & Cho, K. H. (2015). Comparative studies of different imputation methods for recovering streamflow observation. Water, 7(12), 6847-6860. [DOI:10.3390/w7126663]
25. Kling, H., Fuchs, M., & Paulin, M. (2012). Runoff conditions in the upper Danube basin under an ensemble of climate change scenarios. Hydrology, 424, 264-277. [DOI:10.1016/j.jhydrol.2012.01.011]
26. Knoben, W. J., Freer, J. E., & Woods, R. A. (2019). Inherent benchmark or not? Comparing Nash-Sutcliffe and Kling-Gupta efficiency scores. Hydrology and Earth System Sciences, 23(10), 4323-4331. [DOI:10.5194/hess-23-4323-2019]
27. Koçak, E. Prediction of daily fine particulate matter (PM2. 5) concentration in Aksaray, Turkey: Temporal variation, meteorological dependence, and employing artificial neural network. Environmental Progress & Sustainable Energy, e14355.
28. Lakshminarayan, K., Harp, S. A., & Samad, T. (1999). Imputation of missing data in industrial databases. Applied intelligence, 11(3), 259-275. [DOI:10.1023/A:1008334909089]
29. Liu, J., & Zhang, Y. (2017). Multi-temporal clustering of continental floods and associated atmospheric circulations. Journal of Hydrology, 555, 744-759. [DOI:10.1016/j.jhydrol.2017.10.072]
30. Lopes, A. V., Chiang, J. C. H., Thompson, S. A., & Dracup, J. A. (2016). Trend and uncertainty in spatial‐temporal patterns of hydrological droughts in the Amazon basin. Geophysical Research Letters, 43(7), 3307-3316. [DOI:10.1002/2016GL067738]
31. Mackay, S. J., Arthington, A. H., & James, C. S. (2014). Classification and comparison of natural and altered flow regimes to support an Australian trial of the Ecological Limits of Hydrologic Alteration framework. Ecohydrology, 7(6), 1485-1507. [DOI:10.1002/eco.1473]
32. Marino, S., Zhou, N., Zhao, Y., Wang, L., Wu, Q., & Dinov, I. D. (2019). HDDA: DataSifter: statistical obfuscation of electronic health records and other sensitive datasets. Journal of statistical computation and simulation, 89(2), 249-271. [DOI:10.1080/00949655.2018.1545228]
33. McGregor, G. R. (2019). Climate and rivers. River Research and Applications, 35(8), 1119-1140. [DOI:10.1002/rra.3508]
34. Moriasi, D. N., Arnold, J. G., Van Liew, M. W., Bingner, R. L., Harmel, R. D., & Veith, T. L. (2007). Model evaluation guidelines for systematic quantification of accuracy in watershed simulations. Transactions of the ASABE, 50(3), 885-900. [DOI:10.13031/2013.23153]
35. Muñoz, P., Orellana-Alvear, J., Willems, P., & Célleri, R. (2018). Flash-flood forecasting in an Andean Mountain catchment-development of a step-wise methodology based on the random forest algorithm. Water, 10(11), 1519. [DOI:10.3390/w10111519]
36. Nadi, M., Baziarpour, H., & Raeini sarjaz, M. (2022). Evaluation and modification of Aphrodite precipitation network in estimating monthly and annual precipitation in central parts of Iran. Watershed Management Research, 13(25), 97-104 (In Persian). [DOI:10.52547/jwmr.13.25.97]
37. Norazian, M. N., Shukri, Y. A., Azam, R. N., & Al Bakri, A. M. M. (2008). Estimation of missing values in air pollution data using single imputation techniques. Science Asia, 34(3), 341-345. [DOI:10.2306/scienceasia1513-1874.2008.34.341]
38. Petrone, K. C., Hughes, J. D., Van Niel, T. G., & Silberstein, R. P. (2010). Streamflow decline in southwestern Australia, 1950-2008. Geophysical Research Letters, 37(11). [DOI:10.1029/2010GL043102]
39. Plaia, A., & Bondi, A. L. (2006). Single imputation method of missing values in environmental pollution data sets. Atmospheric Environment, 40(38), 7316-7330. [DOI:10.1016/j.atmosenv.2006.06.040]
40. Poff, N. L., Allan, J. D., Bain, M. B., Karr, J. R., Prestegaard, K. L., Richter, B. D., ... & Stromberg, J. C. (1997). The natural flow regime. BioScience, 47(11), 769-784. [DOI:10.2307/1313099]
41. Sartori, N., Salvan, A., & Thomaseth, K. (2005). Multiple imputation of missing values in a cancer mortality analysis with estimated exposure dose. Computational statistics & data analysis, 49(3), 937-953. [DOI:10.1016/j.csda.2004.06.013]
42. Schafer, J.L. (1997) The Analysis of Incomplete Multivariate Data. Chapman & Hall, London. [DOI:10.1201/9781439821862]
43. Sidibe, M., Dieppois, B., Mahé, G., Paturel, J. E., Amoussou, E., Anifowose, B., & Lawler, D. (2018). Trend and variability in a new, reconstructed streamflow dataset for West and Central Africa, and climatic interactions, 1950-2005. Journal of hydrology, 561, 478-493. [DOI:10.1016/j.jhydrol.2018.04.024]
44. Starrett, S.K., Heier, T., Su, Y., Bandurraga, M., Tuan, D., & Starrett, S. (2010). An example of the impact that filled-in peakflow data can have on flood frequency analysis, in: Challenges of Change - Proceedings of the World Environmental and Water Resources Congress 2010, 2451-2455. [DOI:10.1061/41114(371)252]
45. Stekhoven, D. J., & Bühlmann, P. (2012). MissForest-non-parametric missing value imputation for mixed-type data. Bioinformatics, 28(1), 112-118. [DOI:10.1093/bioinformatics/btr597]
46. Tang, F., & Ishwaran, H. (2017). Random forest missing data algorithms. Statistical Analysis and Data Mining: The ASA Data Science Journal, 10(6), 363-377. [DOI:10.1002/sam.11348]
47. Tao, N., Chen, Y., Wu, Y., Wang, X., Li, L., & Zhu, A. (2019). The terpene limonene induced the green mold of citrus fruit through regulation of reactive oxygen species (ROS) homeostasis in Penicillium digitatum spores. Food chemistry, 277, 414-422. [DOI:10.1016/j.foodchem.2018.10.142]
48. Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., ... & Altman, R. B. (2001). Missing value estimation methods for DNA microarrays. Bioinformatics, 17(6), 520-525. [DOI:10.1093/bioinformatics/17.6.520]
49. Tyralis, H., Papacharalampous, G., & Langousis, A. (2019). A brief review of random forests for water scientists and practitioners and their recent history in water resources. Water, 11(5), 910. [DOI:10.3390/w11050910]
50. Ukkola, A. M., Keenan, T. F., Kelley, D. I., & Prentice, D. I. (2016). Vegetation plays an important role in mediating future water resources. Environmental Research Letters, 11(9), 094022. [DOI:10.1088/1748-9326/11/9/094022]
51. Van Buuren, S. (2007). Multiple imputation of discrete and continuous data by fully conditional specification. Statistical methods in medical research, 16(3), 219-242. [DOI:10.1177/0962280206074463]
52. Vega-Garcia, C., Decuyper, M., & Alcázar, J. (2019). Applying cascade-correlation neural networks to in-fill gaps in Mediterranean daily flow data series. Water, 11(8), 1691. [DOI:10.3390/w11081691]
53. Waljee, A. K., Mukherjee, A., Singal, A. G., Zhang, Y., Warren, J., Balis, U., Marrero, J., Zhu, J., & Higgins, P. D. (2013). Comparison of imputation methods for missing laboratory data in medicine. BMJ open, 3(8), e002847. [DOI:10.1136/bmjopen-2013-002847]
54. Widaman, K. F. (2006). Best practices in quantitative methods for developmentalists: III. Missing data: What to do with or without them. Monographs of the Society for Research in Child Development, 7(1), 210-211.
55. Williams, L. S., Khosravi, B., Velimirovic, M., Khouri, J., Raza, S., Mazzoni, S., ... & Anwer, F. (2023). An Ensemble Machine Learning Model Using Gradient Boosting Identifies Patients with Disease Progression in Newly Diagnosed Multiple Myeloma. Blood, 142, 1990.0. [DOI:10.1182/blood-2023-188762]
56. Zhang, Y., & Post, D. (2018). How good are hydrological models for gap-filling streamflow data? Hydrology and Earth System Sciences, 22(8), 4593-4604. [DOI:10.5194/hess-22-4593-2018]

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به (پژوهشنامه مدیریت حوزه آبخیز (علمی-پژوهشی می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

© 2024 CC BY-NC 4.0 | Journal of Watershed Management Research

Designed & Developed by : Yektaweb