<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Journal of Watershed Management Research</title>
<title_fa>پ‍‍ژوهشنامه مديريت حوزه آبخيز</title_fa>
<short_title>J Watershed Manage Res</short_title>
<subject>Agriculture</subject>
<web_url>http://jwmr.sanru.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2251-6174</journal_id_issn>
<journal_id_issn_online>2676-4636</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.61882/jwmr</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid></journal_id_sid>
<journal_id_nlai></journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1404</year>
	<month>6</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2025</year>
	<month>9</month>
	<day>1</day>
</pubdate>
<volume>16</volume>
<number>2</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>ارزیابی روش‎ های تشخیص و بازسازی مقادیر پرت و گمشده در سری داده‌های هیدرولوژیکی حوزه آبخیز زرینه‌رود، دریاچه ارومیه</title_fa>
	<title>An Evaluation of Techniques for Outlier Detection and Missing Values Imputation of Hydrological Data Series in the Zarrineh-Roud Basin, Lake Urmia</title>
	<subject_fa>هيدرولوژی</subject_fa>
	<subject>هيدرولوژی</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research</content_type>
	<abstract_fa>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;line-height:2;&quot;&gt;&lt;span style=&quot;font-size:12px;&quot;&gt;&lt;span style=&quot;font-family:IRANsharp;&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;چکیده مبسوط&lt;/span&gt;&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12px;&quot;&gt;&lt;span style=&quot;font-family:IRANsharp;&quot;&gt;&lt;span style=&quot;line-height:2;&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot;&gt;مقدمه و هدف:&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt; اندازه&#8204;گیری&#8204;های جریان رودخانه و داده&#8204;های آن در مدیریت منابع آب، کنترل سیل، حفاظت و احیای رودخانه، بازسازی جریان اهمیت &#8204;بسزایی دارند. اکثر طرح&#8204;های کنترل سیل و دبی طراحی در پروژه&#8204;های مدیریت و احیای رودخانه توسط تحلیل&#8204;های هیدرولوژیکی و هیدرولیکی مبتنی بر دبی مشاهداتی حوزه تخمین زده می&#8204;شوند. پایه مطالعات هیدرولوژیکی به داده&#8204;های آماری مشاهداتی وابسته است و این داده&#8204;ها در اغلب موارد دارای خطاهای متعدد هستند. داده پرت داده&#8204;ای است که از نرم طبیعی فاصله گرفته است و باعث بروز خطا در محاسبات می&#8204;شود. روش&#8204;های تشخیص داده&#8204;های پرت شامل روش&#8204;های نظارت&amp;lrm; شده، نیمه نظارت&amp;lrm; شده و نظارت&amp;lrm; نشده هستند و برخی روش&#8204;های مبتنی بر توزیع، مبتنی بر خوشه&#8204;بندی و مبتنی بر چگالی را شامل می&#8204;شوند. به&amp;lrm; دلیل خطای محاسباتی، مقادیر صحیح خاص، گزارش اشتباه و یا خطای نمونه&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;برداری و همچنین به دلیل خطاهای انسانی و ابزاری ممکن است مواردی مانند ثبت نشدن آمار، ثبت آمار غلط، خرابی یا ازبین رفتن دستگاه&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های اندازه&#8204;گیری یا تشخیص داده&#8204;های پرت و حذف آن&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ها با عنوان داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های گم&#8204;شده پیش آید. بنابراین، تخمین و برآورد این داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ها برای استفاده در مدل&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ها ضروری است و به منظور کاهش بروز خطا باید پیش از به کارگیری آن&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ها پیش&amp;lrm; پردازش صورت گیرد. عملیات پیش &amp;lrm;پردازش، سری داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt; را برای محاسبات از جمله کلاسه&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;بندی، پیش&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;بینی و تخمین آماده می&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;کند و شامل حذف داده&amp;rlm; های گم&amp;lrm;شده، حذف داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های پرت، بازسازی مقادیر گم&amp;lrm;شده، و نرمال&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;سازی داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ها است.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot;&gt;مواد و روش&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot;&gt;ها:&lt;/span&gt;&lt;/b&gt; &lt;span lang=&quot;FA&quot;&gt;در این تحقیق، به&amp;lrm; منظور تشخیص داده&#8204;های پرت و بازسازی داده&#8204;های گمشده و ناقص سری زمانی داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های هیدرولوژی، داده&#8204;های دبی ماهانه شش ایستگاه هیدرومتری و داده&#8204;های اقلیمی 16 ایستگاه باران&#8204;سنجی در حوزه زرینه&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;AR-SA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;رود در نرم&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;AR-SA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;افزار &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;R&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; برنامه&#8204;نویسی و مورد بررسی قرار گرفتند&lt;/span&gt;&lt;span lang=&quot;AR-SA&quot;&gt;. &lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;حوزه آبخیز زرینه&amp;lrm;رود بزرگترین حوضه آبخیز دریاچه ارومیه است.&lt;/span&gt;&lt;span lang=&quot;AR-SA&quot;&gt; به&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;&amp;lrm;&amp;nbsp;&lt;/span&gt;&lt;span lang=&quot;AR-SA&quot;&gt;منظور آزمون نرمال&#8204; بودن داده&#8204;ها از آزمون&#8204; &lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;شاپیرو-ویلک و &lt;/span&gt;&lt;span lang=&quot;AR-SA&quot;&gt;کولموگروف-اسمیرنف استفاده گردید که مطابق نتایج به&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;&amp;lrm;&amp;nbsp;&lt;/span&gt;&lt;span lang=&quot;AR-SA&quot;&gt;دست آمده داده&#8204;های مورد استفاده دارای &lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;توزیع نرمال نبودند و پس از نرمال&#8204;سازی داده&#8204;ها محاسبات داده&#8204;های پرت به روش&#8204;های نمودار جعبه&#8204;ای، &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;z-score&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;، هیستوگرام، مربع کای، میانگین و انحراف معیار و روش میانه انجام شد و داده&amp;rlm; هایی که از بالاترین مقدار مشخص &amp;lrm;شده بیشتر بودند حذف گردیدند. به&#8204;منظور نسبت&#8204;دهی و جایگذاری مقادیر گمشده از الگوریتم&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;، رگرسیون لاسو و رگرسیون خطی بیزین استفاده گردید. روش رگرسیون لاسو یک روش منظم&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;سازی است که هدف آن کاهش پیچیدگی مدل و جلوگیری از بیش &amp;shy;برازشی است. رگرسیون خطی بیزین نوعی تحلیل آماری است که ترکیبی از روش&#8204;های رگرسیون خطی و بیزین را استفاده می&#8204;کند. الگوریتم &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; یکی از روش&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;های مبتنی بر نمونه است که با مدل&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;های ناپارامتری و طبقه&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;بندی یادگیری نظارت&amp;lrm; شده ارتباط دارد. برای ارزیابی دقت الگوریتم&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های نسبت&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;دهی داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های گمشده از روش &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;Cross Validation&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; استفاده گردید و در ادامه، جهت محاسبه دقت روش&#8204;های تخمین از دو معیار &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;RMSE&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; و &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;R&lt;sup&gt;2&lt;/sup&gt;&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; استفاده شد. &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot;&gt;یافته&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot;&gt;ها:&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt; نتایج آماری حاصل نشان می&#8204;دهند که مقادیر &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;p-value&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; در هر شش ایستگاه مورد مطالعه کمتر از 0/05 بودند. به&#8204;منظور ارزیابی صحت و دقت روش &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; از اعتبارسنجی متقابل استفاده گردید. مقادیر &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;RMSE&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; کمتر و نزدیک به صفر و &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;R&lt;sup&gt;2&lt;/sup&gt;&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; بالاتر از 0/7 در تمامی ایستگاه&#8204;ها نشان دادند که روش &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; یک روش مطمئن و دقیق در نسبت&#8204;دهی و جایگذاری مقادیر گمشده بود و در مقایسه با روش رگرسیون لاسو و رگرسیون خطی بیزین نتایج بسیار دقیق&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;تر و مطمئن&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;تری را ارائه داد و موجب اختلال در روند سری داده نشد. مقادیر پرت ایستگاه&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های جان&#8204;آقا و دره پنبه&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;دان در ادامه و در نرمال&#8204;سازی حذف گردیدند. چولگی و وجود داده پرت در روش هیستوگرام به ویژه ایستگاه&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های جان&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;آقا، ساریقمیش و پل آدینان بابی&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;نظمی همراه بودند و توزیع ناهمگن و غیر نرمال داشتند که پس از نرمال&amp;rlm;سازی، داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های پرت مشخص و حذف شدند. میزان &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;p-value&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; در هر دو آزمون شاپیرو-ویلک و کولموگروف-اسمیرنف مقادیری بسیار کمتر از 0/05 را نشان داد و گواه این مطلب است که داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ها در محدوده نرمال قرار دارند و نرمال&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;سازی داده&#8204;ها و حذف مقادیر پرت با دقت بالایی انجام شده است و درنتیجه محاسبه مقادیر پرت و شناسایی آن&#8204;ها معنی&#8204;دار است. آزمون روزنر برای هر سری داده مقدار حد بالا را در دو تست متوالی ارائه داده است و همان مقدار و مقادیر بالاتر از آن را به عنوان داده پرت در نظر می&#8204;گیرد. نتایج مطابقت تابع چگالی احتمال مقادیر مشاهده&#8204;ای و نسبت&#8204;دهی شده به&amp;lrm; روش &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; نشان از تطابق قابل قبول دو تابع چگالی احتمال داشتند و این روش در نسبت&#8204;دهی مقادیر حداکثر، متوسط و حداقل نسبت به دو روش دیگر در ایستگاه&amp;lrm; های مورد مطالعه موفق عمل کرد. &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot;&gt;نتیجه&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot;&gt;گیری:&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt; با توجه به نتایج به&amp;lrm; دست آمده از نمودار جعبه&#8204;ای، داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;هایی که خارج از ساقه قرار گیرند را به عنوان داده پرت معرفی می&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;کند و بر همین اساس در نمودارهای جعبه&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ای تعداد داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های پرت در مقایسه با سایر روش&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ها به مقدار زیادی تشخیص داده می&#8204;شود که به &amp;lrm;نظر می&#8204;رسد روش مناسبی برای تشخیص داده پرت در داده&#8204;های هیدرولوژیکی نباشد. روش &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; در تعیین داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های گمشده با استفاده از داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های مشاهداتی متناظر، در بین دو روش دیگر بسیار موثر عمل نمود. در این مطالعه، سری داده&#8204;ها نرمال&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;سازی و سپس مقادیر داده&#8204;های پرت در آن&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ها محاسبه گردید و برای تعیین مقادیر محاسبه نشده و&amp;nbsp; گمشده از روش &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; استفاده شد. در داده&#8204;های دارای روند تغییرات کمتر، &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; بسیار دقیق عمل می&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;نماید و یکی از دقیق&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ترین و مطمئن&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;ترین روش&#8204;های نسبت&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;دهی و جایگذاری داده&#8204;های گمشده است. به منظور اعتباریابی روش &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;، رگرسیون لاسو و رگرسیون بیزین از روش اعتبارسنجی متقابل یا &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;Cross Validation&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; استفاده شد. با توجه به نتایج به دست آمده، الگوریتم &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; ضریب تبیین بالاتر از 0/7 و مقادیر &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;RMSE&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; نزدیک به صفر را نشان داد. روش &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; کارایی مطلوبی را در تخمین مقادیر&amp;nbsp; گمشده در جریان&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های پیوسته و ناپیوسته نسبت به دو روش دیگر ارائه می&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;دهد. این اثربخشی به توانایی &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; در دستیابی به مقدار بهینه نزدیک ترین همسایه برمی&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;گردد که آن&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;را برای پیش&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;بینی دقیق در شرایطی که جریان به حداقل رسیده باشد هم مناسب می&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;سازد. دقت &lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;KNN&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt; به&lt;/span&gt;&lt;span dir=&quot;LTR&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;span lang=&quot;FA&quot;&gt;دلیل سادگی محاسبات و نیز اثر بالای آن در محاسبه و نسبت&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;دهی داده&lt;/span&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot;&gt;های گمشده و گمشده است که در عین حال ساختار سری داده را نیز حفظ می&amp;rlm; کند.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot;&gt;&lt;span style=&quot;font-family:&quot;2  Mitra&quot;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&amp;nbsp;&lt;/div&gt;</abstract_fa>
	<abstract>&lt;p style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;line-height:2;&quot;&gt;&lt;span style=&quot;font-size:14px;&quot;&gt;&lt;span style=&quot;font-family:Times New Roman;&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;span lang=&quot;EN&quot;&gt;Extended Abstract&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;br&gt;
&lt;b&gt;Background&lt;span lang=&quot;EN&quot;&gt;: &lt;/span&gt;&lt;/b&gt;Accurate river flow measurements are essential for effective water resource management, flood mitigation, river conservation and restoration, and stream rehabilitation. The majority of flood control and design flow strategies in river management and restoration initiatives are derived from hydrological and hydraulic analyses based on observed river flow. Hydrological investigations are fundamentally reliant on observational statistical data, which frequently contain multiple errors. Outliers, which are defined as data points deviating significantly from the norm, can introduce substantial calculation errors. Outlier detection techniques include supervised, semi-supervised, and unsupervised approaches, which may include distribution-based, clustering-based, and density-based methods. These errors can arise from computational issues, misreporting, sampling inaccuracies, and human or instrumental errors, leading to problems such as unrecorded data, incorrect values, equipment failure or loss, and the misidentification of outliers as missing data. Consequently, the estimation and assessment of these data are essential for their application in models, and to mitigate mistakes, preprocessing must be performed before their utilization. Preprocessing methods prepare data series for computations, such as classification, prediction, and estimation, and include the elimination of missing data, removal of outliers, imputation of missing values, and data normalization.&lt;br&gt;
&lt;b&gt;Method:&lt;/b&gt; This study utilized flow and rainfall data from six hydrometeorological stations and 16 rain stations to identify outliers and impute missing or incomplete hydrological values. The data, obtained from the Zarrineh-roud basin, were implemented using R software. The Zarrineh River watershed constitutes the largest watershed of Lake Urmia. Normalization tests, including the Shapiro-Wilk and Kolmogorov-Smirnov tests, were used to normalize the data, and the findings indicated that the data did not conform to a normal distribution. Subsequent to data normalization, outlier detection was executed using approaches including boxplot, z-score, histogram, chi-square, mean and standard deviation, and median techniques. Values exceeding the established maximum were removed. Missing values were imputed using K-Nearest Neighbor (KNN), Lasso regression, and Bayesian linear regression. Lasso regression is a regularization technique designed to diminish model complexity and avoid overfitting. Bayesian linear regression is a statistical analysis method that integrates linear regression with Bayesian techniques. The KNN algorithm is a sample-based method related to nonparametric models and supervised learning classification. Cross-validation was used to assess the accuracy of the imputation methods, with RMSE and R&amp;sup2; serving as performance metrics.&lt;br&gt;
&lt;b&gt;Result:&lt;/b&gt; According to the results, P-values at all six study stations were less than 0.05. The cross-validation approach was used to assess the accuracy and precision of the KNN, Lasso regression, and linear Bayesian regression techniques. RMSE values near zero and R&amp;sup2; values above 0.7 across all stations indicated that KNN was a robust and accurate method for missing value imputation. It provides significantly more accurate and reliable outcomes without reshaping the data series trend than Lasso regression and Bayesian linear regression. Outliers were removed from the Jan-Agha and Darreh Pandedan stations during normalization. Histogram analysis revealed skewness and outliers at the Jan-Agha, Sariqamish, and Pol-Anyan stations, indicating a heterogeneous and non-normally distributed dataset. Outliers were identified and removed following normalization. The Shapiro-Wilk and Kolmogorov-Smirnov tests yielded p-values significantly below 0.05 after normalization, confirming a normal distribution. This suggests that the normalization process and outlier removal were executed with precision, indicating the significan detection and estimation of outliers. The Rosner test established the upper limit for each data series across two successive tests, classifying values beyond this limit as outliers. The consistency of the probability density functions between the observed and imputed values using the KNN method indicates an adequate alignment of the two probability density functions. This method has proved effective in imputing the maximum, average, and minimum values relative to the other two methods at the studied stations.&lt;br&gt;
&lt;b&gt;Conclusion:&lt;/b&gt; The results of this investigation indicate that the boxplot identifies data values outside the lines as outliers, leading to a substantial number of outliers being detected compared to the other methods.&amp;nbsp; Consequently, this method is considered unsuitable for outlier detection in hydrological data. KNN proved highly effective for missing data imputation compared to Lasso regression and Bayesian linear regression. This study involved normalizing the data series, calculating the values of outliers, and employing the KNN algorithm to identify incomplete or unmeasured and missing values. In datasets exhibiting little variation, KNN has high accuracy and is regarded as one of the most valuable and dependable techniques for attributing and imputing missing values. Cross-validation confirmed the performance of KNN, Lasso regression, and Bayesian linear regression. KNN achieved R&amp;sup2; values above 0.7 and RMSE values close to zero. KNN outperformed the other two methods in estimating missing values in continuous and discontinuous flow data. This effectiveness is attributed to KNN&amp;#39;s ability to identify optimal nearest neighbor values, making it suitable for accurate predictions, even during low flow periods. The precision of KNN stems from its computational simplicity and high efficacy in calculating and imputing missing values while preserving the integrity of the data series.&lt;br&gt;
&lt;br&gt;
&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;</abstract>
	<keyword_fa>حوضه زرینه رود, رگرسیون لاسو, رگرسیون خطی بیزین, شاپیرو-ویلک, نزدیکترین همسایه</keyword_fa>
	<keyword>Bayesian linear regression, K Nearest Neighbor, Lasso regression, Shapiro-Wilk test, Zarrineh-roud basin</keyword>
	<start_page>19</start_page>
	<end_page>34</end_page>
	<web_url>http://jwmr.sanru.ac.ir/browse.php?a_code=A-10-355-7&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Edith</first_name>
	<middle_name></middle_name>
	<last_name>Eishoeei</last_name>
	<suffix></suffix>
	<first_name_fa>ادیت</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>عیشویی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>edith_101010@yahoo.com</email>
	<code>100319475328460015399</code>
	<orcid>100319475328460015399</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Department of Watershed Management Engineering, Natural Resources Faculty, Urmia University, Urmia, Iran</affiliation>
	<affiliation_fa>گروه علوم و مهندسی آبخیزداری، دانشکده منابع طبیعی، دانشگاه ارومیه، ارومیه، ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Mirhassan </first_name>
	<middle_name></middle_name>
	<last_name>Miryaghoubzadeh</last_name>
	<suffix></suffix>
	<first_name_fa>میرحسن</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>میریعقوب‌زاده</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>m.miryaghoubzadeh@urmia.ac.ir</email>
	<code>100319475328460015400</code>
	<orcid>100319475328460015400</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Department of Watershed Management Engineering, Natural Resources Faculty, Urmia University, Urmia, Iran</affiliation>
	<affiliation_fa>گروه علوم و مهندسی آبخیزداری، دانشکده منابع طبیعی، دانشگاه ارومیه، ارومیه، ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Mahdi</first_name>
	<middle_name></middle_name>
	<last_name>Erfanian</last_name>
	<suffix></suffix>
	<first_name_fa>مهدی</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>عرفانیان</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>m.erfanian@urmia.ac.ir</email>
	<code>100319475328460015401</code>
	<orcid>100319475328460015401</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Department of Watershed Management Engineering, Natural Resources Faculty, Urmia University, Urmia, Iran</affiliation>
	<affiliation_fa>گروه علوم و مهندسی آبخیزداری، دانشکده منابع طبیعی، دانشگاه ارومیه، ارومیه، ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Reza</first_name>
	<middle_name></middle_name>
	<last_name>Mahboobi Esfanjani </last_name>
	<suffix></suffix>
	<first_name_fa>رضا</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>محبوبی اسفنجانی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>mahboobi@sut.ac.ir</email>
	<code>100319475328460015402</code>
	<orcid>100319475328460015402</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Department of Electrical Engineering, Faculty of Electrical Engineering, Sahand University of Technology, Tabriz, Iran</affiliation>
	<affiliation_fa>گروه مهندسی برق، دانشکده مهندسی برق و کامپیوتر، دانشگاه صنعتی سهند، تبریز، ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Marco </first_name>
	<middle_name></middle_name>
	<last_name>Mancini</last_name>
	<suffix></suffix>
	<first_name_fa>مارکو</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>مانچینی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>marco.mancini@polimi.it</email>
	<code>100319475328460015403</code>
	<orcid>100319475328460015403</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Department of Civil and Environmental Engineering, Politecnico di Milano, Milan, Italy</affiliation>
	<affiliation_fa>گروه مهندسی عمران، دانشکده مهندسی محیط زیست و عمران، دانشگاه پلی‌تکنیک میلان، میلان، ایتالیا</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
