1- دانشگاه ارومیه
2- دانشگاه صنعتی سهند
چکیده: (40 مشاهده)
چکیده مبسوط
مقدمه و هدف: اندازهگیریهای جریان رودخانه و دادههای آن در مدیریت منابع آب، کنترل سیل، حفاظت و احیای رودخانه، بازسازی جریان اهمیت بسزایی دارد. اکثر طرحهای کنترل سیل و دبی طراحی در پروژههای مدیریت و احیای رودخانه توسط تحلیلهای هیدرولوژیکی و هیدرولیکی مبتنی بر دبی مشاهداتی حوزه تخمین زده میشوند. پایه مطالعات هیدرولوژیکی، به دادههای آماری مشاهداتی وابسته بوده و این دادهها در اغلب موارد دارای خطاهای متعدد هستند. داده پرت دادهای است که از نرم طبیعی فاصله گرفته است و باعث بروز خطا در محاسبات میشود. روشهای تشخیص دادههای پرت شامل روشهای نظارت شده، نیمه نظارت شده و نظارت نشده میباشند و برخی روشهای مبتنی بر توزیع، مبتنی بر خوشهبندی و مبتنی بر چگالی را شامل میشوند. به دلیل خطای محاسباتی، مقادیر صحیح خاص، گزارش اشتباه و یا خطای نمونهبرداری و همچنین به دلیل خطاهای انسانی و ابزاری ممکن است مواردی مانند ثبت نشدن آمار، ثبت آمار غلط، خرابی یا ازبین رفتن دستگاههای اندازهگیری یا تشخیص دادههای پرت و حذف آنها با عنوان دادههای گمشده پیش آید، بنابراین تخمین و برآورد این دادهها برای استفاده در مدلها ضروری بوده و بمنظور کاهش بروز خطا میبایست پیش از به کارگیری آنها پیش پردازش صورت گیرد. عملیات پیش پردازش، سری داده را برای محاسبات از جمله کلاسهبندی، پیشبینی و تخمین آماده میکند و شامل حذف دادههای گم شده، حذف دادههای پرت، بازسازی مقادیر گم شده، و نرمالسازی دادهها میباشد.
مواد و روشها: در این تحقیق بمنظور تشخیص دادههای پرت و بازسازی دادههای گمشده و ناقص سری زمانی دادههای هیدرولوژی از دادههای دبی ماهانه 6 ایستگاه هیدرومتری و دادههای اقلیمی 16 ایستگاه بارانسنجی در حوزه زرینهرود در نرمافزار R برنامهنویسی و مورد بررسی قرار گرفتند. حوزه آبخیز زرینهرود، بزرگترین حوضه آبخیز دریاچه ارومیه است. بمنظور آزمون نرمال بودن دادهها از آزمون شاپیرو-ویلک و کولموگروف-اسمیرنف استفاده گردید که مطابق نتایج بدست آمده دادههای مورد استفاده دارای توزیع نرمال نبوده و پس از نرمالسازی دادهها محاسبات دادههای پرت به روشهای نمودار جعبهای، z-score، هیستوگرام، مربع کای، میانگین و انحراف معیار و روش میانه انجام شد و دادههایی که از بالاترین مقدار مشخص شده بیشتر بوده و حذف گردیدند. بهمنظور نسبتدهی و جایگذاری مقادیر گمشده از الگوریتمهای KNN، رگرسیون لاسو و رگرسیون خطی بیزین استفاده گردید. روش رگرسیون لاسو یک روش منظمسازی میباشد که هدف آن کاهش پیچیدگی مدل و جلوگیری از بیش برازشی است همچنین رگرسیون خطی بیزین نوعی تحلیل آماری است که ترکیبی از روشهای رگرسیون خطی و بیزین را استفاده میکند. الگوریتم KNN یکی از روشهای مبتنی بر نمونه میباشد که به مدلهای ناپارامتری و طبقهبندی یادگیری نظارت شده مرتبط میباشد. برای ارزیابی دقت الگوریتمهای نسبتدهی دادههای گمشده از روش Cross Validation استفاده گردید و در ادامه، جهت محاسبه دقت روشهای تخمین از دو معیار RMSE و R2 استفاده شده است.
یافتهها: نتایج آماری حاصل نشان میدهد که مقادیر p-value در هر 6 ایستگاه مورد مطالعه کمتر از 05/0 بوده است. بهمنظور ارزیابی صحت و دقت روش KNN از واعتبارسنجی متقابل استفاده گردید. مقادیر RMSE کمتر و نزدیک به صفر و R2 بالاتر از 7/0 در تمامی ایستگاهها نشان دادند که روش KNN یک روش مطمئن و دقیق در نسبتدهی و جایگذاری مقادیر گمشده میباشد و در مقایسه با روش رگرسیون لاسو و رگرسیون خطی بیزین نتایج بسیار دقیقتر و مطمئنتری را ارائه میدهد و موجب اختلال در روند سری داده نمیگردد. مقادیر پرت ایستگاههای جانآقا و دره پنبهدان در ادامه و در نرمالسازی حذف گردید. چولگی و وجود داده پرت در روش هیستوگرام به ویژه ایستگاههای جانآقا، ساریقمیش و پل آدینان بابینظمی همراه بوده و توزیع ناهمگن و غیر نرمال دارند که پس از نرمالسازی، دادههای پرت مشخص شده و حذف شدند. میزان p-value در هر دو آزمون شاپیرو-ویلک و کولموگروف-اسمیرنف مقادیری بسیار کمتر از 05/0 را نشان داده است و گواه این مطلب است که دادهها در محدوده نرمال قرار دارند و نرمالسازی دادهها و حذف مقادیر پرت با دقت بالایی انجام شده است و درنتیجه محاسبه مقادیر پرت و شناسایی آنها معنیدار است. آزمون روزنر برای هر سری داده مقدار حد بالا را در دو تست متوالی ارائه داده است و همان مقدار و مقادیر بالاتر از آن را به عنوان داده پرت در نظر میگیرد. نتایج مطابقت تابع چگالی احتمال مقادیر مشاهدهای و نسبتدهی شده به روش KNN نشان از تطابق قابل قبول دو تابع چگالی احتمال داشته و این روش در نسبتدهی مقادیر حداکثر، متوسط و حداقل نسبت به دو روش دیگر در ایستگاههای مورد مطالعه موفق عمل کرده است.
نتیجهگیری: با توجه به نتایج بدست آمده نمودار جعبهای دادههایی که خارج از ساقه قرار گیرند به عنوان داده پرت معرفی میکند و بر همین اساس در نمودارهای جعبهای تعداد دادههای پرت در مقایسه با سایر روشها به مقدار زیادی تشخیص داده میشود که بنظر میرسد روش مناسبی برای تشخیص داده پرت در دادههای هیدرولوژیکی نباشد. روش KNN در تعیین دادههای گمشده با استفاده از دادههای مشاهداتی متناظر، در بین دو روش دیگر بسیار موثر عمل نموده است. دراین مطالعه سری دادهها نرمالسازی و سپس مقادیر دادههای پرت در آنها محاسبه گردید و نسبت به تعیین مقادیر محاسبه نشده و گمشده از روش KNN استفاده شد. در دادههای دارای روند تغییرات کمتر، KNN بسیار دقیق عمل مینماید و یکی از دقیقترین و مطمئنترین روشهای نسبتدهی و جایگذاری دادههای گمشده میباشد. به منظور اعتباریابی روش KNN، رگرسیون لاسو و رگرسیون بیزین از روش اعتبارسنجی متقابل یا Cross Validation استفاده شده است. با توجه به نتایج بدست آمده الگوریتم KNN ضریب تبیین بالاتر از 7/0 و مقادیر RMSE نزدیک به صفر را نشان داده است. روش KNN کارایی مطلوبی را در تخمین مقادیر گمشده در جریانهای پیوسته و ناپیوسته نسبت به دو روش دیگر ارائه میدهد. این اثربخشی به توانایی KNN در دستیابی به مقدار بهینه نزدیکترین همسایه برمیگردد که آنرا برای پیشبینی دقیق در شرایطی که جریان به حداقل رسیده باشد هم مناسب میسازد. دقت KNN به دلیل سادگی محاسبات و نیز اثر بالای آن در محاسبه و نسبتدهی دادههای گمشده و گمشده است که در عین حال ساختار سری داده را نیز حفظ میکند.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
هيدرولوژی دریافت: 1403/11/21 | پذیرش: 1404/3/25