خطای ریشه میانگین مربعات چیست و چگونه محاسبه می‌شود؟ـبا بیانی ساده
داده های نامتوازن

خطای ریشه میانگین مربعات چیست و چگونه به دست می آید؟

در دنیای امروز، بهبود دقت پیش‌بینی‌ها و ارزیابی مدل‌های مختلف اهمیت بالایی دارد. یکی از معیارهای پرکاربرد و رایج برای سنجش کیفیت مدل، «خطای جذر میانگین مربعات» یا Root Mean Square Error (RMSE) است. این معیار نشان‌دهنده میزان تطابق منحنی تابع با داده‌ها یا فاصله بین پیش‌بینی‌ها و مقادیر واقعی است.

در این مقاله با مفهوم خطای جذر میانگین مربعات (RMSE) به زبان ساده آشنا خواهید شد. ابتدا تعریفی از این خطا ارائه می‌دهیم و به بررسی نقش آن در یادگیری ماشین می‌پردازیم. سپس، مثالی کاربردی برای درک بهتر این مفهوم آورده می‌شود. در ادامه، فرمول دقیق محاسبه RMSE را تشریح کرده و به نقاط قوت و ضعف این معیار ارزیابی خواهیم پرداخت.

همچنین، نقش خطای RMSE در سیستم اطلاعات جغرافیایی (GIS) و نحوه ارزیابی دقت مدل‌های رقومی ارتفاع (DEM) با استفاده از این پارامتر توضیح داده می‌شود. در پایان نیز روش محاسبه خطای RMSE در نرم‌افزار Excel را به شما آموزش می‌دهیم تا بتوانید این مهارت را به‌صورت عملی به‌کار بگیرید. 

با مطالعه این مقاله، دیدگاهی کامل و کاربردی از خطای جذر میانگین مربعات (RMSE) و شیوه‌های محاسبه و تحلیل آن خواهید داشت.
برای آموزش هوش مصنوعی کلیک کنید.

داده های نامتوازن

تعریف خطای جذر میانگین مربعات

خطای جذر میانگین مربعات (RMSE) یک معیار است که اختلاف بین مقادیر پیش‌بینی‌شده و واقعی را محاسبه می‌کند. از دیدگاه ریاضی، RMSE معادل انحراف معیار «مقادیر باقیمانده» (Residuals) است، که نشان‌دهنده فاصله بین خط رگرسیونی و نقاط داده است. در واقع، RMSE میزان پراکندگی مقادیر باقیمانده یا نزدیکی مقادیر واقعی به مقادیر پیش‌بینی‌شده را بیان می‌کند.

فاصله میان مقادیر حقیقی و پیش‌بینی شده

هر چه نقاط داده به خط رگرسیونی نزدیک‌تر باشند، خطای مدل و به دنبال آن مقدار RMSE کمتر خواهد بود. مدل‌هایی که خطای کمتری دارند، نتایج و پیش‌بینی‌های دقیق‌تری ارائه می‌دهند. مقادیر RMSE از صفر تا مثبت بی‌نهایت متغیر است و واحد آن با متغیر وابسته یا هدف یکسان است. RMSE برای ارزیابی خطا در مدل‌های رگرسیون و دیگر مدل‌های آماری کاربرد دارد. اگر مقدار خطا برابر با صفر باشد، نشان می‌دهد که مقادیر پیش‌بینی‌شده دقیقاً با مقادیر واقعی یکسان هستند، هرچند این حالت بسیار نادر است.

مقدار پایین RMSE نشان می‌دهد که مدل یادگیری ماشین به‌خوبی با داده‌ها تطابق دارد و پیش‌بینی‌هایی با دقت بالا ارائه می‌دهد. در مقابل، مقادیر بالای RMSE به معنای خطای بیشتر و دقت کمتر پیش‌بینی‌ها است. متخصصان علم داده از RMSE در حوزه‌هایی مانند اقلیم‌شناسی، پیش‌بینی آب و هوا، اقتصاد و امور مالی بهره می‌برند. RMSE یک معیار مهم برای ارزیابی در «مدل‌سازی پیش‌بین» (Predictive Modeling) است و در بررسی عملکرد مدل‌های یادگیری ماشین نقش کلیدی دارد.

مثالی از خطای جذر میانگین مربعات

حال که با مفهوم خطای جذر میانگین مربعات (RMSE) آشنا شدیم، در اینجا با یک مثال کاربردی نحوه عملکرد این معیار ارزیابی را بررسی می‌کنیم. فرض کنید هدف ما طراحی یک مدل رگرسیونی برای پیش‌بینی نمرات نهایی دانش‌آموزان است. در این مدل، نمرات نهایی به عنوان متغیر وابسته در نظر گرفته می‌شود و میزان ساعت مطالعه و نمرات میان‌ترم به عنوان متغیرهای مستقل انتخاب می‌شوند. اگر مقدار RMSE مدل ۴ باشد، به این معناست که به‌طور متوسط اختلافی به اندازه ۴ نمره بین پیش‌بینی‌های مدل و نمرات واقعی دانش‌آموزان وجود دارد. با استفاده از این مقدار می‌توان به کارایی مدل رگرسیون پی برد.

A-plot-with-scattered-data-points-which-represents-an-example-of-root-mean-square-error_11zon_11zon

برای مثال، اگر دامنه نمرات نهایی بین ۰ تا ۱۰۰ باشد، RMSE برابر با ۴ نشان‌دهنده دقت بالای پیش‌بینی‌ها با نرخ خطای میانگین ۴ درصد است. سپس می‌توانیم بررسی کنیم که آیا این میزان خطا برای نیاز ما مناسب است یا خیر. همچنین از RMSE برای تخمین فاصله پیش‌بینی ۹۵ درصدی استفاده می‌شود. به عبارت دیگر، اگر توزیع مقادیر باقیمانده نرمال باشد، تقریباً ۹۵ درصد از داده‌های دیتاست در فاصله        + /- 2× Rmse از مقادیر پیش‌بینی‌شده قرار خواهند گرفت.

در مثال ما که RMSE برابر ۴ است، ۹۵ درصد از نمرات واقعی دانش‌آموزان با فاصله ۸ نمره‌ای از پیش‌بینی‌های مدل قرار دارند، یعنی:

                                                    8 – / + = 4 × 2 – / +

توجه داشته باشید که حتی با RMSE پایین نیز احتمال کم‌برازش (Underfitting) مدل وجود دارد. بنابراین برای اطمینان بیشتر، لازم است نمودار مقادیر باقیمانده نیز بررسی شود.

فرمول محاسبه خطای جذر میانگین مربعات (RMSE)

پس از آشنایی با مفهوم خطای جذر میانگین مربعات (RMSE) و ارائه مثالی از نحوه کاربرد آن، در این بخش به فرمول محاسبه این معیار ارزیابی می‌پردازیم. فرمول RMSE شباهت زیادی به فرمول انحراف معیار دارد، زیرا این معیار در واقع انحراف معیار مقادیر باقیمانده است و پراکندگی مقادیر واقعی را از مقادیر پیش‌بینی‌شده اندازه‌گیری می‌کند. فرمول محاسبه RMSE به شکل زیر است:

Untitled222

تعریف نمادها در فرمول:

y𝑖: مقدار واقعی برای نمونه‌ای که در جایگاه 𝑖اُم قرار دارد.
y𝑖​^: مقدار پیش‌بینی‌شده برای نمونه‌ای که در جایگاه 𝑖اُم قرار دارد.
𝑁: تعداد کل نمونه‌ها.
𝑃: تعداد پارامترهای تخمین زده‌شده در مدل، شامل ثابت‌ها.

برای محاسبه RMSE، ابتدا باید برای هر نمونه، تفاوت مقدار واقعی و پیش‌بینی‌شده یعنی عبارت (y−y^​) را به توان دو رسانده و بعد نتایج به‌دست آمده را جمع کنید. سپس این مجموع مربعات بر «درجه آزادی» (Degree of Freedom)  مدل، یعنی(𝑁−𝑃) تقسیم می‌شود تا خطای میانگین مربعات (MSE) محاسبه گردد. در نهایت، با جذر گرفتن از MSE، مقدار RMSE به دست می‌آید.
در آمار، صورت کسر در فرمول RMSE به «مجموع مربعات» معروف است. همچنین، اگر قصد داشته باشیم از کل داده‌های دیتاست استفاده کنیم، مخرج کسر برابر𝑁 با  خواهد بود.

نقاط قوت و ضعف خطای جذر میانگین مربعات (RMSE)

همانند هر معیار آماری دیگری، خطای جذر میانگین مربعات (RMSE) نیز نقاط قوت و ضعف خاص خود را دارد. در این بخش به بررسی برخی از آن‌ها می‌پردازیم. RMSE معمولاً با ضریب تعیین یا R-squared
مقایسه می‌شود، زیرا هر دو معیار کیفیت برازش مدل را در مقیاس‌های متفاوت ارزیابی می‌کنند. RMSE از مقیاسی استاندارد نشده در بازه 0 تا مثبت بی‌نهایت بهره می‌برد، در حالی که ضریب تعیین از مقیاسی استاندارد شده در بازه 0 تا 100 درصد استفاده می‌کند.

نقاط قوت RMSE:

تفسیر قابل فهم: خطای ریشه میانگین مربعات یا RMSE یک معیار ساده و قابل فهم برای ارزیابی خطای مدل است که حتی افراد بدون پیش‌زمینه قوی در آمار نیز می‌توانند از آن بهره ببرند. این معیار فاصله میانگین بین نقاط داده و مقادیر پیش‌بینی شده را نشان می‌دهد و واحد اندازه‌گیری مشابه با متغیر وابسته دارد.

با استفاده از RMSE، می‌توان به‌صورت مستقیم دقت پیش‌بینی مدل را سنجید. در مقابل، معیار R-squared یک اندازه‌گیری نسبی (درصدی) برای ارزیابی کیفیت برازش است که بدون واحد مشخص ارائه می‌شود.

واحد استاندارد: معیار RMSE در بسیاری از حوزه‌ها به عنوان یک واحد استاندارد پذیرفته شده و برای سنجش عملکرد مدل‌های یادگیری ماشین به کار می‌رود.

A-scale-that-representing-the-pros-and-cons-of-root-mean-square-error_11zon_11zon

نقاط ضعف معیار ارزیابی RMSE

معیار RMSE نیز مانند هر معیار دیگر دارای نقاط ضعفی است که به آن‌ها باید توجه داشت. از جمله این ضعف‌ها عبارتند از:

حساسیت به نمونه‌های پرت: عملیات به توان رساندن باعث می‌شود خطای ریشه میانگین مربعات (RMSE) وزن بیشتری به خطاهای بزرگ اختصاص دهد و در نتیجه، حساسیت بیشتری به نمونه‌های پرت داشته باشد. این ویژگی RMSE، آن را در مقایسه با معیارهایی مانند MAPE و MSD حساس‌تر به نقاط داده‌ای پرت می‌کند.

حساسیت به بیش‌برازش: با اضافه کردن هر متغیر مستقل جدید به مدل، مقدار RMSE کاهش می‌یابد. این کاهش حتی در صورت بی‌اهمیت بودن برخی متغیرها هم رخ می‌دهد و در نتیجه احتمال بیش‌برازش مدل افزایش می‌یابد. معیار R-squared نیز مانند RMSE به مشکل بیش‌برازش و حساسیت به نمونه‌های پرت دچار است.

حساسیت به مقیاس: RMSE به مقیاس متغیر وابسته حساس است و برای تفسیر دقیق‌تر، نیاز به اطلاعاتی درباره متغیر هدف دارد. این امر می‌تواند مقایسه مقادیر RMSE را بین دیتاست‌ها یا واحدهای اندازه‌گیری مختلف دشوار کند. از سوی دیگر، R-squared به دلیل استاندارد بودن، مقیاسی مقاوم ارائه می‌دهد که مقایسه آن در مسائل یا متغیرهای مختلف به‌راحتی امکان‌پذیر است.

آشنایی با خطای RMSE در GIS

خطای RMSE که به صورت مختصر از Root Mean Square Error گرفته شده، به معنای “ریشه میانگین مربعات خطاها” است. این شاخص یکی از پرکاربردترین پارامترهای آماری در زمینه GIS به شمار می‌رود و در تحلیل‌های مختلف زمین‌آماری نقشی اساسی دارد.

RMSE به طور کلی میزان اختلاف یا خطا بین دو مجموعه داده را ارزیابی می‌کند. این پارامتر معمولاً برای مقایسه مقادیر پیش‌بینی‌شده با مقادیر واقعی یا اندازه‌گیری‌شده استفاده می‌شود. به عنوان مثال، ارتفاع نقاط به‌دست‌آمده از فناوری LiDAR را می‌توان با ارتفاع نقاط نقشه‌برداری زمینی مقایسه کرد تا دقت این دو روش بررسی شود.

برای محاسبه RMSE، ابتدا تفاوت هر مقدار از داده‌های LiDAR با مقدار متناظر در نقشه‌برداری زمینی محاسبه می‌شود. تفاوت‌ها سپس به توان دو رسیده و جمع می‌شوند. در نهایت، حاصل جمع بر تعداد داده‌ها تقسیم شده و از نتیجه نهایی جذر گرفته می‌شود تا RMSE به دست آید.

فرمول محاسبه خطای RMSE:

RMSE_Formula

نحوه محاسبه خطای RMSE در نرم‌افزار Excel

فرض کنید دو سری داده دارید که با روش‌های مختلف اندازه‌گیری شده‌اند و می‌خواهید مقدار RMSE را برای این دو دسته داده محاسبه کنید. برای این کار، داده‌های هر دسته را در ستون‌های A و B قرار دهید به‌طوری‌که مقادیر متناظر روبه‌روی هم قرار گیرند. به عنوان مثال، اگر هر دسته شامل ۱۰ داده باشد، داده‌های دسته اول در سلول‌های A1 تا A10 و داده‌های دسته دوم در سلول‌های B1 تا B10 قرار می‌گیرند.

مراحل محاسبه به صورت زیر است:

در سلول C1 مقدار تفاوت بین داده‌های دو دسته را محاسبه کنید، یعنی فرمول =A1-B1 را در سلول C1 وارد کنید. سپس این فرمول را برای سلول‌های C2 تا C10 نیز کپی کنید.

حال در سلول D1، فرمول نهایی RMSE را وارد کنید. برای این کار از فرمول زیر استفاده کرده و کلید Enter را فشار دهید.مقدار محاسبه‌شده در سلول D1 برابر با RMSE خواهد بود.

SQRT(SUMSQ(C1:C10)/COUNTA(C1:C10))

کاربرد پارامتر RMSE در ارزیابی دقت تولید مدل رقومی ارتفاع (DEM)

پارامتر RMSE، نشان‌دهنده میانگین خطاهای موجود در داده‌ها است و به‌عنوان یک شاخص کلیدی برای ارزیابی دقت کلی داده‌ها به کار می‌رود. هنگام تولید DEM با روش‌های مختلف، برای سنجش دقت DEM، از RMSE استفاده می‌شود. در این فرایند، تعدادی نقطه کنترل انتخاب و مختصات و ارتفاع آن‌ها با روش‌های میدانی (مانند استفاده از GPS) به‌دست می‌آید. سپس اختلاف ارتفاع نقاط کنترل و ارتفاع DEM در همان مختصات‌ها در فرمول RMSE وارد می‌شود.

پس از محاسبه عدد RMSE، مرحله تحلیل دقت داده‌ها آغاز می‌شود. برای ارزیابی دقت DEM، چندین کنترل به‌طور متوالی مورد استفاده قرار می‌گیرد:

مقدار RMSE باید کمتر از یک‌سوم فاصله بین منحنی‌های میزان مدنظر باشد. به عنوان نمونه، در یک نقشه با مقیاس 1:2000، فاصله بین منحنی‌های میزان برابر یک متر در نظر گرفته می‌شود؛ بنابراین، یک‌سوم این فاصله تقریباً 33 سانتی‌متر خواهد بود. اگر عدد RMSE بیشتر از این مقدار باشد، نشان‌دهنده عدم دقت کافی در تولید DEM است.

خطای 68 درصد از نقاط کنترل نباید از مقدار RMSE فراتر رود. این خطا به‌صورت اختلاف ارتفاع اندازه‌گیری‌شده و ارتفاع DEM در هر نقطه تعریف می‌شود. به‌عنوان مثال، اگر 100 نقطه کنترل داشته باشیم و مقیاس 1:2000 باشد، خطای ارتفاع در 68 نقطه از آن‌ها نباید از 33 سانتی‌متر بیشتر باشد.

خطای 98 درصد از نقاط کنترل باید حداکثر دو برابر مقدار RMSE باشد. مثلاً اگر 100 نقطه کنترل و مقیاس 1:2000 را در نظر بگیریم، خطای ارتفاع 98 نقطه نباید بیش از 66 سانتی‌متر باشد.

در 99 درصد از نقاط کنترل، میزان خطا نباید از سه برابر عدد RMSE فراتر رود. در این حالت، اگر 100 نقطه کنترل با همان مقیاس 1:2000 انتخاب شوند، خطای ارتفاع در 99 نقطه نباید بیش از 99 سانتی‌متر باشد.

چنانچه در هر یک از این مراحل، داده‌ها به حدنصاب‌های لازم نرسند، نمی‌توان دقت DEM را تأیید کرد.

Share:

More Posts

تحول صنعت اخبار با هوش مصنوعی

تحول صنعت اخبار با هوش مصنوعی؛ چگونه دنیای رسانه‌ها در حال دگرگونیاست؟ در دنیای امروز، پیشرفت‌های سریع فناوری، به‌ویژه در حوزه هوش مصنوعی (AI)، تحولات

هوش مصنوعی در دیجیتال مارکتینگ

هوش مصنوعی در دیجیتال مارکتینگ این مقاله به بررسی اهمیت و کاربردهای هوش مصنوعی در دیجیتال مارکتینگ می‌پردازد و نشان می‌دهد که چگونه این فناوری

موتور جستجوی ChatGPT

 راهنمای کامل آشنایی با موتور جستجوی ChatGPT در عصر اطلاعات و هوش مصنوعی، دسترسی به داده‌های دقیق و پاسخ‌های سریع به یکی از مهم‌ترین نیازهای