خطای ریشه میانگین مربعات چیست و چگونه به دست می آید؟
در دنیای امروز، بهبود دقت پیشبینیها و ارزیابی مدلهای مختلف اهمیت بالایی دارد. یکی از معیارهای پرکاربرد و رایج برای سنجش کیفیت مدل، «خطای جذر میانگین مربعات» یا Root Mean Square Error (RMSE) است. این معیار نشاندهنده میزان تطابق منحنی تابع با دادهها یا فاصله بین پیشبینیها و مقادیر واقعی است.
در این مقاله با مفهوم خطای جذر میانگین مربعات (RMSE) به زبان ساده آشنا خواهید شد. ابتدا تعریفی از این خطا ارائه میدهیم و به بررسی نقش آن در یادگیری ماشین میپردازیم. سپس، مثالی کاربردی برای درک بهتر این مفهوم آورده میشود. در ادامه، فرمول دقیق محاسبه RMSE را تشریح کرده و به نقاط قوت و ضعف این معیار ارزیابی خواهیم پرداخت.
همچنین، نقش خطای RMSE در سیستم اطلاعات جغرافیایی (GIS) و نحوه ارزیابی دقت مدلهای رقومی ارتفاع (DEM) با استفاده از این پارامتر توضیح داده میشود. در پایان نیز روش محاسبه خطای RMSE در نرمافزار Excel را به شما آموزش میدهیم تا بتوانید این مهارت را بهصورت عملی بهکار بگیرید.
با مطالعه این مقاله، دیدگاهی کامل و کاربردی از خطای جذر میانگین مربعات (RMSE) و شیوههای محاسبه و تحلیل آن خواهید داشت.
برای آموزش هوش مصنوعی کلیک کنید.

تعریف خطای جذر میانگین مربعات
خطای جذر میانگین مربعات (RMSE) یک معیار است که اختلاف بین مقادیر پیشبینیشده و واقعی را محاسبه میکند. از دیدگاه ریاضی، RMSE معادل انحراف معیار «مقادیر باقیمانده» (Residuals) است، که نشاندهنده فاصله بین خط رگرسیونی و نقاط داده است. در واقع، RMSE میزان پراکندگی مقادیر باقیمانده یا نزدیکی مقادیر واقعی به مقادیر پیشبینیشده را بیان میکند.

هر چه نقاط داده به خط رگرسیونی نزدیکتر باشند، خطای مدل و به دنبال آن مقدار RMSE کمتر خواهد بود. مدلهایی که خطای کمتری دارند، نتایج و پیشبینیهای دقیقتری ارائه میدهند. مقادیر RMSE از صفر تا مثبت بینهایت متغیر است و واحد آن با متغیر وابسته یا هدف یکسان است. RMSE برای ارزیابی خطا در مدلهای رگرسیون و دیگر مدلهای آماری کاربرد دارد. اگر مقدار خطا برابر با صفر باشد، نشان میدهد که مقادیر پیشبینیشده دقیقاً با مقادیر واقعی یکسان هستند، هرچند این حالت بسیار نادر است.
مقدار پایین RMSE نشان میدهد که مدل یادگیری ماشین بهخوبی با دادهها تطابق دارد و پیشبینیهایی با دقت بالا ارائه میدهد. در مقابل، مقادیر بالای RMSE به معنای خطای بیشتر و دقت کمتر پیشبینیها است. متخصصان علم داده از RMSE در حوزههایی مانند اقلیمشناسی، پیشبینی آب و هوا، اقتصاد و امور مالی بهره میبرند. RMSE یک معیار مهم برای ارزیابی در «مدلسازی پیشبین» (Predictive Modeling) است و در بررسی عملکرد مدلهای یادگیری ماشین نقش کلیدی دارد.
مثالی از خطای جذر میانگین مربعات
حال که با مفهوم خطای جذر میانگین مربعات (RMSE) آشنا شدیم، در اینجا با یک مثال کاربردی نحوه عملکرد این معیار ارزیابی را بررسی میکنیم. فرض کنید هدف ما طراحی یک مدل رگرسیونی برای پیشبینی نمرات نهایی دانشآموزان است. در این مدل، نمرات نهایی به عنوان متغیر وابسته در نظر گرفته میشود و میزان ساعت مطالعه و نمرات میانترم به عنوان متغیرهای مستقل انتخاب میشوند. اگر مقدار RMSE مدل ۴ باشد، به این معناست که بهطور متوسط اختلافی به اندازه ۴ نمره بین پیشبینیهای مدل و نمرات واقعی دانشآموزان وجود دارد. با استفاده از این مقدار میتوان به کارایی مدل رگرسیون پی برد.

برای مثال، اگر دامنه نمرات نهایی بین ۰ تا ۱۰۰ باشد، RMSE برابر با ۴ نشاندهنده دقت بالای پیشبینیها با نرخ خطای میانگین ۴ درصد است. سپس میتوانیم بررسی کنیم که آیا این میزان خطا برای نیاز ما مناسب است یا خیر. همچنین از RMSE برای تخمین فاصله پیشبینی ۹۵ درصدی استفاده میشود. به عبارت دیگر، اگر توزیع مقادیر باقیمانده نرمال باشد، تقریباً ۹۵ درصد از دادههای دیتاست در فاصله + /- 2× Rmse از مقادیر پیشبینیشده قرار خواهند گرفت.
در مثال ما که RMSE برابر ۴ است، ۹۵ درصد از نمرات واقعی دانشآموزان با فاصله ۸ نمرهای از پیشبینیهای مدل قرار دارند، یعنی:
8 – / + = 4 × 2 – / +
توجه داشته باشید که حتی با RMSE پایین نیز احتمال کمبرازش (Underfitting) مدل وجود دارد. بنابراین برای اطمینان بیشتر، لازم است نمودار مقادیر باقیمانده نیز بررسی شود.
فرمول محاسبه خطای جذر میانگین مربعات (RMSE)
پس از آشنایی با مفهوم خطای جذر میانگین مربعات (RMSE) و ارائه مثالی از نحوه کاربرد آن، در این بخش به فرمول محاسبه این معیار ارزیابی میپردازیم. فرمول RMSE شباهت زیادی به فرمول انحراف معیار دارد، زیرا این معیار در واقع انحراف معیار مقادیر باقیمانده است و پراکندگی مقادیر واقعی را از مقادیر پیشبینیشده اندازهگیری میکند. فرمول محاسبه RMSE به شکل زیر است:

تعریف نمادها در فرمول:
y𝑖: مقدار واقعی برای نمونهای که در جایگاه 𝑖اُم قرار دارد.
y𝑖^: مقدار پیشبینیشده برای نمونهای که در جایگاه 𝑖اُم قرار دارد.
𝑁: تعداد کل نمونهها.
𝑃: تعداد پارامترهای تخمین زدهشده در مدل، شامل ثابتها.
برای محاسبه RMSE، ابتدا باید برای هر نمونه، تفاوت مقدار واقعی و پیشبینیشده یعنی عبارت (y−y^) را به توان دو رسانده و بعد نتایج بهدست آمده را جمع کنید. سپس این مجموع مربعات بر «درجه آزادی» (Degree of Freedom) مدل، یعنی(𝑁−𝑃) تقسیم میشود تا خطای میانگین مربعات (MSE) محاسبه گردد. در نهایت، با جذر گرفتن از MSE، مقدار RMSE به دست میآید.
در آمار، صورت کسر در فرمول RMSE به «مجموع مربعات» معروف است. همچنین، اگر قصد داشته باشیم از کل دادههای دیتاست استفاده کنیم، مخرج کسر برابر𝑁 با خواهد بود.
نقاط قوت و ضعف خطای جذر میانگین مربعات (RMSE)
همانند هر معیار آماری دیگری، خطای جذر میانگین مربعات (RMSE) نیز نقاط قوت و ضعف خاص خود را دارد. در این بخش به بررسی برخی از آنها میپردازیم. RMSE معمولاً با ضریب تعیین یا R-squared
مقایسه میشود، زیرا هر دو معیار کیفیت برازش مدل را در مقیاسهای متفاوت ارزیابی میکنند. RMSE از مقیاسی استاندارد نشده در بازه 0 تا مثبت بینهایت بهره میبرد، در حالی که ضریب تعیین از مقیاسی استاندارد شده در بازه 0 تا 100 درصد استفاده میکند.
نقاط قوت RMSE:
تفسیر قابل فهم: خطای ریشه میانگین مربعات یا RMSE یک معیار ساده و قابل فهم برای ارزیابی خطای مدل است که حتی افراد بدون پیشزمینه قوی در آمار نیز میتوانند از آن بهره ببرند. این معیار فاصله میانگین بین نقاط داده و مقادیر پیشبینی شده را نشان میدهد و واحد اندازهگیری مشابه با متغیر وابسته دارد.
با استفاده از RMSE، میتوان بهصورت مستقیم دقت پیشبینی مدل را سنجید. در مقابل، معیار R-squared یک اندازهگیری نسبی (درصدی) برای ارزیابی کیفیت برازش است که بدون واحد مشخص ارائه میشود.
واحد استاندارد: معیار RMSE در بسیاری از حوزهها به عنوان یک واحد استاندارد پذیرفته شده و برای سنجش عملکرد مدلهای یادگیری ماشین به کار میرود.

نقاط ضعف معیار ارزیابی RMSE
معیار RMSE نیز مانند هر معیار دیگر دارای نقاط ضعفی است که به آنها باید توجه داشت. از جمله این ضعفها عبارتند از:
حساسیت به نمونههای پرت: عملیات به توان رساندن باعث میشود خطای ریشه میانگین مربعات (RMSE) وزن بیشتری به خطاهای بزرگ اختصاص دهد و در نتیجه، حساسیت بیشتری به نمونههای پرت داشته باشد. این ویژگی RMSE، آن را در مقایسه با معیارهایی مانند MAPE و MSD حساستر به نقاط دادهای پرت میکند.
حساسیت به بیشبرازش: با اضافه کردن هر متغیر مستقل جدید به مدل، مقدار RMSE کاهش مییابد. این کاهش حتی در صورت بیاهمیت بودن برخی متغیرها هم رخ میدهد و در نتیجه احتمال بیشبرازش مدل افزایش مییابد. معیار R-squared نیز مانند RMSE به مشکل بیشبرازش و حساسیت به نمونههای پرت دچار است.
حساسیت به مقیاس: RMSE به مقیاس متغیر وابسته حساس است و برای تفسیر دقیقتر، نیاز به اطلاعاتی درباره متغیر هدف دارد. این امر میتواند مقایسه مقادیر RMSE را بین دیتاستها یا واحدهای اندازهگیری مختلف دشوار کند. از سوی دیگر، R-squared به دلیل استاندارد بودن، مقیاسی مقاوم ارائه میدهد که مقایسه آن در مسائل یا متغیرهای مختلف بهراحتی امکانپذیر است.
آشنایی با خطای RMSE در GIS
خطای RMSE که به صورت مختصر از Root Mean Square Error گرفته شده، به معنای “ریشه میانگین مربعات خطاها” است. این شاخص یکی از پرکاربردترین پارامترهای آماری در زمینه GIS به شمار میرود و در تحلیلهای مختلف زمینآماری نقشی اساسی دارد.
RMSE به طور کلی میزان اختلاف یا خطا بین دو مجموعه داده را ارزیابی میکند. این پارامتر معمولاً برای مقایسه مقادیر پیشبینیشده با مقادیر واقعی یا اندازهگیریشده استفاده میشود. به عنوان مثال، ارتفاع نقاط بهدستآمده از فناوری LiDAR را میتوان با ارتفاع نقاط نقشهبرداری زمینی مقایسه کرد تا دقت این دو روش بررسی شود.
برای محاسبه RMSE، ابتدا تفاوت هر مقدار از دادههای LiDAR با مقدار متناظر در نقشهبرداری زمینی محاسبه میشود. تفاوتها سپس به توان دو رسیده و جمع میشوند. در نهایت، حاصل جمع بر تعداد دادهها تقسیم شده و از نتیجه نهایی جذر گرفته میشود تا RMSE به دست آید.
فرمول محاسبه خطای RMSE:

نحوه محاسبه خطای RMSE در نرمافزار Excel
فرض کنید دو سری داده دارید که با روشهای مختلف اندازهگیری شدهاند و میخواهید مقدار RMSE را برای این دو دسته داده محاسبه کنید. برای این کار، دادههای هر دسته را در ستونهای A و B قرار دهید بهطوریکه مقادیر متناظر روبهروی هم قرار گیرند. به عنوان مثال، اگر هر دسته شامل ۱۰ داده باشد، دادههای دسته اول در سلولهای A1 تا A10 و دادههای دسته دوم در سلولهای B1 تا B10 قرار میگیرند.
مراحل محاسبه به صورت زیر است:
در سلول C1 مقدار تفاوت بین دادههای دو دسته را محاسبه کنید، یعنی فرمول =A1-B1 را در سلول C1 وارد کنید. سپس این فرمول را برای سلولهای C2 تا C10 نیز کپی کنید.
حال در سلول D1، فرمول نهایی RMSE را وارد کنید. برای این کار از فرمول زیر استفاده کرده و کلید Enter را فشار دهید.مقدار محاسبهشده در سلول D1 برابر با RMSE خواهد بود.
SQRT(SUMSQ(C1:C10)/COUNTA(C1:C10))
کاربرد پارامتر RMSE در ارزیابی دقت تولید مدل رقومی ارتفاع (DEM)
پارامتر RMSE، نشاندهنده میانگین خطاهای موجود در دادهها است و بهعنوان یک شاخص کلیدی برای ارزیابی دقت کلی دادهها به کار میرود. هنگام تولید DEM با روشهای مختلف، برای سنجش دقت DEM، از RMSE استفاده میشود. در این فرایند، تعدادی نقطه کنترل انتخاب و مختصات و ارتفاع آنها با روشهای میدانی (مانند استفاده از GPS) بهدست میآید. سپس اختلاف ارتفاع نقاط کنترل و ارتفاع DEM در همان مختصاتها در فرمول RMSE وارد میشود.
پس از محاسبه عدد RMSE، مرحله تحلیل دقت دادهها آغاز میشود. برای ارزیابی دقت DEM، چندین کنترل بهطور متوالی مورد استفاده قرار میگیرد:
مقدار RMSE باید کمتر از یکسوم فاصله بین منحنیهای میزان مدنظر باشد. به عنوان نمونه، در یک نقشه با مقیاس 1:2000، فاصله بین منحنیهای میزان برابر یک متر در نظر گرفته میشود؛ بنابراین، یکسوم این فاصله تقریباً 33 سانتیمتر خواهد بود. اگر عدد RMSE بیشتر از این مقدار باشد، نشاندهنده عدم دقت کافی در تولید DEM است.
خطای 68 درصد از نقاط کنترل نباید از مقدار RMSE فراتر رود. این خطا بهصورت اختلاف ارتفاع اندازهگیریشده و ارتفاع DEM در هر نقطه تعریف میشود. بهعنوان مثال، اگر 100 نقطه کنترل داشته باشیم و مقیاس 1:2000 باشد، خطای ارتفاع در 68 نقطه از آنها نباید از 33 سانتیمتر بیشتر باشد.
خطای 98 درصد از نقاط کنترل باید حداکثر دو برابر مقدار RMSE باشد. مثلاً اگر 100 نقطه کنترل و مقیاس 1:2000 را در نظر بگیریم، خطای ارتفاع 98 نقطه نباید بیش از 66 سانتیمتر باشد.
در 99 درصد از نقاط کنترل، میزان خطا نباید از سه برابر عدد RMSE فراتر رود. در این حالت، اگر 100 نقطه کنترل با همان مقیاس 1:2000 انتخاب شوند، خطای ارتفاع در 99 نقطه نباید بیش از 99 سانتیمتر باشد.
چنانچه در هر یک از این مراحل، دادهها به حدنصابهای لازم نرسند، نمیتوان دقت DEM را تأیید کرد.