这是用户在 2024-5-28 11:46 为 https://app.immersivetranslate.com/pdf-pro/b25dca1e-3d5b-428f-bc3b-d325cba14710 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
2024_05_28_84b3b98038d7b423f56ag


均方根误差 (RMSE) 还是平均绝对误差 (MAE)?文献中反对避免均方根误差的论点


T.Chai 和 R. R. Draxler

NOAA Air Resources Laboratory (ARL)、NOAA Center for Weather and Climate Prediction、
5830 University Research Court, College Park, MD 20740, USA
美国马里兰大学气候与卫星合作研究所,马里兰州学院帕克市,马里兰州,20740

通讯作者:T. Chai ()T. Chai (tianfeng.chai@noaa.gov)


收到:2014 年 2 月 10 日 - 发表于 Geosci.Model Dev.讨论:2014 年 2 月 28 日

修订:2014 年 5 月 27 日 - 接受:2014 年 6 月 2 日 - 出版:2014 年 6 月 30 日

 摘要


均方根误差(RMSE)和平均绝对误差(MAE)都是模型评估研究中经常使用的指标。Willmott 和 Matsuura(2005 年)认为,均方根误差不是衡量平均模型性能的好指标,可能会误导平均误差,因此 MAE 是衡量平均误差的更好指标。虽然 Willmott 和 Matsuura(2005 年)以及 Willmott 等人(2009 年)对使用 RMSE 提出的一些担忧是有道理的,但建议避免使用 RMSE 而改用 MAE 并不是解决办法。引述上述论文,许多研究人员选择 MAE 而不是 RMSE 来展示他们的模型评估统计数据,而展示或添加 RMSE 指标可能更有益处。在本技术说明中,我们将证明 RMSE 的含义并不模糊,这与 Willmott 等人(2009 年)的说法相反。当误差分布预期为高斯分布时,RMSE 比 MAE 更适合代表模型性能。此外,我们还证明 RMSE 满足距离度量的三角形不等式要求,而 Willmott 等人(2009 年)指出基于平方和的统计量不满足这一规则。最后,我们讨论了在某些情况下使用 RMSE 更为有利。不过,我们并不认为 RMSE 优于 MAE。相反,在评估模型性能时,通常需要结合多种指标,包括但当然不限于 RMSE 和 MAE。

 1 引言


均方根误差(RMSE)一直是气象学、空气质量和气候研究中衡量模型性能的标准统计指标。平均绝对误差(MAE)是另一个在模型评估中广泛使用的有用指标。虽然它们都被用于评估模型性能已有多年,但对于模型误差的最合适度量标准还没有达成共识。在地球科学领域,许多人将 RMSE 作为模型误差的标准指标(如 McKeen 等人,2005 年;Savage 等人,2013 年;Chai 等人,2013 年)、2013),而其他一些人则以 Willmott 和 Matsuura(2005 年)以及 Willmott 等人(2009 年)声称的 RMSE 的模糊性为由,选择回避 RMSE,只提出 MAE(例如 Taylor 等人,2013 年;Chatterjee 等人,2013 年;Jerez 等人,2013 年)。MAE 对所有误差赋予相同的权重,而 RMSE 则对方差进行惩罚,因为它赋予绝对值较大的误差比绝对值较小的误差更多的权重。在计算这两个指标时,根据定义,RMSE 绝对不会小于 MAE。例如,Chai 等人(2009 年)提供了 气柱预测模型与 SCIAMACHY 卫星观测数据相比的平均误差(MAE)和均方根误差(RMSE)。RMSE 与 MAE 之比介于 1.63 与 2.29 之间(见 Chai 等人,2009 年,表 1)。

Willmott 和 Matsuura(2005 年)使用假设的四组误差证明,当 MAE 保持 2.0 的常数时,RMSE 在 2.0 到 4.0 之间变化。他们的结论是,RMSE 随误差幅度、总误差或平均误差幅度 (MAE) 以及样本大小 的变化而变化。他们进一步指出


利用 5 对全球降水数据的 10 个组合,证明了 MAE 与 RMSE 之间的不一致性。他们总结说,随着误差幅度的分布变得更加多变,均方根误差往往会变得比 MAE 越来越大(但不一定是单调的)。由于 RMSE 的下限固定在 MAE 上,而其上限( . MAE)则随着 的增加而增加,因此 RMSE 往往随着 的增加而大于 MAE。此外,Willmott 等人(2009 年)认为,基于平方和的误差统计(如 RMSE 和标准误差)具有固有的模糊性,建议使用 MAE 等替代方法。

由于每种统计量都是将大量数据浓缩成一个值,因此它只能提供模型误差的一种预测,强调模型性能误差特征的某一方面。Willmott 和 Matsuura(2005 年)简单地证明了 RMSE 并不等同于 MAE,人们不能轻易地从 RMSE 得出 MAE 值(反之亦然)。同样,我们也可以很容易地证明,对于 RMSE 相同的几组误差,MAE 也会因组而异。

由于统计学只是各种工具的集合,研究人员必须针对所要解决的问题选择最合适的工具。由于 RMSE 和 MAE 的定义不同,我们应该预期结果也会不同。有时,需要使用多种指标来全面反映误差分布情况。当误差分布预期为高斯分布且有足够的样本时,RMSE 在说明误差分布方面比 MAE 更有优势。

本说明的目的是澄清对 RMSE 和 MAE 的解释。此外,我们还证明 RMSE 满足距离度量的三角形不等式要求,而 Willmott 和 Matsuura(2005 年)以及 Willmott 等人(2009 年)却不这么认为。


2 RMSE 和 MAE 的解释


为简化起见,我们假定已经有 样本的模型误差 ,计算公式为 ( 。这里不考虑观测误差或用于比较模型和观测数据的方法所带来的不确定性。我们还假设误差样本集 是无偏的。数据集的 RMSE 和 MAE 计算公式为
 RMSE

计算均方根误差的基本假设是误差无偏且服从正态分布。


表 1.以零均值和单位方差高斯分布随机生成的伪误差的 RMSE 和 MAE。用不同的随机种子生成了五组大小为 的误差。
RMSEs MAEs
4
10
100
1000
10000
100000
1000000

因此,使用 RMSE 或标准误差 (SE) 有助于全面了解误差分布情况。

表 1 显示了随机生成的具有零均值和单位方差高斯分布的伪误差的均方根误差和最大允许误差。当样本量达到 100 或以上时,利用计算出的均方根误差可以重新构建接近其 "真值 "或 "精确解 "的误差分布,其标准偏差与真值(即 )在 以内。当样本较多时,使用均方根误差重构误差分布将更加可靠。这里的 MAE 是半正态分布的均值(即均值为零的正态分布误差群体中正子集的平均值)。表 1 显示 MAE 收敛到 0.8,近似于 的期望值。需要注意的是,当误差样本数量有限时,所有统计数据的作用都会降低。例如,表 1 显示,当仅使用 4 或 10 个样本计算 RMSE 和 MAE 值时,它们都不稳健。在这种情况下,展示误差值本身(如用表格)可能比计算任何统计量更合适。幸运的是,与 (Willmott 和 Matsuura,2005 年)和 (Willmott 等人,2009 年)的例子不同,通常有数百个观测值可用来计算模型统计量。

将一组误差值浓缩为一个数字(RMSE 或 MAE)会删除大量信息。最好的统计度量指标不仅要提供性能指标,还要能代表误差分布。MAE 适合描述均匀分布的误差。由于模型误差很可能呈正态分布而非均匀分布,因此对于此类数据,RMSE 比 MAE 更适合作为衡量指标。


3 公设三角形不等式


Willmott 和 Matsuura(2005 年)以及 Willmott 等人(2009 年)都强调,基于平方和的统计不满足三角形不等式。Willmott 等人(2009)在脚注中举了一个例子。在这个例子中, ,和 ,其中 是一个距离函数。作者指出, 作为 "度量 "应满足 "三角形不等式"(即 。但是,他们在论证平方误差之和不满足 "三角形不等式 "之前,并没有说明 , 和 代表什么,因为 , 而 。事实上,这个例子代表的是均方误差 (MSE),而不是 RMSE,后者不能用作距离度量。

按照一定的顺序,误差 可以写成一个 -维向量 。L1-norm 和 L2-norm 分别与 MAE 和 RMSE 密切相关,如公式 (3) 和 (4) 所示:
RMSE.

所有向量规范都满足 (参见 Horn 和 Johnson,1990 年)。要证明用 Lp 准则测量的两个向量间的距离满足 是很容易的。对于三个 -dimensional 向量 , 和 , 我们有
.

对于 维向量和 L2 规范,公式 (5) 可写成

相当于

这证明 RMSE 满足距离函数度量所需的三角形不等式。


4 总结和讨论


我们发现 RMSE 的含义并不模糊,当模型误差服从正态分布时,RMSE 比 MAE 更适合使用。此外,我们还证明 RMSE 满足距离函数度量所需的三角形不等式。

RMSE 对异常值的敏感性是使用该指标时最常见的问题。事实上,离群值的存在及其发生概率可以很好地用 RMSE 所依据的正态分布来描述。表 1 显示,只要有足够多的样本( ),包括那些离群值,就可以密切地重新构建误差分布。实际上,在计算 RMSE 时,可能有理由剔除比其他样本大几个数量级的离群值,尤其是在样本数量有限的情况下。如果模型偏差严重,可能还需要在计算均方根误差之前剔除系统误差。

与 MAE 相比,RMSE 的一个明显优势是避免使用绝对值,而绝对值在许多数学计算中是非常不可取的。例如,可能很难计算 MAEs 对某些模式参数的梯度或敏感性。此外,在数据同化领域,平方误差之和通常被定义为通过调整模型参数最小化的成本函数。在这种应用中,通过定义的最小平方项来惩罚大误差被证明对提高模型性能非常有效。在计算模式误差敏感性或数据同化应用的情况下,MAE 绝对不是 RMSE 的首选。

用于模型评估的误差度量的一个重要方面是其对模型结果的判别能力。在不同的模型结果集之间,其模型性能指标的差异越大,则判别能力越强的指标往往越可取。在这方面,MAE 可能会受到大量平均误差值的影响,而不能充分反映一些大误差。RMSE 对不利条件的权重较高,通常能更好地揭示模型性能差异。

在许多仅使用均方根误差的模式敏感性研究中,详细解释并不重要,因为同一模式的变体具有相似的误差分布。当使用单一指标评估不同模型时,误差分布的差异就变得更加重要。正如我们在注释中所说的,显示 RMSE 的基本假设是误差无偏且服从正态分布。对于其他类型的分布,则需要更多的模型误差统计矩,如平均值、方差、偏斜度和平坦度,以提供模型误差变化的完整图景。其他研究人员也探索了一些强调抵御异常值或对非正态分布不敏感的方法(Tukey,1977 年;Huber 和 Ronchetti,2009 年)。

如前所述,任何单一指标都只能提供对模型误差的一种预测,因此只能强调误差特征的某一方面。组合


在评估模型性能时,通常需要使用各种指标,包括但当然不限于 RMSE 和 MAE。

致谢。本研究由 NOAA 补助金 NA09NES4400006(气候与卫星合作研究所 - CICS)支持,由 NOAA 空气资源实验室与马里兰大学合作进行。

编辑: R. SanderR. 桑德

 参考资料


Chai, T., Carmichael, G. R., Tang, Y., Sandu, A., Heckel, A., Richter, A., and Burrows, J. P..:Regional emission inversion through a four-dimensional variational approach using SCIAMACHY tropospheric column observations, Atmos.Environ.

Chai, T., Kim, H.-C., Lee, P., Tong, D., Pan, L., Tang, Y., Huang, J., McQueen, J., Tsidulko, M., and Stajner, I.: Evaluation of the United States National Air Quality Forecast Capability experimental real-time predictions in 2010 using Air Quality System ozone and measures, Geosci. Model Dev, 6, 18311850, 2013.Model Dev., 6, 18311850, doi:10.5194/gmd-6-1831-2013, 2013.

Chatterjee, A., Engelen, R. J., Kawa, S. R., Sweeney, C., and Michalak, A. M.: Background error covariance estimation for atmospheric data assimilation, J. Geophys.Res., 118, 1014010154, 2013.
Horn, R. A. and Johnson, C. R.: Matrix Analysis, Cambridge University Press, 1990.
Huber, P. and Ronchetti, E.: Robust statistics, Wiley New York, 2009.

Jerez, S., Pedro Montavez, J., Jimenez-Guerrero, P., Jose GomezNavarro, J., Lorente-Plazas, R., and Zorita, E.: A multi-physics ensemble of present-day climate regional simulations over the Iberianinsula, Clim.40, 3023-3046, 2013.

McKeen, S. A., Wilczak, J., Grell, G., Djalalova, I., Peckham, S., Hsie, E., Gong, W., Bouchet, V., Menard, S., Moffet, R., McHenry, J., McQueen, J., Tang, Y., Carmichael, G. R., Pagowski, M., Chan, A., Dye, T., Frost, G., Lee, P., and Mathur, R.: Assessment an ensemble seven real-time ozone forecasts over the eastern North America during the summer、Chan, A., Dye, T., Frost, G., Lee, P., and Mathur, R.: Assessment of an ensemble of seven real-time ozone forecasts over eastern North America during the summer of 2004, J. Geophys.Res., 110, D21307, doi:10.1029/2005JD005858, 2005.

Savage, N. H., Agnew, P., Davis, L. S., Ordóñez, C., Thorpe, R., Johnson, C. E., O'Connor, F. M., and Dalvi, M.: Air quality modelling using the Met Office Unified Model (AQUM OS24-26): Model description and initial evaluation, Geosci.6, 353-372, doi:10.5194/gmd-6-353-2013, 2013.

Taylor, M. H., Losch, M., Wenzel, M., and Schroeter, J.: On the sensitivity of field reconstruction and prediction using the empirical orthogonal functions derived from gappy data, J. Climate, 26, 9194-9205, 2013.
Tukey, J. W.: Exploratory Data Analysis, Addison-Wesley, 1977.

Willmott, C. and Matsuura, K.: Advantages of the Mean Absolute Error (MAE) over the Root Mean Square Error (RMSE) in assessing average model performance, Clim.30, 79-82, 2005.

Willmott, C. J., Matsuura, K., and Robeson, S. M.: Ambiguities inherent in sums-of-squares-based error statistics, Atmos.Environ.,43,749-752,2009.


  1. 对于无偏误差分布,标准误差 (SE) 等同于 RMSE,因为样本平均数被假定为零。对于未知误差分布, 平均值是 "偏差校正样本方差 "的平方根。即 ,其中 。