期望风险、经验风险与结构风险

期望风险:理想情况,对所有的样本契合。

经验风险(Empirical Risk):描述模型与训练数据的契合程度,是基于训练样本(已知的经验样本)的误差。

结构风险(Structural Risk):描述学习算法的某些性质,希望模型具有某种性质(例如希望模型的复杂度较小)。也有助于削减假设空间,从而降低最小化训练误差的过拟合风险(例如正则化问题)。

期望风险

机器学习的目的是“期望风险最小化”,是对所有样本损失(期望误差)的最小化。因此,“期望风险最小化”是全局最优的理想情况。

在任意样本下模型得到的误差是模型的真实误差,称为期望风险或者一般风险(General Risk)。

我们希望模型能够在“更多的样本”(不只是训练样本)上有最小的误差,即“期望风险最小化”。

但是,“期望风险最小化”太难了。于是,一般的解决办法是“经验误差最小化”。

经验风险

经验风险最小化(ERM):对训练集中的所有样本损失均值(经验误差)的最小化。因此,经验风险是局部最优的现实情况。

机器学习的目标是得到一个从输入x到输出y的映射关系F(x,y)。但是无法直接得到该映射关系,只能通过有限的训练样本X及其对应的观测输出Y求得映射关系。

因此,“经验风险最小化”是用有限的样本对“参数θ”求“经验风险(损失)最小化”来逐渐逼近理想的“期望风险(一般风险)的最小值”,从而得到近似的“期望风险最小化”。

如果只考虑“经验风险”的话,会出现“过拟合”现象,即模型f(x)对训练集中所有的样本点都有最好的预测能力,但是对于非训练集中的样本数据,模型的预测能力非常不好。

结构风险

“结构风险”是对“经验风险”和“期望风险”的折中。“结构风险”的引入与“过(欠)拟合”有关系。

前面提到如果只考虑“经验风险”的话,会出现“过拟合”现象。我们知道,过拟合的一个重要原因是“模型过于复杂(包含的参数多)”。具体参见“过拟合”部分。

“结构风险”可以“降低过拟合”:通过控制参数的分布,把模型限制在一个范围内,从而降低模型的复杂度,即起到“结构”的作用。

常见的方法是在“经验风险”后面加一个“正则化项”,比如“L1正则化”、“L2正则化”。

简单来说,“L1正则化”迫使模型的参数趋向于0,即模型中有尽量多的参数为0,从而降低模型复杂度。
“L2正则化”迫使模型的参数尽量均衡,即模型的参数尽量在一个范围内,取值不宜过大,从而降低模型的复杂度。具体参见“正则化”部分。

结构风险的体现

通过训练样本的数量、对测试误差和训练误差的比较,我们可以对结构风险做一些简单的猜测。

  • 小样本问题:也就是训练样本数量m很小,而特征维数过大,这时容易造成过拟合。可以考虑“增加样本数量”或“降低样本维数”等。

  • 训练误差很小、测试误差很大:可以推断为偏差很小、方差很大(具体参见“偏差与方差”部分)。可以考虑是过拟合的原因,因此需要降低过拟合,具体参见“过拟合”部分(减小拟合函数VC维等)。

  • 训练误差、测试误差都很大:可以考虑是“欠拟合”的原因,具体参见“过拟合”部分(可以增加拟合函数的VC维)。

有待补充

  • 证明部分

Reference

《机器学习 - 周志华》第6章 支持向量机

机器学习优化问题-经验风险、期望风险、结构风险

机器学习(四)经验风险与结构风险