Chapter 21、Examples of Bias and Variance

偏差和方差的例子

考虑我们的猫分类任务。一个“理想的”分类器(比如人类)在这个任务中可能取得近乎完美的表现。

假设你的算法表现如下:

  • 训练错误率 = 1%
  • 开发错误率 = 11%

它有什么问题?应用前一章的定义,我们估计偏差为1%,方差为10%(=11%-1%)。因此,它有一个很高的方差(high variance)。分类器训练误差非常低,但是没能成功泛化到开发集上。这也被叫做过拟合(overfitting)。

现在,考虑如下:

  • 训练错误率 = 15%
  • 开发错误率 = 16%

我们估计偏差为15%,方差为1%。该分类器错误率为15%,不适合训练集,但是它再开发集上的错误几乎没有比在训练集错误更高。因此,该分类器具有较高的偏差(high bias),但是较低的方差。我们称该算法是欠拟合(underfitting)的。

现在,考虑如下:

  • 训练错误率 = 15%
  • 开发错误率 = 30%

我们估计偏差为15%,方差为15%。该分类器有高偏差和高方差(high bias and high variance):它再训练集上做的很差,因此有较高的偏差,它再开发集上表现更差,因此具有较高的方差。由于分类器同时过拟合和欠拟合,所以过拟合/欠拟合术语很难应用与此。

最后,考虑如下:

  • 训练错误率 = 0.5%
  • 开发错误率 = 1%

该分类器做的很好,它具有低偏差和低方差。恭喜取得这么好的表现。

results matching ""

    No results matching ""