Chapter 34、How to define human-level performance

如何定义人类水平的表现

假设你正在从事一项医疗影像应用，该应用可以根据X光图像自动做出诊断。除了一些基本的训练之外，一个之前没有医学背景的典型人员在这项任务上可达到15%的误差。初级医生可以达到10%的错误率。有经验的医生可达到5%的错误率。小组医生讨论并辩论每一张图像可达到2%的错误率。这些错误率中的哪一个定义为“人类的表现”呢？

在这种情况下，我会使用2%作为我们最优错误率的人类表现代理。你也可以将2%设为期望性能水平，因为上一章中与人类水平性能比较的三个原因均适用：

容易从标注人员中获取标注数据。你可以让一小组医生为你提供标签，错误率为2%。
错误分析可以利用人类的直觉。通过与一组医生讨论图像，你可以获取他们的直觉。
使用人类级别的性能去评估最优错误率并设置可达到的“期望错误率”。使用2%的错误率作为我们对最优错误率的估计是合理的。最优错误率可能比2%更低，但不会更高，因为一组医生可以达到2%的错误率。相反，使用5%或10%作为最优错误率估计是不合理的，因为我们知道这些评估必然过高。

当你来获取标注数据时，你可能不想和整个小组的医生讨论每一张图片，因为他们的时间很昂贵。或许你可以在绝大多数情况下拥有一个初级医生的标签，并且只给更有经验的医生或一组医生更难的图像。

如果你的系统当前错误率为40%，那么使用初级医生（10%错误）还是有经验的医生（5%错误）来标注数据并提供直觉并不重要。但如果你的系统已经是10%的错误率了，那么将定义人类水平的参考为2%会给你更好地工具来继续改进你的系统。

34 如何定义人类水平的表现

Chapter 34、How to define human-level performance

results matching ""

No results matching ""