机器学习物语(2)：大数定理军团

发布时间：2021-01-25 03:10:10 所属栏目：大数据来源：网络整理

导读：机器学习理论帝国崛起，大数定理军团功不可没，称之为军团毫不夸张，在前军先锋强大数定理和副将弱大数定理后面，是铠甲上刻着“Concentration of Measure”的古老印记的战士们，不妨暂且忽略他们之间乱七八糟的“血缘”关系，而罗列一些名字：Chebyshev 不

的函数? f?n ?的过程。由于? Sn ?是已知的，所以? Rn ?是可以求值的，于是 ERM 就可以做了——当然这只是从理论上来说，比如，具体到二分类和 0-1 loss 函数的话，做 ERM 的优化是一个组合问题，非常困难；另外， ERM 问题经常都是 ill-conditioned ，不太容易直接求解。不过关于这些问题的解决方案不是今天要讲的内容，而是要留到将来了。

虽然 ERM 算法看起来很自然，但是他是不是一个好的算法呢？回忆一下我们在世界观设定中提到的 supervised learning 的目的是最小化 Risk? R(f) ?，所以，现在需要检查的问题就是，通过 ERM 算法求出来的? f?n ?，其 Risk 是不是也比较小呢？和最优的 Bayes Risk? R? ?或者在 F ?里能达到的最优 Risk? RR ?差多少呢？首先来看 Bayes Risk

R(f?n)?R?=R(f?n)?RF+RF?R?

这里右边红色的项叫做 estimation error ，因为它是由通过训练数据? Sn ?去进行 estimate 造成的误差，而蓝色的项叫做 approximation error ，注意到它与具体的训练数据无关，而只与函数空间? F ?的选取有关，它的名字的由来是表示这是用? F ?中的函数去对 Bayes classifier? f? 进行近似所造成的误差。

这里有一个 trade-off ：如果增大? F ?，那么 approximation error 会相应地减小，比如，当? F 增大到包含了? f? ?的话，approximation error 就等于零了。不过，随着? F ?的增大，（对于固定的? n ）第一项 estimation error 却会增大。这其实类似于更具体的统计模型里的 bias-variance trade-off 。至于为什么 estimation error 会随着? F ?的增大而增大——当然，从直观上来想想还是比较好理解的，不过到本文末尾的时候，我们应该也能对这个问题有一个稍微严格一点的认识了。

现在我们先假定? F ?已经固定了，因此 approximation error 就成为了一个固定值，这部分的 Risk 是问题本身造成的，不是我们通过训练数据或者算法所能控制的了，于是我们把视线集中到 estimation error 上。为了推导更简便一点，我们设? inff∈FR(f) ?在? fF∈F ?取到。由于? f?n ?是使得? Rn(f) ?最小的解，因此有? Rn(fF)?Rn(f?n)≥0 ?，于是：

（编辑：晋中站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/19

首页

尾页

安徽合肥人工智能产业	为了不emo，我将自己培
AI芯片公司拿下超级石	Vitalik 协议设计中的