机器学习物语(2)：大数定理军团

发布时间：2021-01-25 03:10:10 所属栏目：大数据来源：网络整理

导读：机器学习理论帝国崛起，大数定理军团功不可没，称之为军团毫不夸张，在前军先锋强大数定理和副将弱大数定理后面，是铠甲上刻着“Concentration of Measure”的古老印记的战士们，不妨暂且忽略他们之间乱七八糟的“血缘”关系，而罗列一些名字：Chebyshev 不

其中? ?是和? ?独立同分布的随机变量。

注意这里要求? ?是有界的，不妨具体到二分类和 0-1 loss 问题，注意 0-1 loss? ?只能取 0 和 1 两个值，因此随机变量? ?是有界的（? ?），于是可以用 Hoeffding 不等式，得到以? ?的概率，有

可见，我们对置信度要求越高（ ?越接近 0 ），不等式右边的值就越大，因此 bound 就越松，不过随着? ?的增大，我们可以得到越来越好的 bound 。用不等式的好处是，我们有明确的数值可以参考，比如，用 1000 个点的 sample ，我们可以以 99% 的概率保证对期望? 的估计误差不超过 0.05 ，虽然这个 bound 不一定 tight ，也就是说，实际结果可能比这里估计的还要好得多，但是至少给了我们一个很“实在”的感觉。

但是有一个问题，从刚才开始我们一直就强调这里的结果是对于某个固定的? ?成立的，但是学习的过程是在整个函数空间? ?中进行的，我们需要保证收敛性在? ?一致成立，前面关于? ?的不等式右边的上确界正是明确了这个要求。注意，即便对于任意? ?都满足收敛性，也不能保证所有? ?一致收敛，作为一个可能不是那么形象的示意图：

机器学习物语(2)：大数定理军团

图中横坐标表示函数空间? ?，红颜色的线表示 Risk ，而蓝色的线表示某个具有? ?个数据点的训练数据? ?对应的 Empirical Risk 。对于某个固定的? ?，随着? ?的增大， ?和? ?直接的距离逐渐趋向于零。但是对于任意固定的? ?，如果? ?足够“大”的话，就可以找到? ?使得? ?和? ?直接相差很大。没有一致收敛的话，就无法保证蓝线的最小值对应的? ?收敛到红线的最小值对应的? ?了。

让我们明确一下目的，之前通过 Hoeffding 不等式，我们得出了? ?的一个 bound ，现在我们需要一个一致的 bound ，也就是说，针对? 的 bound 。这个时候我们又得再为我们的“午餐”支付额外的费用了：为了得到一致收敛性，我们不得不限制? ?的大小。上一次我们曾经举了一个很 trivial 的例子，在? ?是所有的从? 到? ?的函数这么巨大无比的一个空间的情况下，我们可以找到使得 Empirical Risk 最小化（等于零）的解? ?，然而? ?几乎完全没有任何预测能力，其真实 Risk 甚至可以被构造得任意大（可以依赖于未知的? ?来构造，因为我们只是要证明存在性，而不是要进行学习过程，所以可以利用未知的量）。这个例子说明，当函数空间过“大”时，一致收敛是非常困难的。

最简单的情况就是? ?：函数空间只有一个元素的情况，这个时候我们什么都不用干，原始的 Hoeffding 不等式和大数定理已经足够了。不过如果? ?只有一个元素，那也不用做什么 learning 了……接下来让我们考虑稍微不那么 trivial 一点的情况， ?。?

记? ?、 ?分别是? ?和? ?对应的随机变量，并设他们都有界： ?。则我们有

n?Eζ|>?})≤2×2exp(?

（编辑：晋中站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

19/19

首页

安徽合肥人工智能产业	为了不emo，我将自己培
AI芯片公司拿下超级石	Vitalik 协议设计中的