机器学习物语(2)：大数定理军团

发布时间：2021-01-25 03:10:10 所属栏目：大数据来源：网络整理

导读：机器学习理论帝国崛起，大数定理军团功不可没，称之为军团毫不夸张，在前军先锋强大数定理和副将弱大数定理后面，是铠甲上刻着“Concentration of Measure”的古老印记的战士们，不妨暂且忽略他们之间乱七八糟的“血缘”关系，而罗列一些名字：Chebyshev 不

于是，我们可以以? 1?δ ?的概率保证

supf∈F|Rn(f)?R(f)|≤(b?a)12nln2Nδ?√

以对数依赖于? F ?的元素个数的，似乎还算不错了，结合前面的结论，让我们来看一下具体的数值。假设有 1000 个数据点，在 1000 个函数上进行学习，考虑分类问题和 0-1 loss，则我们能以 99% 的概率保证

R(f?n)?RF≤2supf∈F|Rn(f)?R(f)|≤212nln2Nδ?√≈0.16 对? ln?√ ?级别的增长在这里是很有用的，比如，我们将函数空间的元素个数增加到 1000000 个，误差上界也才增加到 0.20 而已。但是确实是随着函数空间的复杂化而增长的，这从一定程度上解释了先前提到的 estimation error 随着函数空间的增大而增大的断言。当然，只是说“从一定程度上”解释，因为我们这里只是得到一个上界而已，上界的增大并不一定意味着真实值也增大的。

到此为止，我们已经完成了对 ERM 算法的一个 theoretical justification ：至少在一个有限的函数空间? F ?中进行学习，ERM 算法是合理的，因为我们可以得到 ERM 算法找出的函数? f?n 的 Risk 与? F ?里所能达到的最小 Risk? RF ?之差的一个 bound ，并且，这个 bound 会随着? n→∞ ?而趋向于 0 ，也就是说，随着数据点的个数趋向于无穷，ERM 能够保证收敛都真实的最优解。

当然，故事还远远没有结束呢，还有众多的问题没有解决，其中最为严重的一个就是函数空间? F ?的大小问题，这里的结论只能适用于? F ?有限的情况，但是这实在是非常大的限制。正常一点的函数空间，像 “ Rm ?上的线性函数”之类的都远远不是有限的。为了解决无限的情况，我们需要挖掘一下? F ?的结构，注意我们刚才在推导一致 bound 的时候只是把? F ?看成一个普通的集合来看待的，但是如果? F ?有一些拓扑或者度量或者其他的结构呢？比如说， F ?上存在度量，那么如果有一团一团的函数彼此之间是很相似的的话，是不是可以用其中的某个函数来“代表”其他的函数，从而减少空间的“有效大小”？在数学上有没有什么“把无限划归为有限”的方法？不过这些问题，要留到下一次来解决了。

机器学习物语(2)：大数定理军团

?是独立同分布的随机变量，并且? ?，记? ， ?，则随着?

强大数定理： ?几乎处处（逐点）收敛于? ?，亦即

（编辑：晋中站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

11/19

首页

尾页

安徽合肥人工智能产业	为了不emo，我将自己培
AI芯片公司拿下超级石	Vitalik 协议设计中的