干货收藏!Python完整代码带你一文看懂抽样
发布时间:2019-09-26 02:44:05 所属栏目:优化 来源:宋天龙
导读:1.什么时候需要抽样 抽样工作在数据获取较少或处理大量数据比较困难的时期非常流行,这主要有以下几方面原因: 数据计算资源不足。计算机软硬件的限制是导致抽样产生的基本原因之一,尤其是在数据密集的生物、科学工程等领域,不抽样往往无法对海量数据进
首先使用Numpy的loadtxt方法导入已经划分好整群的数据集。在该示例中,读取的数据文件中的最后一列存放了不同整群的标识,整群一共被划分为4个群组,标识分别为0、1、2、3。接着通过unique方法获取整群标签的值域,用于基于整群的抽样。打印输出结果如下:
然后使用Random的sample方法从整群标签中进行抽样,这里定义抽取2个整群。最后将所有属于抽取到的整群下的数据进行读取和追加,并得到最终样本集,打印输出样本集的整群标签和总样本数量,结果如下:
由于是随机概率抽样,因此读者使用代码抽取到的样本很可能与笔者示例不一致,这属于正常现象。另外,读者多次随机抽样程序也可能得到不一样的结果。 上述过程中,需要考虑的关键点是:如何根据不同的数据特点、建模需求、业务背景综合考虑抽样方法,得到最适合的结果 代码实操小结:本节示例中,主要用了几个知识点:
(编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |