加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 安全 > 正文

美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子

发布时间:2017-09-15 10:12:45 所属栏目:安全 来源:雷锋网
导读:副标题#e# 编者按:作为拥有微信和qq等社交应用的腾讯,用户数据是其非常重要的资源,同时也是腾讯安全重点关注的领域,连CEO马化腾都一直在讲,未来的安全是大数据安全。 腾讯云安全总监周斌(Blue)在 2017 腾讯安全技术国际峰会中,就以“大数据下的黑产

接下来我们会考虑到,因为现在的数据源多样,各个数据源的数据特征都不太一样,属性也不太统一,离散和连续其实是并存的,整个查询不一致,又是非线性分布,而且特征维度较高的情况下,单独使用性能都很差,人工规则又很难覆盖,所以我们需要使用随机分离的模型来训练。整个模型是从训练子集当中进行采样,同时从各特征集也进行采样,最后建立一个决策树,进行自动选择,最终形成一个分裂的二叉树,采用投票的方式进行分类。这个分类迭代了以后,可以较好提升检测的性能,但依然不是一个完美的状态。

我们有一个更高的要求,因为我们对精度有更高的要求,针对于误差,我们在学习的时候由于有更好的精准,标签数字也在增加,这个时候我们需要采用新的方法,所以我们有了第三个阶段,基于残差的阶段去做了这样的动作。

基于残差的思路,我们建立了一个弱学习器,通过迭代训练集成了一个boosting的分析器来进行学习,优点是在大数据集下分类性能最好,而且适用于非线性特征和多特征的类型。这个是不是完整的呢?其实最后还是不完整的。由于腾讯社交网络的业务多样化,以及腾讯云上客户应用场景的多样化,这个时候我们需要在各个场景去进行一个定制化建模的时候,人力成本会变得越来越高,最后我们的解决思想是采用神经网络进行模型设计,最后基于迁移学习,进行实地的迁移或目标领域的特征。优点是一套方案可以多处复用,适合于标签数据偏少的情况。

美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子

最终我们会在这个模型上输出一个框架,这个框架是我们现在在风险控制领域出来的基础架构,最底层是我们的画像数据层,包括基于我刚刚讲的几个算法形成画像数据、设备指纹数据以及知识图谱。在云数据上,我们保留了终端数据、身份数据以及恶意内容的数据。在算法这一层,对于像迁移学习、boosting等算法纳入到基础的算法层,这一层主要是基于内容这一块的,比如像传统的图像识别以及语音识别等等算法,可能还有第三块,就是最右边灰色的这一段。灰色的这一段刚刚没有重点介绍,因为灰色这一段是属于泛安全这一块。因为左右,其实蓝色跟绿色这一段跟安全更相关,灰色这一段是为了我们在图计算当中能够更好地去识别相似群体用的。

比如像这里,灰色第三段,像Look Alike的算法,一般是在广告系统里用得比较多,但是在安全领域用的时候,依然可以在相似当中进行扩展,这就形成了算法层,最终我们会形成服务层的模型,以便向金融、内容以及市场领域进行应用,最终我们形成了这样一个统一的框架。

这个框架的数据现在除了在腾讯用,在电商、直播、移动以及O2O等多个行业其实也都会应用。

美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子

我这里画了一页图,就是战斗才刚刚开始。我们虽然用了很多对抗,实际上我们来看准确率跟覆盖率,其实效果还不错,但对手也在演进,不是说开始在一成不变的状态。上午的时候,其实各位已经看过了这样一个验证码的平台,我今天把这个平台再进一步放一放。

美女头像这么多,腾讯云安全用大数据告诉你哪个是骗子

这是基于神经网络搭建的黑产验证码破解平台,这个平台的开发者是一位博士,他其实主要是做的中国现在验证码的识别。这个平台是基于现在很流行的一个深度学习的模型,叫caffe,基于这个模型搭建,搭建完了以后大概是花了 50 几台服务器去进行深度训练。在这个平台里面,最终积累了差不多 1 万左右字符的样本,大概积累了 5000 万左右的学习样本,对中国目前市面上所有的验证码进行破解。目前依据这个平台上来看,它在 2017 年的上半年,也就是前 6 个月,这个平台上一共发生了 259 亿次的验证码破解,破解的成功率在95%以上。也就是现在中国市面上所有的验证码全部可以破掉,不管你怎么对抗。

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读