[转]文本相似性算法:simhash/minhash/余弦算法
发布时间:2021-01-19 18:42:40 所属栏目:大数据 来源:网络整理
导读:数据挖掘之lsh(局部敏感hash) minhash、simhash 在项目中碰到这样的问题: 互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。 算法的原理很简单
感谢您做的simhash库,感觉会很方便。 有关求二进制中1的个数,其实有各种O(1)的实现。可以参考这个地方:http://stackoverflow.com/a/14682688 simhash 实现的工程项目
主要是针对中文文档,也就是此项目进行simhash之前同时还进行了分词和关键词的抽取。 对比其他算法『百度的去重算法』 百度的去重算法最简单,就是直接找出此文章的最长的n句话,做一遍hash签名。n一般取3。 工程实现巨简单,据说准确率和召回率都能到达80%以上。 『shingle算法』 shingle原理略复杂,不细说。 shingle算法我认为过于学院派,对于工程实现不够友好,速度太慢,基本上无法处理海量数据。 『其他算法』 具体看微博上的讨论 参考
来源:http://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html 实现文本相似度算法(余弦定理) (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |