[转]文本相似性算法：simhash/minhash/余弦算法

发布时间：2021-01-19 18:42:40 所属栏目：大数据来源：网络整理

导读：数据挖掘之lsh（局部敏感hash） minhash、simhash 在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单

simhash是google用来处理海量文本去重的算法。 google出品，你懂的。 simhash最牛逼的一点就是将一个文档，最后转换成一个64位的字节，暂且称之为特征字，然后判断重复只需要判断他们的特征字的距离是不是<n（根据经验这个n一般取值为3），就可以判断两个文档是否相似。

原理

simhash值的生成图解如下

大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛，简单实用。

算法过程大概如下：

将Doc进行关键词抽取(其中包括分词和计算权重)，抽取出n个(关键词，权重)对，即图中的(feature,weight)们。记为?feature_weight_pairs?= [fw1,fw2 … fwn]，其中 fwn = (feature_n,weight_n`)。
hash_weight_pairs?= [ (hash(feature),weight) for feature,weight infeature_weight_pairs?] 生成图中的(hash,weight)们,此时假设hash生成的位数bits_count = 6（如图）;
然后对?hash_weight_pairs?进行位的纵向累加，如果该位是1，则+weight,如果是0，则-weight，最后生成bits_count个数字，如图所示是[13,108,-22,-5,-32,55],这里产生的值和hash函数所用的算法相关。
到此，如何从一个doc到一个simhash值的过程已经讲明白了。但是还有一个重要的部分没讲，『simhash值的海明距离计算』二进制串A 和二进制串B 的海明距离就是?A xor B?后二进制中1的个数。举例如下： A = 100111; B = 101010; hamming_distance(A,B) = count_1(A xor B) = count_1(001101) = 3; 当我们算出所有doc的simhash值之后，需要计算doc A和doc B之间是否相似的条件是： A和B的海明距离是否小于等于n，这个n值根据经验一般取值为3, simhash本质上是局部敏感性的hash，和md5之类的不一样。正因为它的局部敏感性，所以我们可以使用海明距离来衡量simhash值的相似度。『高效计算二进制序列中1的个数』 /* src/Simhasher.hpp */ bool isEqual(uint64_t lhs, uint64_t rhs, unsigned short n = 3) { unsigned short cnt = 0; lhs ^= rhs; while(lhs && cnt <= n) { lhs &= lhs - 1; cnt++; } if(cnt <= n) { return true; } return false; } 由上式这个函数来计算的话，时间复杂度是 O(n); 这里的n默认取值为3。由此可见还是蛮高效的。『计算二进制序列中1的个数之O(1)算法实现』感谢?@SCatWang?的评论分享：（编辑：晋中站长网）【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

11/23

首页

尾页

安徽合肥人工智能产业	为了不emo，我将自己培
AI芯片公司拿下超级石	Vitalik 协议设计中的