[转]文本相似性算法：simhash/minhash/余弦算法

发布时间：2021-01-19 18:42:40 所属栏目：大数据来源：网络整理

导读：数据挖掘之lsh（局部敏感hash） minhash、simhash 在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单

????? ?程序中做了两小的改进，以加快效率：

????? ?1. 只将汉字作为向量，其他的如标点，数字等符号不处理；2. 在HashMap中存放汉字和其在文本中对于的个数时，先将单个汉字通过GB2312编码转换成数字，再存放。

????? ?最后写了个测试，根据两种不同的算法对比下时间，下面是测试结果：

????? ?余弦定理算法：doc1 与 doc2 相似度为：0.9954971,耗时：22mm

????? ?距离编辑算法：doc1 与 doc2 相似度为：0.99425095,耗时：322mm

????? ?可见效率有明显提高，算法复杂度大致为：document1.length + document2.length。

? ? ? ?

文章来源：?http://my.oschina.net/BreathL/blog/42477

PHP实现余弦相似度算法

（编辑：晋中站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

安徽合肥人工智能产业	为了不emo，我将自己培
AI芯片公司拿下超级石	Vitalik 协议设计中的