[转]文本相似性算法:simhash/minhash/余弦算法
发布时间:2021-01-19 18:42:40 所属栏目:大数据 来源:网络整理
导读:数据挖掘之lsh(局部敏感hash) minhash、simhash 在项目中碰到这样的问题: 互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。 算法的原理很简单
????? ?程序中做了两小的改进,以加快效率:
????? ?1. 只将汉字作为向量,其他的如标点,数字等符号不处理;2. 在HashMap中存放汉字和其在文本中对于的个数时,先将单个汉字通过GB2312编码转换成数字,再存放。 ????? ?最后写了个测试,根据两种不同的算法对比下时间,下面是测试结果: ????? ?余弦定理算法:doc1 与 doc2 相似度为:0.9954971,耗时:22mm ????? ?距离编辑算法:doc1 与 doc2 相似度为:0.99425095,耗时:322mm ????? ?可见效率有明显提高,算法复杂度大致为:document1.length + document2.length。 ? ? ? ? 文章来源:?http://my.oschina.net/BreathL/blog/42477 PHP实现余弦相似度算法(编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |