SimHash算法在文档关联时的应用

5-10 729 views

1.使用背景 最近在做中国软件杯,涉及到文档关联,一开始用的方法是提取文档关键词,然后建立特征向量。 当上传一篇文档的时候,对文档分词,去掉停词,然后...
阅读全文 0

Lucene分词-最大正向匹配算法-Trie树的应用

3-23 787 views

分词算法千差万别。正向最大匹配算法应该算比较简单的一种。 性能不是很高,并且不能显示词性等,比较依赖于词典,不能进行语法分析等。   今天在学习的...
阅读全文 0

最大生成树在图片拼接中的应用

3-23 864 views

之前已经写过一篇 stitching_detailed的源码理解了。里面提到了最大生成树的问题。 今天想单独拿出来放在一个专栏里面,以后持续的写下去。   以前在ACM...
阅读全文 0
加载更多