文档相似度计算

本工具使用三种不同的算法来全面评估文本相似度,就像从不同角度观察两篇文章的相似程度:

余弦相似度

将文本转换为数学向量,计算它们之间的夹角。想象两篇文章各自是一个方向,夹角越小(余弦值越接近1),表示方向越接近,文章越相似。这种方法特别擅长:

忽略文章长度差异,只关注内容比例

捕捉关键词的分布相似性

适合比较主题相似的文章

Jaccard相似度

计算两篇文章共有词汇占所有词汇的比例。就像比较两个集合的重叠程度 —— 共同拥有的词越多,相似度越高。这种方法特别适合:

检测文本的词汇重叠程度

判断是否使用了相同的关键术语

适合需要精确匹配词汇的场景

编辑距离相似度

计算将一篇文章转变为另一篇所需的最少编辑操作(插入、删除、替换)。就像测量两篇文章之间的"改动工作量",需要的改动越少,相似度越高。这种方法特别擅长:

检测文本的结构和顺序相似性

发现轻微修改过的文本

适合比较短文本或句子

综合相似度是以上三种算法的加权平均值,能够更全面地评估文本相似程度。就像医生通过多项检查来综合判断健康状况,我们通过多种算法来全面评估文本相似性。