本工具使用三种不同的算法来全面评估文本相似度,就像从不同角度观察两篇文章的相似程度:
余弦相似度
将文本转换为数学向量,计算它们之间的夹角。想象两篇文章各自是一个方向,夹角越小(余弦值越接近1),表示方向越接近,文章越相似。这种方法特别擅长:
忽略文章长度差异,只关注内容比例
捕捉关键词的分布相似性
适合比较主题相似的文章
Jaccard相似度
计算两篇文章共有词汇占所有词汇的比例。就像比较两个集合的重叠程度 —— 共同拥有的词越多,相似度越高。这种方法特别适合:
检测文本的词汇重叠程度
判断是否使用了相同的关键术语
适合需要精确匹配词汇的场景
编辑距离相似度
计算将一篇文章转变为另一篇所需的最少编辑操作(插入、删除、替换)。就像测量两篇文章之间的"改动工作量",需要的改动越少,相似度越高。这种方法特别擅长:
检测文本的结构和顺序相似性
发现轻微修改过的文本
适合比较短文本或句子
综合相似度是以上三种算法的加权平均值,能够更全面地评估文本相似程度。就像医生通过多项检查来综合判断健康状况,我们通过多种算法来全面评估文本相似性。