Access交流中心

北京 | 上海 | 天津 | 重庆 | 广州 | 深圳 | 珠海 | 汕头 | 佛山 | 中山 | 东莞 | 南京 | 苏州 | 无锡 | 常州 | 南通 | 扬州 | 徐州 | 杭州 | 温州 | 宁波 | 台州 | 福州 | 厦门 | 泉州 | 龙岩 | 合肥 | 芜湖 | 成都 | 遂宁 | 长沙 | 株洲 | 湘潭 | 武汉 | 南昌 | 济南 | 青岛 | 烟台 | 潍坊 | 淄博 | 济宁 | 太原 | 郑州 | 石家庄 | 保定 | 唐山 | 西安 | 大连 | 沈阳 | 长春 | 昆明 | 兰州 | 哈尔滨 | 佳木斯 | 南宁 | 桂林 | 海口 | 贵阳 | 西宁 | 乌鲁木齐 | 包头 |

如何计算两个字符串的相似度

0635  发表于:2007-11-16 19:44:14  
复制

如何计算两个字符串的相似度,如果完全相同,相似度为1,如果没有相同的字符,相似度为0,差别越小,相似度越高

比如s1='abcde',s2='abcde',相似度为1

比如s1='abcde',s2='fghij',相似度为0

比如s1='abcde',s2='edcba',相似度为0到1之间的一个数,但是要比s1='abcde',s2='abced'相似度低

 

Top
探花 发表于:2007-11-17 00:29:09

跟我想搞的一个WEB的模糊搜索有点类似,我的方法是只管能凑合用一下的那种,不是最优的,步骤如下:

 

一、用replace函数进行替换,如果替换成功,相似度为1,否则跳到第二步起执行后续步骤(当然,更适合的是使用StrComp函数,我用前面那个函数,纯属个人习惯,不管是用这二个或其它那个函数目的都一样,确定字符是否一致)

 

二、用LEN取S1和S2的字符数

 

三、取字数少的那个,用MID函数逐个取字,结合replace对字数多的那个进行替换,替换成功,则累加器的值加1

 

四、MID取字替换完成后,拿“累加器的值/字数多的那个的字数”,这个0到1之间的值越大,说明相似度越高


实际应用中,为了达到更好的效果,第三步很多人会采用更复杂的处理方法,比如二个都做互替换,或预置字典,或除了逐字取外,还会尝试词组,或多字,跳字,头尾匹配,中间匹配,分段匹配,词义匹配等,以上回帖,只是描述一个简单的实现思路,如果需要达到GOOGLE那么强的搜索匹配技术,就不在我这个回帖的范围里面了



总记录:1篇  页次:1/1 9 1 :