无论如何,是否要检查字符串“几乎”是否包含另一个字符串?

时间:2019-04-24 13:18:24

标签: algorithm search substring approximation fuzzywuzzy

我正在研究一个项目,要求我检查string2中是否几乎存在string1,如果是(即,如果它匹配超过某个阈值比率,例如delta),那么我需要从string2中提取匹配的段并保存。

string1的范围为100到200个字符 string2的长度将更大,范围在15000到20000个字符之间。

我目前正在使用的示例

string1 =“ MA A NA E LA OO KA A SA BHA I YA A BA A HA U MA A DA A DA A A A NGA GA I KA A RA A PA A DDA A DA A DA A NA A NA TA A RA A BA MA A SA U DA EE GA AA JA A SA A BHA E GA E BA A NA DA I TA U”

string2 = string2

我已经在python中使用了Fuzzywuzzy和SequenceMatcher库,但是恐怕我只能使用这些库来获取阈值,而不能从string2中提取子字符串。

from fuzzywuzzy import fuzz
print(fuzz.partial_ratio(string1,string2))

在对两个字符串执行模糊模糊比例比检查后,我得到的比率是89。

我需要从string2获取一个(大约)子字符串,该字符串应该与string1的长度几乎相同。意思是,我需要string2中89%的字符串匹配位置。

0 个答案:

没有答案