我正在研究一个项目,要求我检查string2中是否几乎存在string1,如果是(即,如果它匹配超过某个阈值比率,例如delta),那么我需要从string2中提取匹配的段并保存。
string1的范围为100到200个字符 string2的长度将更大,范围在15000到20000个字符之间。
我目前正在使用的示例
string1 =“ MA A NA E LA OO KA A SA BHA I YA A BA A HA U MA A DA A DA A A A NGA GA I KA A RA A PA A DDA A DA A DA A NA A NA TA A RA A BA MA A SA U DA EE GA AA JA A SA A BHA E GA E BA A NA DA I TA U”
string2 = string2
我已经在python中使用了Fuzzywuzzy和SequenceMatcher库,但是恐怕我只能使用这些库来获取阈值,而不能从string2中提取子字符串。
from fuzzywuzzy import fuzz
print(fuzz.partial_ratio(string1,string2))
在对两个字符串执行模糊模糊比例比检查后,我得到的比率是89。
我需要从string2获取一个(大约)子字符串,该字符串应该与string1的长度几乎相同。意思是,我需要string2中89%的字符串匹配位置。