我正在处理中国的NLP问题。 我发现找到具有特定后缀的单词。 例如,我有两个列表!
suffixs = ['aaa','bbb','cc'.....]
words_list = ['oneaaa','twobbb','three','four']
for w in words_list:
if w has suffix in suffixs:
func(s,w)
我知道我可以使用re package,但是我只能处理少于100个后缀,但我有1000个以上的后缀。 我尝试使用
for w in words_list:
for s in suffixs:
#suffixs sorted by lenth
if s is_suffix_of(w):
func(s,w)
break
但它太慢了
func(s,w)可以将单词 w 分成no_suffix单词和后缀。
例如&#39; oneaaa&#39;到[&#39;一个&#39; aaa&#39;],但func基于某些条件而且更复杂。所以任何在这里都不起作用。<登记/>
所以我想知道是否有更好的方法来处理它。