我正在尝试从每个文本注释中删除我在列表Exclude
中收集的所有单词。这是我的方法。
import operator,re
exclude=[]
for i in range(len(freq_select)):
if freq_select[i][1]<=25:
exclude.append(freq_select[i][0])
def remove_nonfrequent(note):
print(remove_nonfrequent.i)
sentences=[]
for sent in note.split('.'):
words=sent.split(' ')
#print("Before:",len(words))
for word in words:
for j in exclude:
if j==word:
#print(j,word)
words.remove(word)
#print("After:",len(words))
sent=' '.join(words)
sentences.append(sent)
note='. '.join(sentences)
remove_nonfrequent.i+=1
return '. '.join([i for i in note.split('.') if i!=''])
remove_nonfrequent.i=0
jdf.NOTES=jdf.NOTES.apply(remove_nonfrequent)
我最初是遍历熊猫系列中的所有笔记。但是现在我正在使用apply(),我可以说性能提高了一点点。但是仍然需要很长时间。
熊猫系列的每个音符的长度都是可变的。但是平均而言,它可以包含3000-6000个字。一则笔记有13000个字。
我想在这方面获得一些帮助。谢谢