我该如何优化呢?是否有其他替代方法

时间:2019-11-17 10:51:38

标签: python pandas performance numpy optimization

我正在尝试从每个文本注释中删除我在列表Exclude中收集的所有单词。这是我的方法。

import operator,re

exclude=[]
for i in range(len(freq_select)):
  if freq_select[i][1]<=25:
    exclude.append(freq_select[i][0])



def remove_nonfrequent(note):
  print(remove_nonfrequent.i)
  sentences=[]
  for sent in note.split('.'):
    words=sent.split(' ')
    #print("Before:",len(words))
    for word in words:
      for j in exclude:
        if j==word:
          #print(j,word)
          words.remove(word)
    #print("After:",len(words))
    sent=' '.join(words)
    sentences.append(sent)
  note='. '.join(sentences)
  remove_nonfrequent.i+=1
  return '. '.join([i for i in note.split('.') if i!=''])



remove_nonfrequent.i=0
jdf.NOTES=jdf.NOTES.apply(remove_nonfrequent)

我最初是遍历熊猫系列中的所有笔记。但是现在我正在使用apply(),我可以说性能提高了一点点。但是仍然需要很长时间。

熊猫系列的每个音符的长度都是可变的。但是平均而言,它可以包含3000-6000个字。一则笔记有13000个字。

我想在这方面获得一些帮助。谢谢

0 个答案:

没有答案