以下是我的Python文件搜索应用程序的细节。我仍然是Python中的菜鸟,并且对于获得工作代码而不是考虑效率和性能更加满意。我想向您了解Python或任何其他语言,退伍军人有什么办法可以让我的代码更高效,从而更快?我已经阅读过关于分析脚本的内容,但我并不熟悉这个概念,也不确定它是否适用。目前,我的代码大约需要4-5分钟来搜索100个文件(最大的文件是~5000KB)。那很慢。
代码:
userstring = raw_input("Enter a search string!")
...
...
...
if userstring:
userStrHEX = userstring.encode('hex')
userStrASCII = ''.join(str(ord(char)) for char in userstring)
regex = re.compile(r"(%s|%s|%s)" % ( re.escape( userstring ), re.escape(userStrHEX ), re.escape( userStrASCII )))
else:
sys.exit('You Must Enter A String!!!')
count = 0
count2 = 0
for afile in filelist:
(head, filename) = os.path.split(afile)
if afile.endswith(".log") or afile.endswith(".txt"):
count2 += 1
self.progress_bar.Show()
self.progress_bar.SetRange(numFiles)
wx.CallAfter(self.progress_bar.SetValue, count2)
f=ftp.open(afile, 'r')
for i, line in enumerate(f.readlines()):
result = regex.search(line)
if self.shouldAbort:
return self.shouldAbort
break
if result:
count += 1
ln = str(i)
pathname = os.path.join(afile)
template = "\n\nLine: {0}\nFile: {1}\nString Type: {2}\n\n"
output = template.format(ln, pathname, result.group())
ftp.get(afile, 'c:\\Extracted\\' + filename)
temp.write(output)
break
else:
temp.write("\nNo Match in: " + os.path.join(afile))
答案 0 :(得分:1)
这是一个非常合理的解决方案。
使用更多正则表达式魔法可以让它变得更快但你会失去一些清晰度。
请记住,运行时间很可能由FTP文件检索主导,而不是搜索本身。因此,可能会浪费IO bound进程的额外优化。请参阅Amdahl's Law。