我的Python搜索代码有多高效

时间:2011-11-16 20:00:07

标签: python performance

以下是我的Python文件搜索应用程序的细节。我仍然是Python中的菜鸟,并且对于获得工作代码而不是考虑效率和性能更加满意。我想向您了解Python或任何其他语言,退伍军人有什么办法可以让我的代码更高效,从而更快?我已经阅读过关于分析脚本的内容,但我并不熟悉这个概念,也不确定它是否适用。目前,我的代码大约需要4-5分钟来搜索100个文件(最大的文件是~5000KB)。那很慢。

代码:

 userstring = raw_input("Enter a search string!")
 ...
 ...
 ...
 if userstring:
        userStrHEX = userstring.encode('hex')
        userStrASCII = ''.join(str(ord(char)) for char in userstring)
        regex = re.compile(r"(%s|%s|%s)" % ( re.escape( userstring ), re.escape(userStrHEX ), re.escape( userStrASCII )))      
 else:
    sys.exit('You Must Enter A String!!!')

    count = 0
    count2 = 0
    for afile in filelist:
        (head, filename) = os.path.split(afile)
        if afile.endswith(".log") or afile.endswith(".txt"):
            count2 += 1
            self.progress_bar.Show()
            self.progress_bar.SetRange(numFiles)
            wx.CallAfter(self.progress_bar.SetValue, count2)
            f=ftp.open(afile, 'r')
            for i, line in enumerate(f.readlines()):
                result = regex.search(line)
                if self.shouldAbort:
                    return self.shouldAbort
                    break

                if result:
                    count += 1
                    ln = str(i)
                    pathname = os.path.join(afile)
                    template = "\n\nLine: {0}\nFile: {1}\nString Type: {2}\n\n"
                    output = template.format(ln, pathname, result.group())
                    ftp.get(afile, 'c:\\Extracted\\' + filename)
                    temp.write(output)
                    break
            else:
                temp.write("\nNo Match in: " + os.path.join(afile))

1 个答案:

答案 0 :(得分:1)

这是一个非常合理的解决方案。

使用更多正则表达式魔法可以让它变得更快但你会失去一些清晰度。

请记住,运行时间很可能由FTP文件检索主导,而不是搜索本身。因此,可能会浪费IO bound进程的额外优化。请参阅Amdahl's Law