我有一个项目,我给了一个文件,我需要从文件中提取字符串。基本上想到linux中的“strings”命令,但我在python中这样做。下一个条件是文件作为流(例如字符串)提供给我,所以使用其中一个子进程函数运行字符串的明显答案也不是一个选项。
我写了这段代码:
def isStringChar(ch):
if ord(ch) >= ord('a') and ord(ch) <= ord('z'): return True
if ord(ch) >= ord('A') and ord(ch) <= ord('Z'): return True
if ord(ch) >= ord('0') and ord(ch) <= ord('9'): return True
if ch in ['/', '-', ':', '.', ',', '_', '$', '%', '\'', '(', ')', '[', ']', '<', '>', ' ']: return True
# default out
return False
def process(stream):
dwStreamLen = len(stream)
if dwStreamLen < 4: return None
dwIndex = 0;
strString = ''
for ch in stream:
if isStringChar(ch) == False:
if len(strString) > 4:
#print strString
strString = ''
else:
strString += ch
这在技术上有效,但速度慢。例如,我能够在500Meg可执行文件上使用strings命令,并且在不到1秒的时间内生成了价值300k的字符串。我通过上面的代码运行了相同的文件,花了16分钟。
那里有一个库可以让我在没有python延迟负担的情况下这样做吗?
谢谢!
答案 0 :(得分:9)
与David Wolever的速度相似,使用re
,Python的正则表达式库。优化的简短故事是你编写的代码越少,它就越快。循环的库函数通常在C中实现,并且比您希望的更快。同样适用于char in set()
比检查自己更快。在这方面,Python与C相反。
import sys
import re
chars = r"A-Za-z0-9/\-:.,_$%'()[\]<> "
shortest_run = 4
regexp = '[%s]{%d,}' % (chars, shortest_run)
pattern = re.compile(regexp)
def process(stream):
data = stream.read()
return pattern.findall(data)
if __name__ == "__main__":
for found_str in process(sys.stdin):
print found_str
使用4k块工作会很聪明,但对re
的边缘情况来说有点棘手。 (其中两个字符位于4k块的末尾,接下来的两个字符位于下一个块的开头)
答案 1 :(得分:5)
至少有一个问题是你正在将整个流读入内存(… = len(stream)
),另一个问题是你的isStringChar
函数非常慢(函数调用相对较慢,并且你正在做很多事情。)
更好的是这样的事情:
import sys
import string
printable = set(string.printable)
def process(stream):
found_str = ""
while True:
data = stream.read(1024*4)
if not data:
break
for char in data:
if char in printable:
found_str += char
elif len(found_str) >= 4:
yield found_str
found_str = ""
else:
found_str = ""
if __name__ == "__main__":
for found_str in process(sys.stdin):
print found_str
这会快得多,因为: