我正在尝试在两个文件中匹配(什么是网络登录用户名)。 All是一个我想(或将要)匹配的名字的文本文件。目前,我正在做这样的事情:
def find_files(directory, pattern):
#directory= (raw_input("Enter a directory to search for Userlists: ")
directory=("c:\\TEST")
os.chdir(directory)
for root, dirs, files in os.walk(directory):
for basename in files:
if fnmatch.fnmatch(basename, pattern):
filename = os.path.join(root, basename)
yield filename
for filename in find_files('a-zA-Z0-9', '*.txt'):
with open (filename, "r") as file1:
with open ("c:/All.txt", "r") as file2:
list1 = file1.readlines()[18:]
list2 = file2.readlines()
for i in list1:
for j in list2:
if i == j:
我是python的新手,我想知道这是否是最好,最有效的方法。对我来说,即使作为一个新手有点笨重,但我目前的编码知识是我现在能想到的最好的。 我们将非常感激地提供任何帮助和建议。
答案 0 :(得分:4)
您希望先将一个文件读入内存,然后将其存储在一个集合中。集合中的成员资格测试非常有效,很多比循环第一个文件中每一行的第二个文件的行更多。
然后你只需要读取第二个文件,然后逐行处理它并测试行是否匹配。
您在内存中保留的文件取决于All.txt
的大小。如果是< 1000行左右,只需将其保存在内存中并将其与其他文件进行比较。如果All.txt
非常大,请为您处理的每个file1
重新打开它,并将file1
的前18行读入内存,并将其与All.txt
中的每一行匹配},逐行。
要只读取18行文件,请使用itertools.islice()
;文件是可迭代的,islice()
是选择要读取的行子集的最简单方法。
首先将All.txt
读入内存:
from itertools import islice
with open ("c:/All.txt", "r") as all:
# storing lines without whitespace to make matching a little more robust
all_lines = set(line.strip() for line in all)
for filename in find_files('a-zA-Z0-9', '*.txt'):
with open(filename, "r") as file1:
for line in islice(file1, 18):
if line.strip() in all_lines:
# matched line
如果All.txt
很大,请先将每个文件的18行存储在一个集合中,然后重新打开All.txt
并逐行处理:
for filename in find_files('a-zA-Z0-9', '*.txt'):
with open(filename, "r") as file1:
file1_lines = set(line.strip() for line in islice(file1, 18))
with open ("c:/All.txt", "r") as all:
for line in all:
if line.strip() in file1_lines:
# matched line
请注意,您不必须更改find_files()
中的目录; os.walk()
已经传递了目录名称。 fnmatch
模块还有一个.filter()
方法,使用它来循环files
而不是在每个文件上单独使用fnmatch.fnmatch()
:
def find_files(directory, pattern):
directory = "c:\\TEST"
for root, dirs, files in os.walk(directory):
for basename in fnmatch.filter(files, pattern):
yield os.path.join(root, basename)