在Python中查找大型文本文件中的字符串

时间:2016-02-18 12:27:04

标签: python string list iteration

以下是我的代码:

with open("WinUpdates.txt") as f:
    data=[]
    for elem in f:
        data.append(elem)

with open("checked.txt", "w") as f:
    check=True
    for item in data:
        if "KB2982791" in item:
            f.write("KB2982791\n")
            check=False
        if "KB2970228" in item:
            f.write("KB2970228\n")
            check=False
        if "KB2918614" in item:
            f.write("KB2918614\n")
            check=False
        if "KB2993651" in item:
            f.write("KB2993651\n")
            check=False
        if "KB2975719" in item:
            f.write("KB2975719\n")
            check=False
        if "KB2975331" in item:
            f.write("KB2975331\n")
            check=False
        if "KB2506212" in item:
            f.write("KB2506212\n")
            check=False
        if "KB3004394" in item:
            f.write("KB3004394\n")
            check=False
        if "KB3114409" in item:
            f.write("KB3114409\n")
            check=False
        if "KB3114570" in item:
            f.write("KB3114570\n")
            check=False

    if check:
        f.write("No faulty Windows Updates found!")

“WinUpdates.txt”文件包含很多这样的行:

  

http://support.microsoft.com/?kbid=2980245 RECHTS更新
  KB2980245 NT-AUTORITÄT\ SYSTEM 8/18/2014
  http://support.microsoft.com/?kbid=2981580 RECHTS更新
  KB2981580 NT-AUTORITÄT\ SYSTEM 8/18/2014
  http://support.microsoft.com/?kbid=2982378 RECHTS安全更新   KB2982378 NT-AUTORITÄT\ SYSTEM 9/12/2014
  http://support.microsoft.com/?kbid=2984972 RECHTS安全更新   KB2984972 NT-AUTORITÄT\ SYSTEM 10/17/2014
  http://support.microsoft.com/?kbid=2984976 RECHTS安全更新   KB2984976 NT-AUTORITÄT\ SYSTEM 10/17/2014
  http://support.microsoft.com/?kbid=2984981 RECHTS安全更新   KB2984981 NT-AUTORITÄT\ SYSTEM 10/16/2014
  http://support.microsoft.com/?kbid=2985461 RECHTS更新
  KB2985461 NT-AUTORITÄT\ SYSTEM 9/12/2014
  http://support.microsoft.com/?kbid=2987107 RECHTS安全更新   KB2987107 NT-AUTORITÄT\ SYSTEM 10/17/2014
  http://support.microsoft.com/?kbid=2990214 RECHTS更新
  KB2990214 NT-AUTORITÄT\ SYSTEM 4/16/2015
  http://support.microsoft.com/?kbid=2991963 RECHTS安全更新   KB2991963 NT-AUTORITÄT\ SYSTEM 11/14/2014
  http://support.microsoft.com/?kbid=2992611 RECHTS安全更新   KB2992611 NT-AUTORITÄT\ SYSTEM 11/14/2014
  http://support.microsoft.com/?kbid=2993651 RECHTS更新
  KB2993651 NT-AUTORITÄT\ SYSTEM 8/29/2014
  http://support.microsoft.com/?kbid=2993958 RECHTS安全更新   KB2993958 NT-AUTORITÄT\ SYSTEM 2014年11月14日

但是当我执行我的代码时,它说它没有找到任何这些更新?即使我知道它应该找到4。 我将“数据”列表写入一个新的文本文件,但似乎一切都好吗?

为什么你认为我的代码不起作用?

2 个答案:

答案 0 :(得分:2)

FWIW,您的代码可以用更紧凑的方式编写,不需要大量if语句。此外,由于(新)数据文件只有63342字节,您可以将整个内容读入单个字符串,而不是字符串列表。

kb_ids = (
    "KB2982791",
    "KB2970228",
    "KB2918614",
    "KB2993651",
    "KB2975719",
    "KB2975331",
    "KB2506212",
    "KB3004394",
    "KB3114409",
    "KB3114570",
)

with open("WinUpdates.txt") as f:
    data = f.read()

check = True
with open("checked.txt", "w") as f:
    for kb in kb_ids:
        if kb in data:
            f.write(kb + "\n")
            check = False

    if check:
        fout.write("No faulty Windows Updates found!\n")

checked.txt 的内容,使用链接数据:

KB2970228
KB2918614
KB2993651
KB2506212
KB3004394

请注意,此代码按照kb_ids中定义的顺序打印找到的kbids,而不是它们在" WinUpdates.txt"中出现的顺序。

如果文件很大,例如超过一兆字节左右,那么搜索整个文件作为每个kbid的字符串可能是个好主意;您可能希望运行一些时序测试(使用timeit)来查看哪种策略最适合您的数据。

如果您想将文件读入列表,则无需使用for循环,您可以这样做:

with open("WinUpdates.txt") as f:
    data = f.readlines()

或者,您可以逐行处理文件而不将其读入列表:

kb_ids = (
    "KB2982791",
    "KB2970228",
    "KB2918614",
    "KB2993651",
    "KB2975719",
    "KB2975331",
    "KB2506212",
    "KB3004394",
    "KB3114409",
    "KB3114570",
)

check = True
with open("WinUpdates.txt") as fin:
    with open("checked.txt", "w") as fout:
        for data in fin:
            for kb in kb_ids:
                if kb in data:
                    fout.write(kb + "\n")
                    check = False

        if check:
            fout.write("No faulty Windows Updates found!\n")

在更现代的Python版本中,两个with statements可以组合成一行。

答案 1 :(得分:1)

我添加并修复了您丢失的内容,请检查两条评论,看看我的意思。这对我有用,所以它应该适合你。祝你有美好的一天!

with open("WinUpdates.txt", "r") as f:  #you forgot to put the "r" option to read the file
    data = f.read()  #no reason to put the data into a list a string will do fine

with open("checked.txt", "w") as f:
    check=True
    if "KB2982791" in data:
        f.write("KB2982791\n")
        check=False
    if "KB2970228" in data:
        f.write("KB2970228\n")
        check=False
    if "KB2918614" in data:
        f.write("KB2918614\n")
        check=False
    if "KB2993651" in data:
        f.write("KB2993651\n")
        check=False
    if "KB2975719" in data:
        f.write("KB2975719\n")
        check=False
    if "KB2975331" in data:
        f.write("KB2975331\n")
        check=False
    if "KB2506212" in data:
        f.write("KB2506212\n")
        check=False
    if "KB3004394" in data:
        f.write("KB3004394\n")
        check=False
    if "KB3114409" in data:
        f.write("KB3114409\n")
        check=False
    if "KB3114570" in data:
        f.write("KB3114570\n")
        check=False

    if check:
        f.write("No faulty Windows Updates found!")