如果匹配这些字词,则打印行

时间:2016-01-12 23:03:00

标签: python-2.7 if-statement data-cleaning

我有一个包含1000多行的文本文件,每个文件都代表一篇关于我正在研究的主题的新闻文章。但是,此数据集中的数百行/文章,我需要删除这些。

我已经使用grep删除其中的许多(grep -vwE "(wordA|wordB)" test8.txt > test9.txt),但我现在需要手动完成其余的工作。

我有一个工作代码,可以找到所有不包含某个单词的行,将此行打印给我,并询问是否应将其删除。它运作良好,但我想包括其他几个词。例如。让我们说我的研究课题是吃肉的趋势。我希望编写一个脚本来打印不包含“鸡肉”的线条。或者'猪肉'或者'牛肉',所以我可以手动验证这些行/文章是否与相关主题有关。

我知道我可以用elif做到这一点,但我想知道是否有更好更简单的方法?例如。我试过了if "chicken" or "beef" not in line:,但它没有用。

这是我的代码:

orgfile = 'text9.txt'
newfile = 'test10.txt'
newFile = open(newfile, 'wb')
with open("test9.txt") as f:
    for num, line in enumerate(f, 1):
        if "chicken" not in line:
            print "{} {}".format(line.split(',')[0], num)
            testVar = raw_input("1 = delete, enter = skip.")
            testVar = testVar.replace('', '0')
            testVar = int(testVar)
            if testVar == 10:
                print ''
                os.linesep
            else:
                f = open(newfile,'ab')
                f.write(line) 
                f.close()
        else:
            f = open(newfile,'ab')
            f.write(line) 
            f.close()

编辑:我尝试了Pieter对this问题的回答,但它在这里不起作用,可能是因为我没有使用整数。

1 个答案:

答案 0 :(得分:1)

您可以使用anyall和生成器。例如

>>> key_word={"chicken","beef"}
>>> test_texts=["the price of beef is too high", "the chicken farm now open","tomorrow there is a lunar eclipse","bla"]
>>> for title in test_texts:
    if any(key in title for key in key_words):
        print title


the price of beef is too high
the chicken farm now open
>>> 
>>> for title in test_texts:
    if not any(key in title for key in key_words):
        print title


tomorrow there is a lunar eclipse
bla
>>>