Python帮助 - 如果文件包含来自白名单

时间:2015-08-14 20:29:13

标签: python

Python Noob<<

我一直在为一个项目拼凑代码。我有可以扫描文件的代码,然后在关键字匹配时保存文件。

但是我得到的东西太多了。我现在需要一个白名单。

所以基本上,如果匹配关键字保存文件(就像代码那样),但是在匹配之后,检查它是否包含来自(尚未创建)白名单关键字列表中的任何单词。如果是这样,请删除该文件,或者不要将其保存在首位。

任何人都可以帮助添加辅助检查以扫描新文件中的文字吗?

# Run text against keyword list and save matches

keywords = [line.strip() for line in open(
    op.join(dir, 'keywords.txt'), 'r')
]
hits = []
for keyword in keywords:
    if keyword.lower() in document_text.lower():
        hits.append(keyword)


# If there are matches, save to system
if hits:
    if _verbose:
        print 'INFO: Keyword Hit ' + document_id + ' ' + ','.join(hits)
    year = datetime.now().strftime('%Y')
    month = datetime.now().strftime('%m')
    date = datetime.now().strftime('%d')
    yyyymmdd = datetime.now().strftime('%Y%m%d')

    if not op.exists(op.join(dir, 'directory')):
        os.makedirs(op.join(dir, 'directory'))
    os.chdir(op.join(dir, 'directory'))
    if not op.exists(op.join(year, month, date)):
        os.makedirs(op.join(year, month, date))

    os.chdir(op.join(year, month, date))
    fname = yyyymmdd + '_' + document_id
    for hit in hits:
        fname += '_' + ''.join(ch for ch in hit if ch.isalnum())
    fname += '.txt'
    with open(fname, 'w') as f:
        f.write('Title: ' + document_title + '\n')
        f.write(document_text)

0 个答案:

没有答案