Python Noob<<
我一直在为一个项目拼凑代码。我有可以扫描文件的代码,然后在关键字匹配时保存文件。
但是我得到的东西太多了。我现在需要一个白名单。
所以基本上,如果匹配关键字保存文件(就像代码那样),但是在匹配之后,检查它是否包含来自(尚未创建)白名单关键字列表中的任何单词。如果是这样,请删除该文件,或者不要将其保存在首位。
任何人都可以帮助添加辅助检查以扫描新文件中的文字吗?
# Run text against keyword list and save matches
keywords = [line.strip() for line in open(
op.join(dir, 'keywords.txt'), 'r')
]
hits = []
for keyword in keywords:
if keyword.lower() in document_text.lower():
hits.append(keyword)
# If there are matches, save to system
if hits:
if _verbose:
print 'INFO: Keyword Hit ' + document_id + ' ' + ','.join(hits)
year = datetime.now().strftime('%Y')
month = datetime.now().strftime('%m')
date = datetime.now().strftime('%d')
yyyymmdd = datetime.now().strftime('%Y%m%d')
if not op.exists(op.join(dir, 'directory')):
os.makedirs(op.join(dir, 'directory'))
os.chdir(op.join(dir, 'directory'))
if not op.exists(op.join(year, month, date)):
os.makedirs(op.join(year, month, date))
os.chdir(op.join(year, month, date))
fname = yyyymmdd + '_' + document_id
for hit in hits:
fname += '_' + ''.join(ch for ch in hit if ch.isalnum())
fname += '.txt'
with open(fname, 'w') as f:
f.write('Title: ' + document_title + '\n')
f.write(document_text)