打开并读取目录中的所有文本文件,并使用正则表达式python对其进行过滤

时间:2018-10-15 04:51:00

标签: python regex nlp nltk

因此,给了我一个用例。用例是立即使用正则表达式和python在多个文本文件中查找PHI。

因此,基本上,打开目录中的所有文本文件,然后使用正则表达式过滤每个文件的内容,以查看其中包含PHI的文件。

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

这是使用glob而不是listdir,但是这可能是一种可能的方法。不过,这里也不涉及任何正则表达式。

import glob

folder_path = "C:\Temp"
file_pattern = "\*.txt"
search_string = "hello"

match_list = []

folder_contents = glob.glob(folder_path + file_pattern)

for file in folder_contents:
    print("Checking", file)
    read_file = open(file, 'rt').read()

    if search_string in read_file:
        match_list.append(file)

print("Files containing search string")
for file in match_list:
    print(file)