从fileA的单词中创建一个列表,然后针对python中的fileB对该列表进行检查

时间:2018-07-24 15:56:52

标签: python list replace

更详细一点,我在txt文件中有一个常用单词列表,我想检查另一个文件(html)中是否存在那些单词(大约2000个),以及是否确实将它们替换为一个常量字符串(例如,sssss)。正则表达式使用这两个\b \b(?:one|two|three)\b or \w or ?:^|(?<= ))(one|common|word|or|another)(?:(?= )|$)并没有太大帮助。

现在,我知道如何打开文件并导入第一个列表,但是我不知道如何对照大文本检查该列表的每个条目并替换其实例。我不在乎是否会花费时间,我只是真的需要完成此操作,也不知道该怎么做。

import re
import string

f = open('test2.txt', 'r')
lines = f.readlines()
print (lines)

1 个答案:

答案 0 :(得分:1)

这是给您的提示。将每个文件解析为set,其中每个词都是一个条目。

然后,您可以使用以下两个聚合函数之一对这两个集合进行比较:unionintersectiondifferencesymmetric difference

除非您计划与每个单词进行其他关联(将catcats比较),否则不需要正则表达式。但是,如果您打算走这条路,那么最好生成Trie (prefix tree)。如果您愿意显示更多代码(进度),我可以进行更多扩展。