更详细一点,我在txt文件中有一个常用单词列表,我想检查另一个文件(html)中是否存在那些单词(大约2000个),以及是否确实将它们替换为一个常量字符串(例如,sssss)。正则表达式使用这两个\b \b(?:one|two|three)\b or \w or ?:^|(?<= ))(one|common|word|or|another)(?:(?= )|$)
并没有太大帮助。
现在,我知道如何打开文件并导入第一个列表,但是我不知道如何对照大文本检查该列表的每个条目并替换其实例。我不在乎是否会花费时间,我只是真的需要完成此操作,也不知道该怎么做。
import re
import string
f = open('test2.txt', 'r')
lines = f.readlines()
print (lines)
答案 0 :(得分:1)
这是给您的提示。将每个文件解析为set
,其中每个词都是一个条目。
然后,您可以使用以下两个聚合函数之一对这两个集合进行比较:union
,intersection
,difference
或symmetric difference
。
除非您计划与每个单词进行其他关联(将cat
与cats
比较),否则不需要正则表达式。但是,如果您打算走这条路,那么最好生成Trie (prefix tree)。如果您愿意显示更多代码(进度),我可以进行更多扩展。