我有一个包含20,000个域名的txt文件(A.txt),每行一个。我有另一个txt文件(B.txt),其中包含数千个编译在一起的Whois记录。我想看看B.txt中没有引用A.txt中的哪些域。一个接一个地做这件事是微不足道的,但我怎么能大规模地做呢?感谢
答案 0 :(得分:0)
您可以修改文件 A.txt ,使样式example.com A other stuff
和文件 B.txt 的行包含{{1}格式的行}。然后将两个文件排序在一起。接下来运行Notepad ++正则表达式替换,搜索example.com B other stuff
并替换为^([^ ]+) A .*\r\n(\1 B )
。结果是,删除了与 B.txt 匹配的任何 A.txt 行,并保留 B.txt 行。如果有多个 A.txt 行匹配一个 B.txt ,则运行替换两次或更多次,直到不替换任何行。最后,删除 B.txt 行(使用正则表达式查找并标记寻找\2
的行,然后删除已添加书签的行),留下不匹配的^([^ ]+) B
行。
不知道源文件A.txt和B.txt的格式我不能建议使用正则表达式在行的开头放置一个A或B后面的URL。