Question

我有一个巨大的文本文件，20k +行，我想从中提取链接。

我需要的是一个生成一个干净的链接列表的正则表达式。

我需要的链接以http://开头（不含www），以.html结尾

表达式会是什么样的？

Answer 1

对于以.html页面结尾的全球网站看起来像这样：

(http|https)\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,}.+[a-zA-Z0-9\-\.].html

并准确匹配您指定的内容：

http\://[a-zA-Z0-9\-]+\.+[a-z]{2,}\/[a-zA-Z0-9\-]+.html

在新文件中只需按Ctrl + X和Ctrl + V就可以了。

适用于JavaScript和Notepad ++等。

\b用于单词边界，仅搜索整个单词，因此如果文本中只有这样的单词：ewkgml http://test.com/a.html lamklwmwtmk它会找到它并且\B是否定它，wegniwgnwkjnhttp://test.com/a.htmllmwtlkmt34lt也会起作用。 |是or声明。

Answer 2

在Notepad ++中打开Replace Dialog（CTRL + H）插入

.*?(http://.*?\.html).*?

在Find what:输入字段和

中

$1\n

在Replace with:输入字段

中

您必须选中复选框Regular Expression和收件箱. match newline

点击Replace all后，您会看到所有链接的列表 - 每行一个

从大文本文件中获取链接列表

2 个答案: