从大文本文件中获取链接列表

时间:2014-04-10 19:55:29

标签: regex notepad++

我有一个巨大的文本文件,20k +行,我想从中提取链接。

我需要的是一个生成一个干净的链接列表的正则表达式。

我需要的链接以http://开头(不含www),以.html结尾

表达式会是什么样的?

2 个答案:

答案 0 :(得分:0)

对于以.html页面结尾的全球网站看起来像这样:

(http|https)\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,}.+[a-zA-Z0-9\-\.].html

并准确匹配您指定的内容:

http\://[a-zA-Z0-9\-]+\.+[a-z]{2,}\/[a-zA-Z0-9\-]+.html

在新文件中只需按Ctrl + X和Ctrl + V就可以了。

适用于JavaScript和Notepad ++等。

\b用于单词边界,仅搜索整个单词,因此如果文本中只有这样的单词:ewkgml http://test.com/a.html lamklwmwtmk它会找到它并且\B是否定它,wegniwgnwkjnhttp://test.com/a.htmllmwtlkmt34lt也会起作用。 |or声明。

答案 1 :(得分:0)

在Notepad ++中打开Replace Dialog(CTRL + H)插入

.*?(http://.*?\.html).*?

Find what:输入字段和

$1\n

Replace with:输入字段

您必须选中复选框Regular Expression和收件箱. match newline

点击Replace all后,您会看到所有链接的列表 - 每行一个