我有一个巨大的文本文件,20k +行,我想从中提取链接。
我需要的是一个生成一个干净的链接列表的正则表达式。
我需要的链接以http://
开头(不含www
),以.html
结尾
表达式会是什么样的?
答案 0 :(得分:0)
对于以.html页面结尾的全球网站看起来像这样:
(http|https)\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,}.+[a-zA-Z0-9\-\.].html
并准确匹配您指定的内容:
http\://[a-zA-Z0-9\-]+\.+[a-z]{2,}\/[a-zA-Z0-9\-]+.html
在新文件中只需按Ctrl + X和Ctrl + V就可以了。
适用于JavaScript和Notepad ++等。
\b
用于单词边界,仅搜索整个单词,因此如果文本中只有这样的单词:ewkgml http://test.com/a.html lamklwmwtmk
它会找到它并且\B
是否定它,wegniwgnwkjnhttp://test.com/a.htmllmwtlkmt34lt
也会起作用。 |
是or
声明。
答案 1 :(得分:0)
在Notepad ++中打开Replace Dialog
(CTRL + H)插入
.*?(http://.*?\.html).*?
在Find what:
输入字段和
$1\n
在Replace with:
输入字段
您必须选中复选框Regular Expression
和收件箱. match newline
点击Replace all
后,您会看到所有链接的列表 - 每行一个