从URL列表中过滤对静态文件的引用的最佳方法

时间:2018-04-14 11:06:11

标签: javascript node.js parsing

目标:我在NodeJS中构建了一个Web爬虫/蜘蛛。

示例:我有以下字符串:

'https://index.hu/assets/static/indexnew_css/public/global.css?v=1523632680'
'http://ogp.me/ns/fb'

我想过滤第一个,因为它是一个静态.css文件。我可以使用匹配.css .js .svg(等)的正则表达式,但这也会过滤掉一些对其他网站有效引用的链接。

我想到的另一个选项是在解析URL-s之前从html中删除所有scriptstyle个元素。

有更好的选择吗?

0 个答案:

没有答案