目标:我在NodeJS中构建了一个Web爬虫/蜘蛛。
示例:我有以下字符串:
'https://index.hu/assets/static/indexnew_css/public/global.css?v=1523632680'
'http://ogp.me/ns/fb'
我想过滤第一个,因为它是一个静态.css文件。我可以使用匹配.css .js .svg(等)的正则表达式,但这也会过滤掉一些对其他网站有效引用的链接。
我想到的另一个选项是在解析URL-s之前从html中删除所有script
和style
个元素。
有更好的选择吗?