我的任务是网络抓取项目。我们将一堆静态内容放入CMS中。
HtmlAgilityPack让我通过查找带有src或http =的任何内容来获取相关资源,但是css文件及其背景图像呢?有一个很好的实用程序来解析css文件来获得这个吗?
我目前的解决方案有点cthulu方式:
Regex r = new Regex(@"url\(.*\)");
foreach (var item in r.Matches(cssText))
{
///scrub url and
///mark img for download
}
答案 0 :(得分:0)
IMO根本不是cthulu。你的解决方案对我来说听起来不错......甚至可能是使用正则表达式的一个很好的例子。