c#.net4 - 正则表达式与html敏捷包

时间:2012-05-31 04:23:11

标签: c# regex memory html-agility-pack

什么更快?我刚刚制作了一个使用HTML Agility pack的网络刮刀,它消耗了大量的内存。

使用内存分析器对其进行分析,我发现HTMLDocument,HTMLNode等实例占用了大量内存。

我觉得使用正则表达式会更快更高效,我错了吗?

2 个答案:

答案 0 :(得分:1)

根据你到底做了什么,它确实可以加快速度,并使用正则表达式释放一些内存。问题是 - 您从中提取数据的页面是多么严格和格式良好。正则表达式更容易被你在野外可能遇到的完全有效但意想不到的HTML结构所迷惑。

答案 1 :(得分:1)

reg-ex将比html agilty pack快得多。

但你应该记住,html不一定总是很好。仅使用reg-ex搜索所需的正确数据可能会失败。浏览器对错误非常宽容。

Agility pack是一个很棒的工具。它为正在消耗的内存提供了许多功能。