什么更快?我刚刚制作了一个使用HTML Agility pack的网络刮刀,它消耗了大量的内存。
使用内存分析器对其进行分析,我发现HTMLDocument,HTMLNode等实例占用了大量内存。
我觉得使用正则表达式会更快更高效,我错了吗?
答案 0 :(得分:1)
根据你到底做了什么,它确实可以加快速度,并使用正则表达式释放一些内存。问题是 - 您从中提取数据的页面是多么严格和格式良好。正则表达式更容易被你在野外可能遇到的完全有效但意想不到的HTML结构所迷惑。
答案 1 :(得分:1)
reg-ex将比html agilty pack快得多。
但你应该记住,html不一定总是很好。仅使用reg-ex搜索所需的正确数据可能会失败。浏览器对错误非常宽容。
Agility pack是一个很棒的工具。它为正在消耗的内存提供了许多功能。