HTML Agility Pack与正则表达式

时间:2010-02-10 13:44:09

标签: regex html-agility-pack

如果我正在创建一个简单的网络抓取工具(从根网址抓取所有链接,然后从这些链接获取所有电子邮件),是否值得使用HTML Agility Pack?我实际上并没有查看HTML标签,我只是想在整个文档中扫描电子邮件。

使用HTML敏捷包会更有效吗?

我正严格剥离它们,因为我有必要收到这些电子邮件,并且大约有100个链接。只会抓取约500封电子邮件。不用担心,我在这里牢记道德。

1 个答案:

答案 0 :(得分:2)

关于这一点有很多问题 - 我读过的大部分内容都说 - 不要使用正则表达式进行网页报废。

另一方面 - 如果您想要的只是文本解析而不管文本的HTML性质(如果我理解正确的话,您可以这样做),那么使用正则表达式可能会更好。