Question

HTML解析器...我最近的项目需要一个网络蜘蛛..它自动获取网页内容，它以递归方式获取链接.... 但是，它需要准确地了解其内容。喜欢标签。它运行在linux和windows ..你知道一些关于这个需求的开源。感谢名单或者关于一些建议。

Answer 1

Here是一个StackOverflow问题，展示了如何使用不同语言的大量XML / HTML解析器。如果你告诉我们你正在使用什么语言，我可以更具体，但你的答案可能已经存在。

Answer 2

取决于您正在开发的语言，尝试谷歌搜索：

html解析器语言名称

例如，对于Ruby来说，

hpricot是一个不错的选择。

Answer 3

我认为你需要知道的主题是正则表达式。

正则表达式适用于所有平台和所有语言（Java，PHP，Python，C＃，Ruby，Javascript）。使用正则表达式，您可以轻松地将其内容确定为您想要的首选形式。

Pattern p = Pattern.compile("<a\\s[^>]*href=\"([^\"]+?)\"[^>]*>");
Matcher m = p.matcher(pageContent);
while( m.find() ) { 
  System.out.println( m.group(1) );
}

上面用Java编写的代码块将提取页面中的所有锚标记并将URL提取到您的手中。

如果您没有足够的时间学习正则表达式，以下参考资料将对您有所帮助。

http://htmlparser.sourceforge.net/

HTML解析器......我最近的项目需要一个网络蜘蛛

3 个答案: