HTML解析器......我最近的项目需要一个网络蜘蛛

时间:2009-09-25 02:51:47

标签: html parsing web-crawler

HTML解析器...我最近的项目需要一个网络蜘蛛..它自动获取网页内容,它以递归方式获取链接.... 但是,它需要准确地了解其内容。喜欢标签。 它运行在linux和windows ..你知道一些关于这个需求的开源。 感谢名单 或者关于一些建议。

3 个答案:

答案 0 :(得分:3)

Here是一个StackOverflow问题,展示了如何使用不同语言的大量XML / HTML解析器。如果你告诉我们你正在使用什么语言,我可以更具体,但你的答案可能已经存在。

答案 1 :(得分:0)

取决于您正在开发的语言,尝试谷歌搜索:

html解析器语言名称

例如,对于Ruby来说,

hpricot是一个不错的选择。

答案 2 :(得分:-1)

我认为你需要知道的主题是正则表达式。

正则表达式适用于所有平台和所有语言(Java,PHP,Python,C#,Ruby,Javascript)。 使用正则表达式,您可以轻松地将其内容确定为您想要的首选形式。

Pattern p = Pattern.compile("<a\\s[^>]*href=\"([^\"]+?)\"[^>]*>");
Matcher m = p.matcher(pageContent);
while( m.find() ) { 
  System.out.println( m.group(1) );
}

上面用Java编写的代码块将提取页面中的所有锚标记并将URL提取到您的手中。

如果您没有足够的时间学习正则表达式,以下参考资料将对您有所帮助。

http://htmlparser.sourceforge.net/