HTML解析器...我最近的项目需要一个网络蜘蛛..它自动获取网页内容,它以递归方式获取链接.... 但是,它需要准确地了解其内容。喜欢标签。 它运行在linux和windows ..你知道一些关于这个需求的开源。 感谢名单 或者关于一些建议。
答案 0 :(得分:3)
Here是一个StackOverflow问题,展示了如何使用不同语言的大量XML / HTML解析器。如果你告诉我们你正在使用什么语言,我可以更具体,但你的答案可能已经存在。
答案 1 :(得分:0)
答案 2 :(得分:-1)
我认为你需要知道的主题是正则表达式。
正则表达式适用于所有平台和所有语言(Java,PHP,Python,C#,Ruby,Javascript)。 使用正则表达式,您可以轻松地将其内容确定为您想要的首选形式。
Pattern p = Pattern.compile("<a\\s[^>]*href=\"([^\"]+?)\"[^>]*>");
Matcher m = p.matcher(pageContent);
while( m.find() ) {
System.out.println( m.group(1) );
}
上面用Java编写的代码块将提取页面中的所有锚标记并将URL提取到您的手中。
如果您没有足够的时间学习正则表达式,以下参考资料将对您有所帮助。