标签: java tree html-parsing webpage xml-parsing
我需要获取给定的网页,然后将HTML标记转换为XML标记,并且从这些XML标记我需要构建一个树。我怎样才能做到这一点 ??请告诉我一些基于这些的好链接或教程,顺便说一句,我使用的是java语言。
感谢。
答案 0 :(得分:1)
HttpClient获取数据。 HtmlCleaner将其转换为XML。
两者都有教程。
答案 1 :(得分:0)
查看Apache http://hc.apache.org/httpcomponents-client-ga/和http://htmlcleaner.sourceforge.net/