从xml解析文本

时间:2017-05-23 18:30:44

标签: java xml

我有以下链接

https://hero.epa.gov/hero/ws/swift.cfc?method=getProjectRIS&project_id=993&getallabstracts=true

我想解析这个xml只获取文本,比如

Provider: HERO - 2.xx
DBvendor=EPA
Text-encoding=UTF-8

我该如何解析它?

3 个答案:

答案 0 :(得分:2)

嗯,它不是一个文本文件,它是一个HTML文件。如果您在浏览器中打开文件并选择view source,则可以看到<char>标记中包含的文字。

当它在浏览器中打开时,这些标签和其他HTML内容将被解释并在页面上呈现输出(这就是为什么它看起来像文本)。如果您想在Java中实现类似的行为,那么您应该查看PhantomJS和/或JSoup示例。

答案 1 :(得分:0)

它看起来像一个文本文件,但它是一个XML文件,浏览器只显示其文本内容。 验证右键单击并查看页面源。

答案 2 :(得分:0)

您可以使用像Jsoup这样的库来解析文件并获取内容。

https://jsoup.org/cookbook/introduction/parsing-a-document