标签: java xml
我有以下链接
https://hero.epa.gov/hero/ws/swift.cfc?method=getProjectRIS&project_id=993&getallabstracts=true
我想解析这个xml只获取文本,比如
Provider: HERO - 2.xx DBvendor=EPA Text-encoding=UTF-8
我该如何解析它?
答案 0 :(得分:2)
嗯,它不是一个文本文件,它是一个HTML文件。如果您在浏览器中打开文件并选择view source,则可以看到<char>标记中包含的文字。
view source
<char>
当它在浏览器中打开时,这些标签和其他HTML内容将被解释并在页面上呈现输出(这就是为什么它看起来像文本)。如果您想在Java中实现类似的行为,那么您应该查看PhantomJS和/或JSoup示例。
HTML
答案 1 :(得分:0)
它看起来像一个文本文件,但它是一个XML文件,浏览器只显示其文本内容。 验证右键单击并查看页面源。
答案 2 :(得分:0)
您可以使用像Jsoup这样的库来解析文件并获取内容。
https://jsoup.org/cookbook/introduction/parsing-a-document