Question

这是我下载Xml的代码

import org.apache.commons.io.FileUtils;

String fileURL = "https://www.sec.gov/Archives/edgar/data/16160/000001616016000061/calm-20160528.xml";
URL url = new URL(fileURL);
File file = new File("/home/user1/Downloads/calm-20160528.xml");
FileUtils.copyURLToFile(url, file);

但是这个Downloaded XML具有像这样的特殊字符

&lt;/td&gt;
                &lt;td valign="middle" style="width:09.78%;border-top:1pt solid #000000 ;border-left:1pt none #D9D9D9 ;border-bottom:1pt none #D9D9D9 ;border-right:1pt none #D9D9D9 ;background-color: #CCEEFF;height:15.00pt;font-family:Times New Roman;font-size:11pt;text-align:right;" nowrap="nowrap"&gt;437,556&amp;nbsp;

我想在下载这个XML本身时摆脱这些特殊字符。

Answer 1

这不是FileUtils.copyURLToFile的问题。 XML本身包含这些字符。似乎有些XML-Tags包含html，引用它不会与xml混淆。你必须取消引用html。

Answer 2

此文件是有效的XML文档，包括转义的XML片段。因此它“按原样”有效。如果要处理它，请使用XML解析器并取消转义的XML片段。

从URL下载XML而不包含特殊字符

2 个答案: