这是我下载Xml的代码
import org.apache.commons.io.FileUtils;
String fileURL = "https://www.sec.gov/Archives/edgar/data/16160/000001616016000061/calm-20160528.xml";
URL url = new URL(fileURL);
File file = new File("/home/user1/Downloads/calm-20160528.xml");
FileUtils.copyURLToFile(url, file);
但是这个Downloaded XML具有像这样的特殊字符
</td>
<td valign="middle" style="width:09.78%;border-top:1pt solid #000000 ;border-left:1pt none #D9D9D9 ;border-bottom:1pt none #D9D9D9 ;border-right:1pt none #D9D9D9 ;background-color: #CCEEFF;height:15.00pt;font-family:Times New Roman;font-size:11pt;text-align:right;" nowrap="nowrap">437,556&nbsp;
我想在下载这个XML本身时摆脱这些特殊字符。
答案 0 :(得分:0)
这不是FileUtils.copyURLToFile的问题。 XML本身包含这些字符。 似乎有些XML-Tags包含html,引用它不会与xml混淆。你必须取消引用html。
答案 1 :(得分:0)
此文件是有效的XML文档,包括转义的XML片段。 因此它“按原样”有效。如果要处理它,请使用XML解析器并取消转义的XML片段。