我想从网站上下载一个.txt文件,我的代码可以运行,所以我没有收到错误并加载文档,但文档中充满了hmtl代码,而不是我的内容。
public static void main(String[] args) {
try {
URL website = new URL("http://www.file-upload.net/download-11700212/document.txt.html");
String filepath = "C://Users//" + System.getProperty("user.name") + "//Desktop//document.txt";
ReadableByteChannel channel = Channels.newChannel(website.openStream());
FileOutputStream stream = new FileOutputStream(filepath);
stream.getChannel().transferFrom(channel, 0, Long.MAX_VALUE);
System.out.println("Download successfull.");
} catch (Exception e) {
System.out.println("Download was not successfull.");
}
}
下载本身有效,我在桌面上获得了txt文件,但内容错误且充满了HTML代码。
请帮忙。
感谢。
答案 0 :(得分:1)
您尝试下载的网址是HTML网页,而不是文档本身。您应该尝试下载的页面上的链接是......
http://www.file-upload.net/download5.php?valid=451.69031370715&id=11700212&name=document.txt
但是,如果您希望保证下载文本文件,则应选择直接下载的文本文件,例如
答案 1 :(得分:-2)
我有一个名为Python Webscraper的Python项目,它可以读取URL并将其文本内容复制到没有HTML的文本文件中。
您需要安装名为Beautiful Soup的软件包,然后运行GitHub存储库中的代码。