Question

我想从网站上下载一个.txt文件，我的代码可以运行，所以我没有收到错误并加载文档，但文档中充满了hmtl代码，而不是我的内容。

public static void main(String[] args) {
    try {
        URL website = new URL("http://www.file-upload.net/download-11700212/document.txt.html");
        String filepath = "C://Users//" + System.getProperty("user.name") + "//Desktop//document.txt";

        ReadableByteChannel channel = Channels.newChannel(website.openStream());
        FileOutputStream stream = new FileOutputStream(filepath);

        stream.getChannel().transferFrom(channel, 0, Long.MAX_VALUE);

        System.out.println("Download successfull.");
    } catch (Exception e) {
        System.out.println("Download was not successfull.");
    }
}

下载本身有效，我在桌面上获得了txt文件，但内容错误且充满了HTML代码。

请帮忙。

感谢。

Answer 1

您尝试下载的网址是HTML网页，而不是文档本身。您应该尝试下载的页面上的链接是......

http://www.file-upload.net/download5.php?valid=451.69031370715&id=11700212&name=document.txt

但是，如果您希望保证下载文本文件，则应选择直接下载的文本文件，例如

http://humanstxt.org/humans.txt

Answer 2

我有一个名为Python Webscraper的Python项目，它可以读取URL并将其文本内容复制到没有HTML的文本文件中。

您需要安装名为Beautiful Soup的软件包，然后运行GitHub存储库中的代码。

Java：从URL下载.txt文件

2 个答案: