jsoup巨大的HTML下载

时间:2013-03-25 11:14:34

标签: java jsoup

我正在尝试下载一个HTML文件,它实际上是一个包含大约6000行的表,所以我写了这段代码

 Document _DOM=Jsoup.connect(_EXACT1_URL)
            .cookies(_COOCKIES)
            .timeout(70000)
            .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0")
            .get();

当我尝试解析我的文档(_DOM)并计算行时,我得到的是1127行 我尝试将文档String写入文件(page.html)然后解析,我得到相同的结果,文件大小约为(1.2 Mb)当我使用我的浏览器(Firefox)下载它的实际大小是( 6 Mb) 我像这样增加了JVM堆大小内存

java -Xms32m -Xmx500 -jar myJarFile.jar, unfortunately, get the same result.

我将非常感谢你的帮助。

1 个答案:

答案 0 :(得分:2)

我相信你需要设置maxBodySize(int)。默认大小为1mb。

例如:

Document _DOM = Jsoup.connect(_EXACT1_URL)
               .cookies(_COOCKIES)
               .timeout(70000)
               .maxBodySize(1024*1024*10) // Size in Bytes - 10 MB 
               .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0")
               .get();