我无法从网站获取所有字节

时间:2012-10-17 17:05:05

标签: java byte inputstream datainputstream

我正在尝试从网站读取所有字节,但我想我没有得到所有字节。我给出了字节数组长度的高值。我使用了这个方法,但它总是返回一个异常。

以下是代码:

DataInputStream dis = new DataInputStream(s2.getInputStream());

byte[] bytes = new byte[900000];

// Read in the bytes
int offset = 0;
int numRead = 0;
while (offset < bytes.length
    && (numRead=dis.read(bytes, offset, bytes.length-offset)) >= 0) {
        offset += numRead;
}

// Ensure all the bytes have been read in
if (offset < bytes.length) {
    throw new IOException("Could not completely read website");
}
out.write(bytes);

编辑版本:

ByteArrayOutputStream bais = new ByteArrayOutputStream();
InputStream is = null;
try {
    is = s2.getInputStream();
    byte[] byteChunk = new byte[4096]; // Or whatever size you want to read in at a time.
    int n;
    while ( (n = is.read(byteChunk)) > 0 ) {
        bais.write(byteChunk, 0, n);
    }
}
catch (IOException e) {
    System.err.printf ("Failed while reading bytes");
    e.printStackTrace ();
    // Perform any other exception handling that's appropriate.
}
finally {
    if (is != null) { is.close(); }
}
byte[] asd = bais.toByteArray();
out.write(asd);

2 个答案:

答案 0 :(得分:3)

这是问题所在:

if (offset < bytes.length)

如果原始数据超过900,000字节,您将触发。如果响应完全以小于该值完成,read()将正确返回-1以指示流的结束。

如果offset 等于bytes.length,您实际上应该抛出异常,因为这表示您可能截断了数据:)

目前尚不清楚从哪里获得900,000的价值,请注意......

我建议如果你想坚持使用原始流,可以使用GuavaByteStreams.toByteArray方法来读取所有数据。或者,您可以继续循环,读入较小的缓冲区,在每次迭代时写入ByteArrayOutputStream

答案 1 :(得分:1)

我意识到这不会回答您的特定问题。但是,当HttpClient等库存在并调试/分析等等时,我真的不会手工编写这类东西。

e.g。这是如何使用流利的界面

Request.Get("http://targethost/homepage").execute().returnContent();
如果您正在处理抓取和抓取HTML,

JSoup是另一种选择。