Question

我正在抓取HTML页面并建立了一个类似的HTTP客户端：

client := *http.Client{
        Transport: &http.Transport{
            Dial: (&net.Dialer{
                Timeout:   30 * time.Second,
                KeepAlive: 30 * time.Second,
            }).Dial,
            TLSHandshakeTimeout:   10 * time.Second,
            ResponseHeaderTimeout: 10 * time.Second,
        },
    }

现在，当我发出多个网址的GET请求时，我不想陷入提供大量数据的网址。

response, err := client.Get(page.Url)
checkErr(err)
body, err := ioutil.ReadAll(response.Body)
checkErr(err)
page.Body = string(body)

有没有办法限制GET请求从资源接受的数据量（字节数）并停止？

Answer 1

使用io.LimitedReader

LimitedReader从R读取，但将返回的数据量限制为仅N个字节。

limitedReader := &io.LimitedReader{R: response.Body, N: limit}
body, err := ioutil.ReadAll(limitedReader)

或

body, err := ioutil.ReadAll(io.LimitReader(response.Body, limit))

Answer 2

您可以使用io.CopyN：

package main

import (
   "io"
   "net/http"
   "os"
)

func main() {
   r, e := http.Get("http://speedtest.lax.hivelocity.net")
   if e != nil {
      panic(e)
   }
   defer r.Body.Close()
   io.CopyN(os.Stdout, r.Body, 100)
}

或 Range 标题：

package main

import (
   "net/http"
   "os"
)

func main() {
   req, e := http.NewRequest("GET", "http://speedtest.lax.hivelocity.net", nil)
   if e != nil {
      panic(e)
   }
   req.Header.Set("Range", "bytes=0-99")
   res, e := new(http.Client).Do(req)
   if e != nil {
      panic(e)
   }
   defer res.Body.Close()
   os.Stdout.ReadFrom(res.Body)
}

限制对HTTP GET请求的响应中读取的数据量

2 个答案: