Question

我正在尝试使用R中的read_html来阅读网站的内容。但是，对于某些网站，例如http://benchmarkrealestate.com/，我收到此错误。 Error in open.connection(x,"rb") : HTTP error 406

这个错误是什么意思？这只发生在一些网站上。我尝试在线查找，但无法找到导致此错误的确切原因。

我该如何解决这个问题？

Answer 1

请求的资源只能生成内容根据请求中发送的Accept标头可以接受。

上述句子在维基百科上被解除。

基本上，每当Web爬虫向网站发出请求时，它通常通过向其操作对等方（即Web服务器）提交特征标识字符串来标识自身，其应用程序类型和其他信息。在这种情况下，此标识在名为 用户代理 的标题字段中传输。

将网页内容返回到您的控制台的一种方法是将 用户代理 信息设置为{{1的帮助下可识别的信息包裹：

curl

您可能还想阅读header fields。