我正在尝试使用R中的read_html
来阅读网站的内容。但是,对于某些网站,例如http://benchmarkrealestate.com/
,我收到此错误。 Error in open.connection(x,"rb") : HTTP error 406
这个错误是什么意思?这只发生在一些网站上。我尝试在线查找,但无法找到导致此错误的确切原因。
我该如何解决这个问题?
答案 0 :(得分:1)
请求的资源只能生成内容 根据请求中发送的Accept标头可以接受。
上述句子在维基百科上被解除。
基本上,每当Web爬虫向网站发出请求时,它通常通过向其操作对等方(即Web服务器)提交特征标识字符串来标识自身,其应用程序类型和其他信息。在这种情况下,此标识在名为 用户代理 的标题字段中传输。
将网页内容返回到您的控制台的一种方法是将 用户代理 信息设置为{{1的帮助下可识别的信息包裹:
curl
您可能还想阅读header fields。