尝试使用 bash 脚本抓取页面时出现 curl 1020 错误

时间:2020-12-23 15:17:13

标签: bash curl web-scraping

我正在尝试编写一个 bash 脚本来访问 SSRN 上的期刊概览 page

我正在尝试为此使用 curl,它在其他网页上对我有用,但如果我尝试运行以下代码,它会为我返回 error code: 1020

curl https://papers.ssrn.com/sol3/papers.cfm?abstract_id=1925128

我认为这可能与 URL 中的问号有关,但我让它与包含问号的其他页面一起使用。

它可能与页面允许执行的操作有关。但是,我也可以使用 R 的 rvest 包访问该页面,因此我认为它通常也可以使用 bash 来工作。

1 个答案:

答案 0 :(得分:2)

该站点似乎已通过 curl 阻止访问。更改用户代理,它应该可以正常工作,即

curl --user-agent 'Chrome/79' "https://papers.ssrn.com/sol3/papersstract_id=1925128"